jit: enable conv_sum and conc_sum_relu fusion

XiaobingSuper · XiaobingSuper · commit a262ee1aa3db · 2020-05-25T19:00:01.000+08:00
diff --git a/tests/cpu/test_jit.py b/tests/cpu/test_jit.py
@@ -56,6 +56,7 @@
 
 import torch
 import torch.nn as nn
+from torch.jit._recursive import wrap_cpp_module
 import copy
 
 import intel_pytorch_extension
@@ -82,29 +83,89 @@
 torch._C._jit_set_profiling_mode(False)
 torch._C._jit_set_profiling_executor(False)
 
-class Conv_relu(nn.Module):
-    def __init__(self):
-        super(Conv_relu, self).__init__()
+def test_output(model, x):
+    modelName = model.__class__.__name__
+    core.disable_jit()
+
+    model = model.to('dpcpp').eval()
+    x = x.to('dpcpp')
+    with torch.no_grad():
+        result = model(x)
+
+    smodel = torch.jit.script(model)
+    smodel.eval()
+    with torch.no_grad():
+        sresult = smodel(x)
+
+    print(f'\nAre {modelName} and Scripted{modelName} outputs the same: ',
+          torch.allclose(
+              sresult, result, rtol=1e-05, atol=1e-06, equal_nan=False))
+
+    core.enable_jit()
+    pmodel = torch.jit.script(model)
+    # bn folding
+    pmodel = wrap_cpp_module(torch._C._jit_pass_fold_convbn(pmodel._c))
+    with torch.no_grad():
+        # conv relu fusion, conv sum fusion or conv sum relu fusion
+        print(pmodel.graph_for(x))
+        presult = pmodel(x)
+
+    # print(result)
+    # print(sresult)
+    # print(presult)
+
+    print(f'\nWith or without pyrys, are Scripted{modelName} outputs the same: ',
+          torch.allclose(
+                sresult, presult, rtol=1e-05, atol=1e-06, equal_nan=False))
+
+class Conv2dRelu_Fixed(nn.Module):
+    def __init__(self, in_channels, out_channels, **kwargs):
+        super(Conv2dRelu_Fixed, self).__init__()
+        seed = 2018
+        torch.manual_seed(seed)
+        self.conv = nn.Conv2d(in_channels, out_channels, bias=False, **kwargs)
+
+    def forward(self, x):
+        return F.relu(self.conv(x), inplace=True)
+
+class CascadedConv2dBnSumRelu(nn.Module):
+    def __init__(self, in_channels, mid_channels, out_channels, **kwargs):
+        super(CascadedConv2dBnSumRelu, self).__init__()
         torch.manual_seed(2018)
-        self.conv = torch.nn.Conv2d(20, 20, 5)
+        self.conv = nn.Conv2d(in_channels, mid_channels, bias=False, **kwargs)
+        self.conv1 = nn.Conv2d(
+            mid_channels, out_channels, bias=False, padding=1, **kwargs)
+        self.conv2 = nn.Conv2d(in_channels, out_channels, bias=False, **kwargs)
+        self.bn = nn.BatchNorm2d(mid_channels, eps=0.001)
+        self.bn1 = nn.BatchNorm2d(out_channels, eps=0.001)
+        self.bn2 = nn.BatchNorm2d(out_channels, eps=0.001)
 
     def forward(self, x):
-        x = self.conv(x)
-        return x.relu()
-
-class TestJITOP(TestCase):
-    def test_conv_relu_fusion(self):
-        x = torch.randn(1, 20, 20, 20).to('dpcpp')
-
-        model = Conv_relu().to('dpcpp').eval()
-
-        with torch.no_grad():
-            core.disable_jit()
-            y1 = model(x)
-            core.enable_jit()
-            script_model =  torch.jit.script(model)
-            y2 = script_model(x)
-        self.assertEqual(y1, y2)
+        a = self.conv(x)
+        a = self.bn(a)
+        a = F.relu(a, inplace=True)
+        a = self.conv1(a)
+        a = self.bn1(a)
+        b = self.conv2(x)
+        b = self.bn2(b)
+        return F.relu(a.add_(b), inplace=True)
+
+class Tester(TestCase):
+    n = 32
+    c = 3
+    h = 224
+    w = 224
+    print('input size: (%d, %d, %d, %d)' % (n, c, h, w))
+
+    def test_output_conv_relu(self):
+        test_output(
+            Conv2dRelu_Fixed(self.c, 32, kernel_size=3, stride=1),
+            torch.rand(self.n, self.c, self.h, self.w))
+
+    def test_output_cascaded_conv2d_bn_sum_relu(self):
+        test_output(
+            CascadedConv2dBnSumRelu(self.c, 64, 32, kernel_size=3, stride=1),
+            torch.rand(self.n, self.c, self.h, self.w))
 
 if __name__ == '__main__':
     core.enable_auto_dnnl()
diff --git a/torch_ipex/csrc/cpu/FusionOPs.cpp b/torch_ipex/csrc/cpu/FusionOPs.cpp
@@ -55,5 +55,77 @@ at::Tensor AtenIpexJITDev::dil_convolution_relu(
   return dbl::comm::gen_aten_tensor_by(dil_output);
 }
 
+static at::Tensor& dil_convolution_inplace_fusion(
+    const at::Tensor& input,
+    const at::Tensor& weight,
+    const at::Tensor& bias,
+    at::Tensor& accumu, 
+    at::IntArrayRef stride,
+    at::IntArrayRef padding,
+    at::IntArrayRef dilation,
+    int64_t groups,
+    const dil::attr_t& attr) {
+  dil::tensor dil_input;
+  dil::tensor dil_weight;
+  dil::tensor dil_output;
+  c10::optional<dil::tensor> dil_bias{c10::nullopt};
+
+  auto input_contiguous = input.contiguous();
+  auto weight_contiguous = weight.contiguous();
+  auto output_contiguous = accumu.contiguous();
+
+  dil_input = dbl::comm::try_gen_dil_tensor(input_contiguous);
+  dil_weight = dbl::comm::try_gen_dil_tensor(weight_contiguous);
+  dil_output = dbl::comm::try_gen_dil_tensor(output_contiguous);
+  if (bias.defined()) {
+    auto bias_contiguous = bias.contiguous();
+    dil_bias = dbl::comm::try_gen_dil_tensor(bias_contiguous);
+  }
+
+  dbl::conv::conv2d_inplace_impl(
+    dil_input,
+    dil_weight,
+    dil_bias,
+    dil_output,
+    padding,
+    stride,
+    dilation,
+    groups,
+    attr);
+
+  dbl::comm::sync_shape_from_dil_to_aten(accumu, dil_output);
+  return accumu;
+}
+
+at::Tensor& AtenIpexJITDev::dil_convolution_sum(
+    const at::Tensor & input,
+    const at::Tensor & weight,
+    const at::Tensor & bias,
+    at::IntArrayRef stride,
+    at::IntArrayRef padding,
+    at::IntArrayRef dilation,
+    int64_t groups,
+    at::Tensor& accumu,
+    at::Scalar alpha) {
+  auto scale = alpha.to<float>();
+  return dil_convolution_inplace_fusion(input, weight, bias, accumu, stride, padding,
+      dilation, groups, dil::attr_t::fuse_sum(scale));
+}
+
+at::Tensor& AtenIpexJITDev::dil_convolution_sum_relu(
+    const at::Tensor & input,
+    const at::Tensor & weight,
+    const at::Tensor & bias,
+    at::IntArrayRef stride,
+    at::IntArrayRef padding,
+    at::IntArrayRef dilation,
+    int64_t groups,
+    at::Tensor& accumu,
+    at::Scalar alpha) {
+  auto scale = alpha.to<float>();
+  return dil_convolution_inplace_fusion(input, weight, bias, accumu, stride, padding,
+      dilation, groups, dil::attr_t::residual(scale));
+}
+
 }  // namespace cpu
 }  // namespace torch_ipex
diff --git a/torch_ipex/csrc/cpu/FusionOPs.h b/torch_ipex/csrc/cpu/FusionOPs.h
@@ -11,12 +11,11 @@ namespace torch { namespace jit {
 // XXX: PyTorch does not support nesting namespace
 // And the alias analysis is not working for namespace other than aten ...
 // So we fake some op namespaces to workaround that.
-namespace dnnl {
-  static auto conv2d_relu = Symbol::fromQualString("dnnl::conv2d_relu");
-  static auto conv2d_sum = Symbol::fromQualString("dnnl::conv2d_sum");
-  static auto conv2d_relu_sum = Symbol::fromQualString("dnnl::conv2d_relu_sum");
-  static auto conv2d_sum_relu = Symbol::fromQualString("dnnl::conv2d_sum_relu");
-
+namespace ipex {
+  static auto conv2d_relu = Symbol::fromQualString("ipex::conv2d_relu");
+  static auto conv2d_sum = Symbol::fromQualString("ipex::conv2d_sum");
+  static auto conv2d_relu_sum = Symbol::fromQualString("ipex::conv2d_relu_sum");
+  static auto conv2d_sum_relu = Symbol::fromQualString("ipex::conv2d_sum_relu");
 }
 
 }} // namespace torch::jit
@@ -29,6 +28,10 @@ class AtenIpexJITDev {
   // for JIT ops
   static at::Tensor dil_convolution_relu(const at::Tensor & input, const at::Tensor & weight, const at::Tensor & bias, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, int64_t groups);
 
+  static at::Tensor& dil_convolution_sum(const at::Tensor& input, const at::Tensor& weight, const at::Tensor& bias, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, int64_t groups, at::Tensor& accumu, at::Scalar alpha);
+
+  static at::Tensor& dil_convolution_sum_relu( const at::Tensor& input, const at::Tensor& weight, const at::Tensor& bias, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, int64_t groups, at::Tensor& accumu, at::Scalar alpha);
+
 };
 
 }  // namespace cpu
diff --git a/torch_ipex/csrc/cpu/dbl/Common.cpp b/torch_ipex/csrc/cpu/dbl/Common.cpp
@@ -91,15 +91,13 @@ void sync_shape_from_dil_to_aten(const at::Tensor& ipex_tensor, const dil::tenso
   dil::dims sizes = dil_tensor.get_dims();
   if (dil_tensor.is_public_format()) {
     dil::dims strides = dil_tensor.get_strides();
-    TORCH_INTERNAL_ASSERT_DEBUG_ONLY(ipex_tensor.device().type() == at::DeviceType::DPCPP);
     auto* _tensor_impl = (IPEXTensorImpl *)ipex_tensor.unsafeGetTensorImpl();
     _tensor_impl->force_set_strided(sizes, strides);
   } else {
     // Blockformat does not inlcude stride information
     TORCH_INTERNAL_ASSERT_DEBUG_ONLY(sizes.size() != 1 || sizes[0] != 0);
     ipex_tensor.unsafeGetTensorImpl()->set_sizes_contiguous(sizes);
   }
-
 }
 
 }  // namespace comm
diff --git a/torch_ipex/csrc/cpu/dbl/Conv.cpp b/torch_ipex/csrc/cpu/dbl/Conv.cpp
@@ -86,6 +86,67 @@ dil::tensor conv2d_impl(
   return y;
 }
 
+void conv2d_inplace_impl(
+    const dil::tensor& x,
+    const dil::tensor& w,
+    const c10::optional<dil::tensor>& b,
+    dil::tensor& y,
+    at::IntArrayRef padding,
+    at::IntArrayRef stride,
+    at::IntArrayRef dilation,
+    int64_t groups,
+    const dil::attr_t& attr) {
+  std::vector<int64_t> kernel_size(x.ndims());
+  // mkldnn conv2d weights could have been re-ordered to 5d by
+  // mkldnn_reorder_conv2d_weight
+  if (w.ndims() == x.ndims() + 1) {
+    AT_ASSERTM(
+      groups > 1,
+      "Only group _mkldnn_conv2d weights could have been reordered to 5d");
+    kernel_size[0] = w.get_dim(0) * w.get_dim(1);
+    std::copy_n(w.get_dims().cbegin() + 2, x.ndims() - 1, kernel_size.begin() + 1);
+  } else {
+    std::copy_n(w.get_dims().cbegin(), x.ndims(), kernel_size.begin());
+  }
+
+  const dil::dims x_dims = x.get_dims();
+  std::vector<int64_t> input_size{x_dims.cbegin(), x_dims.cend()};
+  std::vector<int64_t> output_sizes = calc_conv_output_size(input_size, kernel_size, padding, stride, dilation);
+
+  if (b.has_value()) {
+    dil::convolution_forward::compute(
+      x,
+      w,
+      b.value(),
+      {output_sizes.cbegin(), output_sizes.cend()},
+      y,
+      {stride.begin(), stride.end()},
+      {dilation.begin(), dilation.end()},
+      {padding.begin(), padding.end()},
+      {padding.begin(), padding.end()},
+      groups,
+      dil::scale_t(),
+      dil::scale_t(),
+      dil::scale_t(),
+      attr);
+  } else {
+    dil::convolution_forward::compute(
+      x,
+      w,
+      {output_sizes.cbegin(), output_sizes.cend()},
+      y,
+      {stride.begin(), stride.end()},
+      {dilation.begin(), dilation.end()},
+      {padding.begin(), padding.end()},
+      {padding.begin(), padding.end()},
+      groups,
+      dil::scale_t(),
+      dil::scale_t(),
+      dil::scale_t(),
+      attr);
+  }
+}
+
 }  // namespace conv
 }  // namespace dbl
 }  // namespace cpu
diff --git a/torch_ipex/csrc/cpu/dbl/Conv.h b/torch_ipex/csrc/cpu/dbl/Conv.h
@@ -28,6 +28,17 @@ dil::tensor conv2d_impl(
     int64_t groups,
     const dil::attr_t& attr = dil::attr_t());
 
+void conv2d_inplace_impl(
+    const dil::tensor& x,
+    const dil::tensor& w,
+    const c10::optional<dil::tensor>& b,
+    dil::tensor& y,
+    at::IntArrayRef padding,
+    at::IntArrayRef stride,
+    at::IntArrayRef dilation,
+    int64_t groups,
+    const dil::attr_t& attr = dil::attr_t());
+
 }  // namespace conv
 }  // namespace dbl
 }  // namespace cpu
diff --git a/torch_ipex/csrc/jit/fusion_pass.cpp b/torch_ipex/csrc/jit/fusion_pass.cpp
@@ -275,16 +275,14 @@ class OpFuser {
 
 // TODO: These rules should be more scalable
 OpFuser::RuleTab OpFuser::dnnlRules = {
-  {{aten::conv2d, aten::relu}, dnnl::conv2d_relu},
-  {{aten::conv2d, Symbol::fromQualString("aten::relu_")}, dnnl::conv2d_relu},
-  /*
-  {{AtenIpexCPUDev::conv2d_sum, AtenIpexCPUDev::relu}, AtenIpexCPUDev::conv2d_sum_relu},
-  {{AtenIpexCPUDev::conv2d_sum, dnnl::relu_}, AtenIpexCPUDev::conv2d_sum_relu},
-
-  {{aten::conv2d, aten::add}, AtenIpexCPUDev::conv2d_sum},
-  {{aten::conv2d, aten::add_}, AtenIpexCPUDev::conv2d_sum},
-  {{AtenIpexCPUDev::conv2d_relu, aten::add}, AtenIpexCPUDev::conv2d_relu_sum}
-  */
+  {{aten::conv2d, aten::relu}, ipex::conv2d_relu},
+  {{aten::conv2d, Symbol::fromQualString("aten::relu_")}, ipex::conv2d_relu},
+  {{ipex::conv2d_sum, aten::relu}, ipex::conv2d_sum_relu},
+  {{ipex::conv2d_sum, Symbol::fromQualString("aten::relu_")}, ipex::conv2d_sum_relu},
+
+  {{aten::conv2d, aten::add}, ipex::conv2d_sum},
+  {{aten::conv2d, aten::add_}, ipex::conv2d_sum},
+  //{{dnnl::conv2d_relu, aten::add}, dnnl::conv2d_relu_sum}
 };
 
 void FusionPass(std::shared_ptr<Graph> &graph) {
diff --git a/torch_ipex/csrc/jit/register_dnnl_jit_ops.cpp b/torch_ipex/csrc/jit/register_dnnl_jit_ops.cpp