intel
diff --git a/‎scripts/cpu/gen-sparse-cpu-ops.py
Lines changed: 1 addition & 1 deletion b/‎scripts/cpu/gen-sparse-cpu-ops.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎torch_ipex/csrc/aten_ipex_bridge.cpp
Lines changed: 1 addition & 0 deletions b/‎torch_ipex/csrc/aten_ipex_bridge.cpp
Lines changed: 1 addition & 0 deletions
diff --git a/‎torch_ipex/csrc/cpu/DevOPs.cpp
Lines changed: 48 additions & 33 deletions b/‎torch_ipex/csrc/cpu/DevOPs.cpp
Lines changed: 48 additions & 33 deletions
diff --git a/‎torch_ipex/csrc/cpu/ExtendOPs.cpp
Lines changed: 6 additions & 6 deletions b/‎torch_ipex/csrc/cpu/ExtendOPs.cpp
Lines changed: 6 additions & 6 deletions
@@ -406,7 +406,7 @@ def gen_code(self):
                     if param.core_type in ['Tensor', 'Scalar']:
                         profiler_inputs.append(param.name)
                 code += '#if defined(IPEX_PROFILE_OP)\n'
-                code += '  RECORD_FUNCTION("{ns}::{name}", std::vector<c10::IValue>({{{input_names}}}));\n'.format(ns=_IPEX_OP_FUNC_NS, name=cpp_sparse_sig.def_name, input_names=', '.join(profiler_inputs))
+                code += '  RECORD_FUNCTION("{ns}::{name}", std::vector<c10::IValue>({{{input_names}}}));\n'.format(ns=_IPEX_OP_FUNC_NS, name=cpp_sparse_sig.def_name, input_names='')
                 code += '#endif\n'
 
                 code += self.gen_fallback_prepare_code(cpp_sparse_sig)
 
@@ -26,6 +26,7 @@ namespace bridge {
   TORCH_INTERNAL_ASSERT_DEBUG_ONLY(a.unsafeGetTensorImpl()->dtype() == b.unsafeGetTensorImpl()->dtype()); \
   TORCH_INTERNAL_ASSERT_DEBUG_ONLY(a.unsafeGetTensorImpl()->is_contiguous() == b.unsafeGetTensorImpl()->is_contiguous()); \
   TORCH_INTERNAL_ASSERT_DEBUG_ONLY(a.unsafeGetTensorImpl()->is_contiguous(at::MemoryFormat::ChannelsLast) == b.unsafeGetTensorImpl()->is_contiguous(at::MemoryFormat::ChannelsLast)); \
+  TORCH_INTERNAL_ASSERT_DEBUG_ONLY(a.unsafeGetTensorImpl()->is_contiguous(at::MemoryFormat::ChannelsLast3d) == b.unsafeGetTensorImpl()->is_contiguous(at::MemoryFormat::ChannelsLast3d)); \
   TORCH_INTERNAL_ASSERT_DEBUG_ONLY(a.unsafeGetTensorImpl()->is_strides_like_channels_last() == b.unsafeGetTensorImpl()->is_strides_like_channels_last()); \
   TORCH_INTERNAL_ASSERT_DEBUG_ONLY(a.unsafeGetTensorImpl()->is_non_overlapping_and_dense() == b.unsafeGetTensorImpl()->is_non_overlapping_and_dense()); \
   TORCH_INTERNAL_ASSERT_DEBUG_ONLY(a.unsafeGetTensorImpl()->is_wrapped_number() == b.unsafeGetTensorImpl()->is_wrapped_number()); \
 
@@ -232,7 +232,7 @@ std::tuple<at::Tensor,at::Tensor,at::Tensor> AtenIpexCPUDev::dil_convolution_bac
     at::IntArrayRef padding, at::IntArrayRef stride, at::IntArrayRef dilation, int64_t groups, std::array<bool,3> output_mask)
 {
   DEBUG("AtenIpexCPUDev::dil_convolution_backward\n");
-  at::Tensor grad_output = grad_output_t.is_contiguous() ? grad_output_t : grad_output_t.contiguous();
+  at::Tensor grad_output = IS_CONTIGUOUS_ANY(grad_output_t) ? grad_output_t : grad_output_t.contiguous();
   CHECK_DNNL_OP_PRE_COND(input);
   CHECK_DNNL_OP_PRE_COND(weight);
   dbl::comm::reorder_to_bf16_for_mix_prec(input);
@@ -429,14 +429,29 @@ at::Tensor AtenIpexCPUDev::dil_convolution_overrideable(const at::Tensor & input
       }
       if (dbl::chk::dnnl_support_the_tensors(dnnl_input_tensors)) {
         if (transposed) {
-          return AtenIpexCPUDev::dil_deconvolution(input.is_contiguous() ? input : input.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), (bias.has_value() && bias.value().defined()) ? (bias.value().is_contiguous() ? bias.value() : bias.value().contiguous()) : at::Tensor(), padding, output_padding, stride, dilation, groups);
+          return AtenIpexCPUDev::dil_deconvolution(
+            IS_CONTIGUOUS_ANY(input) ? input : input.contiguous(),
+            IS_CONTIGUOUS_ANY(weight) ? weight : weight.contiguous(),
+            (bias.has_value() && bias.value().defined()) ? (IS_CONTIGUOUS_ANY(bias.value()) ? bias.value() : bias.value().contiguous()) : at::Tensor(),
+            padding,
+            output_padding,
+            stride,
+            dilation,
+            groups);
         } else {
           // for int8 path, input always acbd format which is non-contiguous, .contiguous() will reorder to fp32
           auto src_dil_type = dbl::comm::try_gen_dil_tensor(input).get_data_type();
-          auto input_temp = (src_dil_type == dil::data_type::u8 || src_dil_type == dil::data_type::s8 || input.is_contiguous()) ? input : input.contiguous();
+          auto input_temp = (src_dil_type == dil::data_type::u8 || src_dil_type == dil::data_type::s8 || IS_CONTIGUOUS_ANY(input)) ? input : input.contiguous();
           auto weight_dil_type = dbl::comm::try_gen_dil_tensor(weight).get_data_type();
-          auto weight_temp = (weight_dil_type == dil::data_type::s8 || weight.is_contiguous()) ? weight : weight.contiguous();
-          return AtenIpexCPUDev::dil_convolution(input_temp, weight_temp, (bias.has_value() && bias.value().defined()) ? bias.value() : at::Tensor(), stride, padding, dilation, groups);
+          auto weight_temp = (weight_dil_type == dil::data_type::s8 || IS_CONTIGUOUS_ANY(weight)) ? weight : weight.contiguous();
+          return AtenIpexCPUDev::dil_convolution(
+            input_temp,
+            weight_temp,
+            (bias.has_value() && bias.value().defined()) ? (IS_CONTIGUOUS_ANY(bias.value()) ? bias.value() : bias.value().contiguous()) : at::Tensor(),
+            stride,
+            padding,
+            dilation,
+            groups);
         }
       }
     }
@@ -472,9 +487,9 @@ std::tuple<at::Tensor,at::Tensor,at::Tensor> AtenIpexCPUDev::dil_convolution_bac
       if (dbl::chk::dnnl_support_the_tensors(dnnl_input_tensors)) {
         if (transposed) {
           return AtenIpexCPUDev::dil_deconvolution_backward(
-            input.is_contiguous() ? input : input.contiguous(),
-            grad_output.is_contiguous() ? grad_output : grad_output.contiguous(),
-            weight.is_contiguous() ? weight : weight.contiguous(),
+            IS_CONTIGUOUS_ANY(input) ? input : input.contiguous(),
+            IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous(),
+            IS_CONTIGUOUS_ANY(weight) ? weight : weight.contiguous(),
             padding,
             output_padding,
             stride,
@@ -483,9 +498,9 @@ std::tuple<at::Tensor,at::Tensor,at::Tensor> AtenIpexCPUDev::dil_convolution_bac
             output_mask);
         } else {
           return AtenIpexCPUDev::dil_convolution_backward(
-            input.is_contiguous() ? input : input.contiguous(),
-            grad_output.is_contiguous() ? grad_output : grad_output.contiguous(),
-            weight.is_contiguous() ? weight : weight.contiguous(),
+            IS_CONTIGUOUS_ANY(input) ? input : input.contiguous(),
+            IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous(),
+            IS_CONTIGUOUS_ANY(weight) ? weight : weight.contiguous(),
             padding,
             stride,
             dilation,
@@ -577,9 +592,9 @@ std::tuple<at::Tensor,at::Tensor,at::Tensor> AtenIpexCPUDev::cpu_deconvolution_b
 
   std::vector<at::Tensor> g_input(groups), g_weight(groups), g_bias(groups);
 
-  _ipex_self = _ipex_self.is_contiguous() ? _ipex_self : _ipex_self.contiguous();
-  _ipex_grad_output = _ipex_grad_output.is_contiguous() ? _ipex_grad_output : _ipex_grad_output.contiguous();
-  _ipex_weight = _ipex_weight.is_contiguous() ? _ipex_weight : _ipex_weight.contiguous();
+  _ipex_self = IS_CONTIGUOUS_ANY(_ipex_self) ? _ipex_self : _ipex_self.contiguous();
+  _ipex_grad_output = IS_CONTIGUOUS_ANY(_ipex_grad_output) ? _ipex_grad_output : _ipex_grad_output.contiguous();
+  _ipex_weight = IS_CONTIGUOUS_ANY(_ipex_weight) ? _ipex_weight : _ipex_weight.contiguous();
   for (int g = 0; g < groups; ++g) {
     auto _ipex_self_g = dbl::comm::subtensor(_ipex_self, 1, groups, g);
     auto _ipex_grad_output_g = dbl::comm::subtensor(_ipex_grad_output, 1, groups, g);
@@ -1315,7 +1330,7 @@ std::tuple<at::Tensor, at::Tensor, at::Tensor> AtenIpexCPUDev::dil_native_batch_
   CHECK_DNNL_OP_PRE_COND(weight);
 
   IPEX_CHECK(train, "mkldnn_batch_norm_backward: currently mkldnn only support train model");
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
 
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(input, true);
@@ -1395,7 +1410,7 @@ at::Tensor AtenIpexCPUDev::dil_frozen_batch_norm_backward(const at::Tensor& grad
   CHECK_DNNL_OP_PRE_COND(input);
   CHECK_DNNL_OP_PRE_COND(weight);
 
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
 
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(input, true);
@@ -1483,7 +1498,7 @@ at::Tensor AtenIpexCPUDev::dil_avg_pool2d(
   }
 
   return dbl::pool::_dil_pooling(
-      input.is_contiguous() ? input : input.contiguous(),
+      IS_CONTIGUOUS_ANY(input) ? input : input.contiguous(),
       kernel_size,
       stride,
       padding,
@@ -1509,7 +1524,7 @@ at::Tensor AtenIpexCPUDev::dil_avg_pool3d(
   dbl::comm::reorder_to_bf16_for_mix_prec(input, true);
 
   return dbl::pool::_dil_pooling(
-      input.is_contiguous() ? input : input.contiguous(),
+      IS_CONTIGUOUS_ANY(input) ? input : input.contiguous(),
       kernel_size,
       stride,
       padding,
@@ -1592,9 +1607,9 @@ at::Tensor AtenIpexCPUDev::dil_max_pooling_backward(
   dbl::comm::reorder_to_bf16_for_mix_prec(input, true);
 
   return dbl::pool::_dil_pooling_backward(
-      grad_output.is_contiguous() ? grad_output : grad_output.contiguous(),
-      output.is_contiguous() ? output : output.contiguous(),
-      input.is_contiguous() ? input : input.contiguous(),
+      IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous(),
+      IS_CONTIGUOUS_ANY(output) ? output : output.contiguous(),
+      IS_CONTIGUOUS_ANY(input) ? input : input.contiguous(),
       kernel_size,
       stride,
       padding,
@@ -1616,14 +1631,14 @@ at::Tensor AtenIpexCPUDev::dil_avg_pool2d_backward(
   CHECK_DNNL_OP_PRE_COND(grad_output);
   CHECK_DNNL_OP_PRE_COND(input);
 
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(input, true);
 
   return dbl::pool::_dil_pooling_backward(
       grad_output_contiguous,
       grad_output_contiguous,
-      input.is_contiguous() ? input : input.contiguous(),
+      IS_CONTIGUOUS_ANY(input) ? input : input.contiguous(),
       kernel_size,
       stride,
       padding,
@@ -1646,15 +1661,15 @@ at::Tensor AtenIpexCPUDev::dil_avg_pool3d_backward(
   CHECK_DNNL_OP_PRE_COND(grad_output);
   CHECK_DNNL_OP_PRE_COND(input);
 
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(input, true);
 
   std::vector<int64_t> dilation{1, 1};
   return dbl::pool::_dil_pooling_backward(
       grad_output_contiguous,
       grad_output_contiguous,
-      input.is_contiguous() ? input : input.contiguous(),
+      IS_CONTIGUOUS_ANY(input) ? input : input.contiguous(),
       kernel_size,
       stride,
       padding,
@@ -1696,7 +1711,7 @@ at::Tensor AtenIpexCPUDev::dil_adaptive_avg_pool2d_backward(
   return dbl::pool::_dil_pooling_backward(
       grad_output,
       grad_output,
-      input.is_contiguous() ? input : input.contiguous(),
+      IS_CONTIGUOUS_ANY(input) ? input : input.contiguous(),
       kernel_size,
       /*stride*/ kernel_size,
       /*padding*/ padding,
@@ -1777,7 +1792,7 @@ at::Tensor AtenIpexCPUDev::dil_threshold_backward(const at::Tensor& grad_output,
   CHECK_DNNL_OP_PRE_COND(grad_output);
   CHECK_DNNL_OP_PRE_COND(input);
 
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(input, true);
 
@@ -1819,7 +1834,7 @@ at::Tensor AtenIpexCPUDev::dil__softmax_backward_data(
   CHECK_DNNL_OP_PRE_COND(output);
   CHECK_DNNL_OP_PRE_COND(self);
 
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(output, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(self, true);
@@ -1861,7 +1876,7 @@ at::Tensor AtenIpexCPUDev::dil__log_softmax_backward_data(
   CHECK_DNNL_OP_PRE_COND(output);
   CHECK_DNNL_OP_PRE_COND(self);
 
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(output, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(self, true);
@@ -1909,7 +1924,7 @@ at::Tensor AtenIpexCPUDev::dil_sigmoid_backward(
   CHECK_DNNL_OP_PRE_COND(grad_output);
   CHECK_DNNL_OP_PRE_COND(output);
 
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(output, true);
 
@@ -1956,7 +1971,7 @@ at::Tensor AtenIpexCPUDev::dil_tanh_backward(
   CHECK_DNNL_OP_PRE_COND(grad_output);
   CHECK_DNNL_OP_PRE_COND(output);
 
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
   dbl::comm::reorder_to_bf16_for_mix_prec(output, true);
 
@@ -2084,7 +2099,7 @@ at::Tensor AtenIpexCPUDev::dil_cat(at::TensorList tensors, int64_t dim) {
   for (auto i = 0; i < tensors.size(); i++) {
     IPEX_CHECK(!(tensors[i].dim() == 1 && tensors[i].sizes()[0] == 0),
       "Currently Mkldnn cat operators do not support empty tensor.");
-    tensors_contiguous[i] = tensors[i].is_contiguous() ? tensors[i] : tensors[i].contiguous();
+    tensors_contiguous[i] = IS_CONTIGUOUS_ANY(tensors[i]) ? tensors[i] : tensors[i].contiguous();
 
     dbl::comm::reorder_to_bf16_for_mix_prec(tensors_contiguous[i], true);
 
@@ -2448,7 +2463,7 @@ at::Tensor AtenIpexCPUDev::dil_gelu_backward(const at::Tensor& grad_output, cons
 
   dbl::comm::reorder_to_bf16_for_mix_prec(input, true);
 
-  auto grad_output_contiguous = grad_output.is_contiguous() ? grad_output : grad_output.contiguous();
+  auto grad_output_contiguous = IS_CONTIGUOUS_ANY(grad_output) ? grad_output : grad_output.contiguous();
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output_contiguous, true);
 
   dil::tensor x = dbl::comm::try_gen_dil_tensor(input);
 
@@ -36,7 +36,7 @@ void AtenIpexTypeExt::packed_add_(at::Tensor &top_half, at::Tensor &bot_half,
   TORCH_INTERNAL_ASSERT_DEBUG_ONLY(bot_half.is_contiguous());
 
 #if defined(IPEX_PROFILE_OP)
-  RECORD_FUNCTION("packed_add_", std::vector<c10::IValue>({top_half, bot_half, grad, alpha}));
+  RECORD_FUNCTION("packed_add_", std::vector<c10::IValue>({}));
 #endif
 
   if (grad.is_sparse()) {
@@ -238,7 +238,7 @@ static inline void mm_backward(at::BFloat16 *out, const at::BFloat16 *in1,
 template <typename T>
 inline at::Tensor _interaction_forward(const std::vector<at::Tensor> &input) {
 #if defined(IPEX_PROFILE_OP)
-  RECORD_FUNCTION("_interaction_forward", std::vector<c10::IValue>({input}));
+  RECORD_FUNCTION("_interaction_forward", std::vector<c10::IValue>({}));
 #endif
   uint32_t total_feature_size = 0;
   int64_t batch_size = input[0].sizes()[0];
@@ -291,7 +291,7 @@ _interaction_backward(const at::Tensor &grad_out,
   TORCH_INTERNAL_ASSERT_DEBUG_ONLY(grad_out.is_contiguous());
 #if defined(IPEX_PROFILE_OP)
   RECORD_FUNCTION("_interaction_backward",
-                  std::vector<c10::IValue>({grad_out, input}));
+                  std::vector<c10::IValue>({}));
 #endif
   uint32_t total_feature_size = 0;
   int64_t batch_size = input[0].sizes()[0];
@@ -469,7 +469,7 @@ std::vector<at::Tensor> rnn_layer(const at::Tensor& input,
     int64_t hidden_size, int64_t num_layers, bool train,
     bool bidirectional, at::IntArrayRef batch_sizes,
     const std::vector<float>& scales,
-    const std::vector<int32_t>& shift, 
+    const std::vector<int32_t>& shift,
     bool quantized) {
   TORCH_CHECK(weights.size() == 2 || weights.size() == 4);
   if (weights.size() == 4) {
@@ -523,7 +523,7 @@ std::vector<at::Tensor> rnn(
   // no need to do calibration for the output in lstm, will use the scale & zero point of the input
   // to dequantize the output from u8 to f32, need to add an "output" here but actually unused
   // For LSTM, we only need to calibrate the input to the first layer
-  // TODO: add int8 for gru and rnn. 
+  // TODO: add int8 for gru and rnn.
   if (check_auto_mix_int8_fp32() && check_int8_calibration() && static_cast<dil::rnn_kind>(mode) == dil::rnn_kind::LSTM) {
     int64_t num_ops_id = Int8OptConfig::fetch_and_add_ops_id();
     insert_or_updata_observer({input}, {input}, "lstm", num_ops_id, /*asymmetric*/true);
@@ -625,7 +625,7 @@ std::vector<at::Tensor> AtenIpexTypeExt::gru(
 at::Tensor AtenIpexTypeExt::linear_relu(const at::Tensor &input,
                                    const at::Tensor &weight,
                                    const c10::optional<at::Tensor> &bias) {
-  if (bias.has_value()) 
+  if (bias.has_value())
     return cpu::AtenIpexJITDev::dil_linear_fuse_eltwise(input, weight, bias.value(), dil::attr_t::fuse_relu());
   return cpu::AtenIpexJITDev::dil_linear_fuse_eltwise(input, weight, at::Tensor(), dil::attr_t::fuse_relu());
 }