Add customer ops ROIAlign and nms into Autocast (#9)

jiayisunx · web-flow · commit 3fec41ed1969 · 2021-05-07T16:14:11.000+08:00
diff --git a/intel_pytorch_extension_py/ops/nms.py b/intel_pytorch_extension_py/ops/nms.py
@@ -1,4 +1,4 @@
-import _torch_ipex as core
+import torch
 
-nms = core.nms
-batch_score_nms = core.batch_score_nms
+nms = torch.ops.torch_ipex.nms
+batch_score_nms = torch.ops.torch_ipex.batch_score_nms
diff --git a/intel_pytorch_extension_py/ops/roi_align.py b/intel_pytorch_extension_py/ops/roi_align.py
@@ -5,8 +5,6 @@
 from torch.autograd.function import once_differentiable
 from torch.nn.modules.utils import _pair
 
-import _torch_ipex as core
-
 
 class _ROIAlign(Function):
     @staticmethod
@@ -16,7 +14,7 @@ def forward(ctx, input, roi, output_size, spatial_scale, sampling_ratio):
         ctx.spatial_scale = spatial_scale
         ctx.sampling_ratio = sampling_ratio
         ctx.input_shape = input.size()
-        output = core.roi_align_forward(
+        output = torch.ops.torch_ipex.ROIAlign_forward(
             input, roi, spatial_scale, output_size[0], output_size[1], sampling_ratio
         )
         return output
@@ -29,7 +27,7 @@ def backward(ctx, grad_output):
         spatial_scale = ctx.spatial_scale
         sampling_ratio = ctx.sampling_ratio
         bs, ch, h, w = ctx.input_shape
-        grad_input = core.roi_align_backward(
+        grad_input = torch.ops.torch_ipex.ROIAlign_backward(
             grad_output,
             rois,
             spatial_scale,
diff --git a/torch_ipex/csrc/cpu/ExtendOPs.h b/torch_ipex/csrc/cpu/ExtendOPs.h
@@ -11,29 +11,29 @@ class AtenIpexTypeExt {
  public:
   static at::Tensor ROIAlign_forward(const at::Tensor& input,
                                      const at::Tensor& rois,
-                                     const float spatial_scale,
-                                     const int pooled_height,
-                                     const int pooled_width,
-                                     const int sampling_ratio);
+                                     const double spatial_scale,
+                                     const int64_t pooled_height,
+                                     const int64_t pooled_width,
+                                     const int64_t sampling_ratio);
 
   static at::Tensor ROIAlign_backward(const at::Tensor& grad,
                                       const at::Tensor& rois,
-                                      const float spatial_scale,
-                                      const int pooled_height,
-                                      const int pooled_width,
-                                      const int batch_size,
-                                      const int channels,
-                                      const int height,
-                                      const int width,
-                                      const int sampling_ratio);
+                                      const double spatial_scale,
+                                      const int64_t pooled_height,
+                                      const int64_t pooled_width,
+                                      const int64_t batch_size,
+                                      const int64_t channels,
+                                      const int64_t height,
+                                      const int64_t width,
+                                      const int64_t sampling_ratio);
     
   static at::Tensor nms(const at::Tensor& dets,
                         const at::Tensor& scores,
-                        const float threshold);
+                        const double threshold);
 
   static std::tuple<at::Tensor, at::Tensor, at::Tensor> batch_score_nms(const at::Tensor& dets,
                         const at::Tensor& scores,
-                        const float threshold);
+                        const double threshold);
 
   static at::Tensor interaction_forward(const std::vector<at::Tensor> & input);
   static std::vector<at::Tensor> interaction_backward(const at::Tensor & grad_out, 
diff --git a/torch_ipex/csrc/cpu/ROIAlign.cpp b/torch_ipex/csrc/cpu/ROIAlign.cpp
@@ -1,5 +1,7 @@
 // Copyright (c) Facebook, Inc. and its affiliates. All Rights Reserved.
 #include "ExtendOPs.h"
+#include "torch_ipex/csrc/autocast_mode.h"
+#include "torch_ipex/csrc/autocast_verbose.h"
 namespace torch_ipex {
 
 // implementation taken from Caffe2
@@ -492,37 +494,93 @@ at::Tensor ROIAlign_backward_cpu(const at::Tensor& grad,
 
 at::Tensor AtenIpexTypeExt::ROIAlign_forward(const at::Tensor& input,
                                              const at::Tensor& rois,
-                                             const float spatial_scale,
-                                             const int pooled_height,
-                                             const int pooled_width,
-                                             const int sampling_ratio) {
+                                             const double spatial_scale,
+                                             const int64_t pooled_height,
+                                             const int64_t pooled_width,
+                                             const int64_t sampling_ratio) {
 #if defined(IPEX_DISP_OP)
   printf("AtenIpexTypeExt::ROIAlign_forward\n");
 #endif
 #if defined(IPEX_PROFILE_OP)
   RECORD_FUNCTION("AtenIpexTypeExt::ROIAlign_forward", std::vector<c10::IValue>({}));
 #endif
-  return ROIAlign_forward_cpu(input.contiguous().to(torch::kFloat), rois, spatial_scale, pooled_height, pooled_width, sampling_ratio);
+// input needs to be converted to contiguous temporarily, because ROIAlign dose not support channel-last format yet.
+  return ROIAlign_forward_cpu(input.contiguous(), rois, spatial_scale, pooled_height, pooled_width, sampling_ratio);
 }
 
 at::Tensor AtenIpexTypeExt::ROIAlign_backward(const at::Tensor& grad,
                                               const at::Tensor& rois,
-                                              const float spatial_scale,
-                                              const int pooled_height,
-                                              const int pooled_width,
-                                              const int batch_size,
-                                              const int channels,
-                                              const int height,
-                                              const int width,
-                                              const int sampling_ratio) {
+                                              const double spatial_scale,
+                                              const int64_t pooled_height,
+                                              const int64_t pooled_width,
+                                              const int64_t batch_size,
+                                              const int64_t channels,
+                                              const int64_t height,
+                                              const int64_t width,
+                                              const int64_t sampling_ratio) {
 #if defined(IPEX_DISP_OP)
   printf("AtenIpexTypeExt::ROIAlign_backward\n");
 #endif
 #if defined(IPEX_PROFILE_OP)
   RECORD_FUNCTION("AtenIpexTypeExt::ROIAlign_backward", std::vector<c10::IValue>({}));
 #endif
-  return ROIAlign_backward_cpu(grad.contiguous().to(torch::kFloat), rois, spatial_scale, pooled_height, pooled_width, batch_size, channels, height, width, sampling_ratio);
+// grad needs to be converted to contiguous temporarily, because ROIAlign dose not support channel-last format yet.
+  return ROIAlign_backward_cpu(grad.contiguous(), rois, spatial_scale, pooled_height, pooled_width, batch_size, channels, height, width, sampling_ratio);
 }
 
+} // namespace torch_ipex
+
+namespace {
+static auto dispatch =
+    torch::RegisterOperators()
+        .op("torch_ipex::ROIAlign_forward", &torch_ipex::AtenIpexTypeExt::ROIAlign_forward)
+        .op("torch_ipex::ROIAlign_backward", &torch_ipex::AtenIpexTypeExt::ROIAlign_backward);
+}
+
+namespace torch_ipex {
+namespace autocast {
+
+at::Tensor ROIAlign_forward(const at::Tensor& input,
+                            const at::Tensor& rois,
+                            const double spatial_scale,
+                            const int64_t pooled_height,
+                            const int64_t pooled_width,
+                            const int64_t sampling_ratio) {
+  c10::impl::ExcludeDispatchKeyGuard no_autocastCPU(DispatchKey::AutocastCPU);
+  static auto op = torch::Dispatcher::singleton()
+    .findSchemaOrThrow("torch_ipex::ROIAlign_forward", "")
+    .typed<decltype(ROIAlign_forward)>();
+#if defined(ENABLE_AUTOCAST_VERBOSE)
+  verbose::OpNameGuard op_name("ROIAlign_forward");
+#endif
+  return op.call(cpu_cached_cast(at::kFloat, input), rois, spatial_scale, pooled_height, pooled_width, sampling_ratio);
 }
 
+at::Tensor ROIAlign_backward(const at::Tensor& grad,
+                             const at::Tensor& rois,
+                             const double spatial_scale,
+                             const int64_t pooled_height,
+                             const int64_t pooled_width,
+                             const int64_t batch_size,
+                             const int64_t channels,
+                             const int64_t height,
+                             const int64_t width,
+                             const int64_t sampling_ratio) {
+  c10::impl::ExcludeDispatchKeyGuard no_autocastCPU(DispatchKey::AutocastCPU);
+  static auto op = torch::Dispatcher::singleton()
+    .findSchemaOrThrow("torch_ipex::ROIAlign_backward", "")
+    .typed<decltype(ROIAlign_backward)>();
+#if defined(ENABLE_AUTOCAST_VERBOSE)
+  verbose::OpNameGuard op_name("ROIAlign_backward");
+#endif
+  return op.call(cpu_cached_cast(at::kFloat, grad), rois, spatial_scale, pooled_height, pooled_width, batch_size, channels, height, width, sampling_ratio);
+}
+
+TORCH_LIBRARY_IMPL(torch_ipex, AutocastCPU, m){
+  m.impl("ROIAlign_forward", torch_ipex::autocast::ROIAlign_forward);
+  m.impl("ROIAlign_backward", torch_ipex::autocast::ROIAlign_backward);
+}
+
+} // namespace autocast
+} // namespace torch_ipex
+
diff --git a/torch_ipex/csrc/cpu/nms.cpp b/torch_ipex/csrc/cpu/nms.cpp
@@ -4,6 +4,8 @@
 #include <algorithm>
 #include <c10/util/Exception.h>
 #include <torch/csrc/autograd/function.h>
+#include "torch_ipex/csrc/autocast_mode.h"
+#include "torch_ipex/csrc/autocast_verbose.h"
 namespace torch_ipex {
 
 /*
@@ -176,7 +178,7 @@ std::tuple<at::Tensor, at::Tensor, at::Tensor> batch_score_nms_cpu(const at::Ten
 
 at::Tensor AtenIpexTypeExt::nms(const at::Tensor& dets,
                const at::Tensor& scores,
-               const float threshold) {
+               const double threshold) {
 #if defined(IPEX_DISP_OP)
   printf("IpexExternal::nms\n");
 #endif
@@ -195,7 +197,7 @@ at::Tensor AtenIpexTypeExt::nms(const at::Tensor& dets,
 
 std::tuple<at::Tensor, at::Tensor, at::Tensor> AtenIpexTypeExt::batch_score_nms(const at::Tensor& dets,
                const at::Tensor& scores,
-               const float threshold) {
+               const double threshold) {
 #if defined(IPEX_DISP_OP)
   printf("IpexExternal::batch_score_nms\n");
 #endif
@@ -211,4 +213,50 @@ std::tuple<at::Tensor, at::Tensor, at::Tensor> AtenIpexTypeExt::batch_score_nms(
   //return std::tuple<at::Tensor,at::Tensor,at::Tensor>(bridge::shallowUpgradeToDPCPPTensor(std::get<0>(_ipex_result)), bridge::shallowUpgradeToDPCPPTensor(std::get<1>(_ipex_result)), bridge::shallowUpgradeToDPCPPTensor(std::get<2>(_ipex_result)));
   return std::tuple<at::Tensor,at::Tensor,at::Tensor>(std::get<0>(result), std::get<1>(result), std::get<2>(result));
 }
+} // namespace torch_ipex
+
+
+namespace {
+static auto dispatch =
+    torch::RegisterOperators()
+        .op("torch_ipex::nms", &torch_ipex::AtenIpexTypeExt::nms)
+        .op("torch_ipex::batch_score_nms", &torch_ipex::AtenIpexTypeExt::batch_score_nms);
 }
+
+namespace torch_ipex {
+namespace autocast {
+
+at::Tensor nms(const at::Tensor& dets,
+               const at::Tensor& scores,
+               const double threshold) {
+  c10::impl::ExcludeDispatchKeyGuard no_autocastCPU(DispatchKey::AutocastCPU);
+  static auto op = torch::Dispatcher::singleton()
+    .findSchemaOrThrow("torch_ipex::nms", "")
+    .typed<decltype(nms)>();
+#if defined(ENABLE_AUTOCAST_VERBOSE)
+  verbose::OpNameGuard op_name("nms");
+#endif
+  return op.call(dets, cpu_cached_cast(at::kFloat, scores), threshold);
+}
+
+std::tuple<at::Tensor, at::Tensor, at::Tensor> batch_score_nms(const at::Tensor& dets,
+                           const at::Tensor& scores,
+                           const double threshold) {
+  c10::impl::ExcludeDispatchKeyGuard no_autocastCPU(DispatchKey::AutocastCPU);
+  static auto op = torch::Dispatcher::singleton()
+    .findSchemaOrThrow("torch_ipex::batch_score_nms", "")
+    .typed<decltype(batch_score_nms)>();
+#if defined(ENABLE_AUTOCAST_VERBOSE)
+  verbose::OpNameGuard op_name("batch_score_nms");
+#endif
+  return op.call(dets, cpu_cached_cast(at::kFloat, scores), threshold);
+}
+
+TORCH_LIBRARY_IMPL(torch_ipex, AutocastCPU, m){
+  m.impl("nms", torch_ipex::autocast::nms);
+  m.impl("batch_score_nms", torch_ipex::autocast::batch_score_nms);
+}
+
+} // namespace autocast
+} // namespace torch_ipex
+
diff --git a/torch_ipex/csrc/init_python_bindings.cpp b/torch_ipex/csrc/init_python_bindings.cpp
@@ -176,11 +176,6 @@ void InitIpexModuleBindings(py::module m) {
   });
 
   // extend OPs
-  m.def("roi_align_forward", &AtenIpexTypeExt::ROIAlign_forward);
-  m.def("roi_align_backward", &AtenIpexTypeExt::ROIAlign_backward);
-
-  m.def("nms", &AtenIpexTypeExt::nms);
-  m.def("batch_score_nms", &AtenIpexTypeExt::batch_score_nms);
   m.def("embedding_bag_fast_path_sum", &AtenIpexTypeExt::embedding_bag_fast_path_sum);
 }
 }  // namespace