Counters in one-workgroup kernel to use uint16_t from uint32_t

oleksandr-pavlyk · oleksandr-pavlyk · commit 3bd333871408 · 2025-01-04T07:20:31.000-06:00
Counters can not exceed uint16_t max, because the kernel
assumes that the number of elements to sort fits into uint16_t.
The change reduces the kernel SLM footprint.

Also, remove use of std::move, uint16_t-&gt;std::uint16_t, etc

Replace size_t-&gt;std::size_t, uint32_t-&gt;std::uint32_t

Use `if constexpr` in order-preservign-cast for better readability.
diff --git a/dpctl/tensor/libtensor/include/kernels/sorting/radix_sort.hpp b/dpctl/tensor/libtensor/include/kernels/sorting/radix_sort.hpp
@@ -70,13 +70,14 @@ template <typename SizeT,
                            int> = 0>
 std::uint32_t ceil_log2(SizeT n)
 {
+    // if n > 2^b, n = q * 2^b + r for q > 0 and 0 <= r < 2^b
+    // floor_log2(q * 2^b + r) == floor_log2(q * 2^b) == q + floor_log2(n1)
+    // ceil_log2(n) == 1 + floor_log2(n-1)
     if (n <= 1)
         return std::uint32_t{1};
 
     std::uint32_t exp{1};
     --n;
-    // if n > 2^b, n = q * 2^b + r for q > 0 and 0 <= r < 2^b
-    // ceil_log2(q * 2^b + r) == ceil_log2(q * 2^b) == q + ceil_log2(n1)
     if (n >= (SizeT{1} << 32)) {
         n >>= 32;
         exp += 32;
@@ -137,16 +138,20 @@ template <bool is_ascending,
 std::make_unsigned_t<IntT> order_preserving_cast(IntT val)
 {
     using UIntT = std::make_unsigned_t<IntT>;
-    // ascending_mask: 100..0
-    constexpr UIntT ascending_mask =
-        (UIntT(1) << std::numeric_limits<IntT>::digits);
-    // descending_mask: 011..1
-    constexpr UIntT descending_mask = (std::numeric_limits<UIntT>::max() >> 1);
-
-    constexpr UIntT mask = (is_ascending) ? ascending_mask : descending_mask;
     const UIntT uint_val = sycl::bit_cast<UIntT>(val);
 
-    return (uint_val ^ mask);
+    if constexpr (is_ascending) {
+        // ascending_mask: 100..0
+        constexpr UIntT ascending_mask =
+            (UIntT(1) << std::numeric_limits<IntT>::digits);
+        return (uint_val ^ ascending_mask);
+    }
+    else {
+        // descending_mask: 011..1
+        constexpr UIntT descending_mask =
+            (std::numeric_limits<UIntT>::max() >> 1);
+        return (uint_val ^ descending_mask);
+    }
 }
 
 template <bool is_ascending> std::uint16_t order_preserving_cast(sycl::half val)
@@ -1045,10 +1050,10 @@ template <typename Names, std::uint16_t... Constants>
 class radix_sort_one_wg_krn;
 
 template <typename KernelNameBase,
-          uint16_t wg_size = 256,
-          uint16_t block_size = 16,
+          std::uint16_t wg_size = 256,
+          std::uint16_t block_size = 16,
           std::uint32_t radix = 4,
-          uint16_t req_sub_group_size = (block_size < 4 ? 32 : 16)>
+          std::uint16_t req_sub_group_size = (block_size < 4 ? 32 : 16)>
 struct subgroup_radix_sort
 {
 private:
@@ -1062,8 +1067,8 @@ struct subgroup_radix_sort
 public:
     template <typename ValueT, typename OutputT, typename ProjT>
     sycl::event operator()(sycl::queue &exec_q,
-                           size_t n_iters,
-                           size_t n_to_sort,
+                           std::size_t n_iters,
+                           std::size_t n_to_sort,
                            ValueT *input_ptr,
                            OutputT *output_ptr,
                            ProjT proj_op,
@@ -1160,8 +1165,8 @@ struct subgroup_radix_sort
     };
 
     static_assert(wg_size <= 1024);
-    static constexpr uint16_t bin_count = (1 << radix);
-    static constexpr uint16_t counter_buf_sz = wg_size * bin_count + 1;
+    static constexpr std::uint16_t bin_count = (1 << radix);
+    static constexpr std::uint16_t counter_buf_sz = wg_size * bin_count + 1;
 
     enum class temp_allocations
     {
@@ -1177,7 +1182,7 @@ struct subgroup_radix_sort
         assert(n <= (SizeT(1) << 16));
 
         constexpr auto req_slm_size_counters =
-            counter_buf_sz * sizeof(uint32_t);
+            counter_buf_sz * sizeof(std::uint16_t);
 
         const auto &dev = exec_q.get_device();
 
@@ -1212,9 +1217,9 @@ struct subgroup_radix_sort
                   typename SLM_value_tag,
                   typename SLM_counter_tag>
         sycl::event operator()(sycl::queue &exec_q,
-                               size_t n_iters,
-                               size_t n_batch_size,
-                               size_t n_values,
+                               std::size_t n_iters,
+                               std::size_t n_batch_size,
+                               std::size_t n_values,
                                InputT *input_arr,
                                OutputT *output_arr,
                                const ProjT &proj_op,
@@ -1228,7 +1233,7 @@ struct subgroup_radix_sort
             assert(n_values <= static_cast<std::size_t>(block_size) *
                                    static_cast<std::size_t>(wg_size));
 
-            uint16_t n = static_cast<uint16_t>(n_values);
+            const std::uint16_t n = static_cast<std::uint16_t>(n_values);
             static_assert(std::is_same_v<std::remove_cv_t<InputT>, OutputT>);
 
             using ValueT = OutputT;
@@ -1237,17 +1242,18 @@ struct subgroup_radix_sort
 
             TempBuf<ValueT, SLM_value_tag> buf_val(
                 n_batch_size, static_cast<std::size_t>(block_size * wg_size));
-            TempBuf<std::uint32_t, SLM_counter_tag> buf_count(
+            TempBuf<std::uint16_t, SLM_counter_tag> buf_count(
                 n_batch_size, static_cast<std::size_t>(counter_buf_sz));
 
             sycl::range<1> lRange{wg_size};
 
             sycl::event sort_ev;
-            std::vector<sycl::event> deps = depends;
+            std::vector<sycl::event> deps{depends};
 
-            std::size_t n_batches = (n_iters + n_batch_size - 1) / n_batch_size;
+            const std::size_t n_batches =
+                (n_iters + n_batch_size - 1) / n_batch_size;
 
-            for (size_t batch_id = 0; batch_id < n_batches; ++batch_id) {
+            for (std::size_t batch_id = 0; batch_id < n_batches; ++batch_id) {
 
                 const std::size_t block_start = batch_id * n_batch_size;
 
@@ -1286,46 +1292,49 @@ struct subgroup_radix_sort
                         const std::size_t iter_exchange_offset =
                             iter_id * exchange_acc_iter_stride;
 
-                        uint16_t wi = ndit.get_local_linear_id();
-                        uint16_t begin_bit = 0;
+                        std::uint16_t wi = ndit.get_local_linear_id();
+                        std::uint16_t begin_bit = 0;
 
-                        constexpr uint16_t end_bit =
+                        constexpr std::uint16_t end_bit =
                             number_of_bits_in_type<KeyT>();
 
-// copy from input array into values
+                        // copy from input array into values
 #pragma unroll
-                        for (uint16_t i = 0; i < block_size; ++i) {
-                            const uint16_t id = wi * block_size + i;
-                            if (id < n)
-                                values[i] = std::move(
-                                    this_input_arr[iter_val_offset + id]);
+                        for (std::uint16_t i = 0; i < block_size; ++i) {
+                            const std::uint16_t id = wi * block_size + i;
+                            values[i] =
+                                (id < n) ? this_input_arr[iter_val_offset + id]
+                                         : ValueT{};
                         }
 
                         while (true) {
                             // indices for indirect access in the "re-order"
                             // phase
-                            uint16_t indices[block_size];
+                            std::uint16_t indices[block_size];
                             {
                                 // pointers to bucket's counters
-                                uint32_t *counters[block_size];
+                                std::uint16_t *counters[block_size];
 
                                 // counting phase
                                 auto pcounter =
                                     get_accessor_pointer(counter_acc) +
                                     (wi + iter_counter_offset);
 
-// initialize counters
+                                // initialize counters
 #pragma unroll
-                                for (uint16_t i = 0; i < bin_count; ++i)
-                                    pcounter[i * wg_size] = std::uint32_t{0};
+                                for (std::uint16_t i = 0; i < bin_count; ++i)
+                                    pcounter[i * wg_size] = std::uint16_t{0};
 
                                 sycl::group_barrier(ndit.get_group());
 
                                 if (is_ascending) {
 #pragma unroll
-                                    for (uint16_t i = 0; i < block_size; ++i) {
-                                        const uint16_t id = wi * block_size + i;
-                                        constexpr uint16_t bin_mask =
+                                    for (std::uint16_t i = 0; i < block_size;
+                                         ++i)
+                                    {
+                                        const std::uint16_t id =
+                                            wi * block_size + i;
+                                        constexpr std::uint16_t bin_mask =
                                             bin_count - 1;
 
                                         // points to the padded element, i.e. id
@@ -1334,7 +1343,7 @@ struct subgroup_radix_sort
                                             default_out_of_range_bin_id =
                                                 bin_mask;
 
-                                        const uint16_t bin =
+                                        const std::uint16_t bin =
                                             (id < n)
                                                 ? get_bucket_id<bin_mask>(
                                                       order_preserving_cast<
@@ -1352,9 +1361,12 @@ struct subgroup_radix_sort
                                 }
                                 else {
 #pragma unroll
-                                    for (uint16_t i = 0; i < block_size; ++i) {
-                                        const uint16_t id = wi * block_size + i;
-                                        constexpr uint16_t bin_mask =
+                                    for (std::uint16_t i = 0; i < block_size;
+                                         ++i)
+                                    {
+                                        const std::uint16_t id =
+                                            wi * block_size + i;
+                                        constexpr std::uint16_t bin_mask =
                                             bin_count - 1;
 
                                         // points to the padded element, i.e. id
@@ -1363,7 +1375,7 @@ struct subgroup_radix_sort
                                             default_out_of_range_bin_id =
                                                 bin_mask;
 
-                                        const uint16_t bin =
+                                        const std::uint16_t bin =
                                             (id < n)
                                                 ? get_bucket_id<bin_mask>(
                                                       order_preserving_cast<
@@ -1386,29 +1398,31 @@ struct subgroup_radix_sort
                                 {
 
                                     // scan contiguous numbers
-                                    uint16_t bin_sum[bin_count];
+                                    std::uint16_t bin_sum[bin_count];
                                     const std::size_t counter_offset0 =
                                         iter_counter_offset + wi * bin_count;
                                     bin_sum[0] = counter_acc[counter_offset0];
 
 #pragma unroll
-                                    for (uint16_t i = 1; i < bin_count; ++i)
+                                    for (std::uint16_t i = 1; i < bin_count;
+                                         ++i)
                                         bin_sum[i] =
                                             bin_sum[i - 1] +
                                             counter_acc[counter_offset0 + i];
 
                                     sycl::group_barrier(ndit.get_group());
 
                                     // exclusive scan local sum
-                                    uint16_t sum_scan =
+                                    std::uint16_t sum_scan =
                                         sycl::exclusive_scan_over_group(
                                             ndit.get_group(),
                                             bin_sum[bin_count - 1],
-                                            sycl::plus<uint16_t>());
+                                            sycl::plus<std::uint16_t>());
 
 // add to local sum, generate exclusive scan result
 #pragma unroll
-                                    for (uint16_t i = 0; i < bin_count; ++i)
+                                    for (std::uint16_t i = 0; i < bin_count;
+                                         ++i)
                                         counter_acc[counter_offset0 + i + 1] =
                                             sum_scan + bin_sum[i];
 
@@ -1420,51 +1434,50 @@ struct subgroup_radix_sort
                                 }
 
 #pragma unroll
-                                for (uint16_t i = 0; i < block_size; ++i) {
+                                for (std::uint16_t i = 0; i < block_size; ++i) {
                                     // a global index is a local offset plus a
                                     // global base index
                                     indices[i] += *counters[i];
                                 }
+
+                                sycl::group_barrier(ndit.get_group());
                             }
 
                             begin_bit += radix;
 
                             // "re-order" phase
                             sycl::group_barrier(ndit.get_group());
                             if (begin_bit >= end_bit) {
-// the last iteration - writing out the result
+                                // the last iteration - writing out the result
 #pragma unroll
-                                for (uint16_t i = 0; i < block_size; ++i) {
-                                    const uint16_t r = indices[i];
+                                for (std::uint16_t i = 0; i < block_size; ++i) {
+                                    const std::uint16_t r = indices[i];
                                     if (r < n) {
-                                        // move the values to source range and
-                                        // destroy the values
                                         this_output_arr[iter_val_offset + r] =
-                                            std::move(values[i]);
+                                            values[i];
                                     }
                                 }
 
                                 return;
                             }
 
-// data exchange
+                            // data exchange
 #pragma unroll
-                            for (uint16_t i = 0; i < block_size; ++i) {
-                                const uint16_t r = indices[i];
+                            for (std::uint16_t i = 0; i < block_size; ++i) {
+                                const std::uint16_t r = indices[i];
                                 if (r < n)
                                     exchange_acc[iter_exchange_offset + r] =
-                                        std::move(values[i]);
+                                        values[i];
                             }
 
                             sycl::group_barrier(ndit.get_group());
 
 #pragma unroll
-                            for (uint16_t i = 0; i < block_size; ++i) {
-                                const uint16_t id = wi * block_size + i;
+                            for (std::uint16_t i = 0; i < block_size; ++i) {
+                                const std::uint16_t id = wi * block_size + i;
                                 if (id < n)
-                                    values[i] = std::move(
-                                        exchange_acc[iter_exchange_offset +
-                                                     id]);
+                                    values[i] =
+                                        exchange_acc[iter_exchange_offset + id];
                             }
 
                             sycl::group_barrier(ndit.get_group());
@@ -1736,10 +1749,10 @@ radix_sort_axis1_contig_impl(sycl::queue &exec_q,
                              const bool sort_ascending,
                              // number of sub-arrays to sort (num. of rows in a
                              // matrix when sorting over rows)
-                             size_t iter_nelems,
+                             std::size_t iter_nelems,
                              // size of each array to sort  (length of rows,
                              // i.e. number of columns)
-                             size_t sort_nelems,
+                             std::size_t sort_nelems,
                              const char *arg_cp,
                              char *res_cp,
                              ssize_t iter_arg_offset,
@@ -1775,10 +1788,10 @@ radix_argsort_axis1_contig_impl(sycl::queue &exec_q,
                                 const bool sort_ascending,
                                 // number of sub-arrays to sort (num. of
                                 // rows in a matrix when sorting over rows)
-                                size_t iter_nelems,
+                                std::size_t iter_nelems,
                                 // size of each array to sort  (length of
                                 // rows, i.e. number of columns)
-                                size_t sort_nelems,
+                                std::size_t sort_nelems,
                                 const char *arg_cp,
                                 char *res_cp,
                                 ssize_t iter_arg_offset,