Add dpnp and dpctl support

Alexsandruss · Alexsandruss · commit e318f64d6b9c · 2024-05-21T10:00:24.000-07:00
diff --git a/sklbench/benchmarks/sklearn_estimator.py b/sklbench/benchmarks/sklearn_estimator.py
@@ -121,7 +121,7 @@ def get_subset_metrics_of_estimator(
     metrics = dict()
     # Note: use data[0, 1] when calling estimator methods,
     # x, y are numpy ndarrays for compatibility with sklearn metrics
-    x, y = list(map(convert_to_numpy, data))
+    x, y = list(map(lambda i: convert_to_numpy(i, dp_compat=True), data))
     if stage == "training":
         if hasattr(estimator_instance, "n_iter_"):
             iterations = estimator_instance.n_iter_
diff --git a/sklbench/datasets/transformer.py b/sklbench/datasets/transformer.py
@@ -25,7 +25,7 @@
 from ..utils.logger import logger
 
 
-def convert_data(data, dformat: str, order: str, dtype: str):
+def convert_data(data, dformat: str, order: str, dtype: str, device: str = None):
     if isinstance(data, csr_matrix) and dformat != "csr_matrix":
         data = data.toarray()
     if dtype == "preserve":
@@ -42,6 +42,14 @@ def convert_data(data, dformat: str, order: str, dtype: str):
         if data.ndim == 1:
             return pd.Series(data)
         return pd.DataFrame(data)
+    elif dformat == "dpnp":
+        import dpnp
+
+        return dpnp.array(data, dtype=dtype, order=order, device=device)
+    elif dformat == "dpctl":
+        import dpctl.tensor
+
+        return dpctl.tensor.asarray(data, dtype=dtype, order=order, device=device)
     elif dformat.startswith("modin"):
         if dformat.endswith("ray"):
             os.environ["MODIN_ENGINE"] = "ray"
@@ -100,6 +108,7 @@ def split_and_transform_data(bench_case, data, data_description):
         x_train, x_test = train_test_split_wrapper(x, **split_kwargs)
         y_train, y_test = None, None
 
+    device = get_bench_case_value(bench_case, "algorithm:device", None)
     common_data_format = get_bench_case_value(bench_case, "data:format", "pandas")
     common_data_order = get_bench_case_value(bench_case, "data:order", "F")
     common_data_dtype = get_bench_case_value(bench_case, "data:dtype", "float64")
@@ -134,7 +143,9 @@ def split_and_transform_data(bench_case, data, data_description):
         if is_label and required_label_dtype is not None:
             data_dtype = required_label_dtype
 
-        converted_data = convert_data(subset_content, data_format, data_order, data_dtype)
+        converted_data = convert_data(
+            subset_content, data_format, data_order, data_dtype, device
+        )
         data_dict[subset_name] = converted_data
         if not is_label:
             data_description[subset_name] = {
diff --git a/sklbench/utils/common.py b/sklbench/utils/common.py
@@ -193,13 +193,23 @@ def convert_to_numeric_if_possible(value: str) -> Union[Numeric, str]:
         return value
 
 
-def convert_to_numpy(a):
+def convert_to_numpy(a, dp_compat=False):
+    if dp_compat and ("dpctl" in str(type(a)) or "dpnp" in str(type(a))):
+        return a
     if isinstance(a, np.ndarray):
         return a
     elif hasattr(a, "to_numpy"):
         return a.to_numpy()
     elif hasattr(a, "asnumpy"):
         return a.asnumpy()
+    elif "dpnp" in str(type(a)):
+        import dpnp
+
+        return dpnp.asnumpy(a)
+    elif "dpctl" in str(type(a)):
+        import dpctl.tensor
+
+        return dpctl.tensor.to_numpy(a)
     elif "cupy.ndarray" in str(type(a)):
         return a.get()
     else: