IntelPython
diff --git a/‎configs/README.md
Lines changed: 11 additions & 0 deletions b/‎configs/README.md
Lines changed: 11 additions & 0 deletions
diff --git a/‎configs/common/sklearn.json
Lines changed: 29 additions & 0 deletions b/‎configs/common/sklearn.json
Lines changed: 29 additions & 0 deletions
diff --git a/‎configs/spmd/dbscan.json
Lines changed: 18 additions & 0 deletions b/‎configs/spmd/dbscan.json
Lines changed: 18 additions & 0 deletions
diff --git a/‎configs/spmd/ensemble.json
Lines changed: 59 additions & 0 deletions b/‎configs/spmd/ensemble.json
Lines changed: 59 additions & 0 deletions
diff --git a/‎configs/spmd/kmeans.json
Lines changed: 18 additions & 0 deletions b/‎configs/spmd/kmeans.json
Lines changed: 18 additions & 0 deletions
diff --git a/‎configs/spmd/knn.json
Lines changed: 27 additions & 0 deletions b/‎configs/spmd/knn.json
Lines changed: 27 additions & 0 deletions
diff --git a/‎configs/spmd/linear_model.json
Lines changed: 18 additions & 0 deletions b/‎configs/spmd/linear_model.json
Lines changed: 18 additions & 0 deletions
diff --git a/‎configs/spmd/logreg.json
Lines changed: 22 additions & 0 deletions b/‎configs/spmd/logreg.json
Lines changed: 22 additions & 0 deletions
diff --git a/‎configs/spmd/pca.json
Lines changed: 28 additions & 0 deletions b/‎configs/spmd/pca.json
Lines changed: 28 additions & 0 deletions
diff --git a/‎configs/spmd/stats_covariance.json
Lines changed: 54 additions & 0 deletions b/‎configs/spmd/stats_covariance.json
Lines changed: 54 additions & 0 deletions
diff --git a/‎configs/spmd_example.json
Lines changed: 71 additions & 0 deletions b/‎configs/spmd_example.json
Lines changed: 71 additions & 0 deletions
diff --git a/‎envs/requirements-sklearn.txt
Lines changed: 2 additions & 1 deletion b/‎envs/requirements-sklearn.txt
Lines changed: 2 additions & 1 deletion
@@ -88,6 +88,8 @@ Configs have the three highest parameter keys:
 | `bench`:`vtune_results_directory` | `vtune_results` |  | Directory path to store Intel(R) VTune* Profiler results. |
 | `bench`:`n_runs` | `10` |  | Number of runs for measured entity. |
 | `bench`:`time_limit` | `3600` |  | Time limit in seconds before the benchmark early stop. |
+| `bench`:`distributor` | None | None, `mpi` | Library used to handle distributed algorithm. |
+| `bench`:`mpi_params` | Empty dict |  | Parameters for `mpirun` command of MPI library. |
 |<h3>Data parameters</h3>||||
 | `data`:`cache_directory` | `data_cache` |  | Directory path to store cached datasets for fast loading. |
 | `data`:`raw_cache_directory` | `data`:`cache_directory` + "raw" |  | Directory path to store downloaded raw datasets. |
@@ -102,6 +104,7 @@ Configs have the three highest parameter keys:
 | `data`:`format` | `pandas` | `pandas`, `numpy`, `cudf` | Data format to use in benchmark. |
 | `data`:`order` | `F` | `C`, `F` | Data order to use in benchmark: contiguous(C) or Fortran. |
 | `data`:`dtype` | `float64` |  | Data type to use in benchmark. |
+| `data`:`distributed_split` | None | None, `rank_based` | Split type used to distribute data between machines in distributed algorithm. `None` type means usage of all data without split on all machines. `rank_based` type splits the data equally between machines with split sequence based on rank id from MPI. |
 |<h3>Algorithm parameters</h3>||||
 | `algorithm`:`library` | None |  | Python module containing measured entity (class or function). |
 | `algorithm`:`device` | `default` | `default`, `cpu`, `gpu` | Device selected for computation. |
@@ -160,5 +163,13 @@ Supported ranges:
  - `mul:current{int}:end{int}:step{int}` - Geometric progression (Sequence: current * step <= end)
  - `pow:base{int}:start{int}:end{int}[:step{int}=1]` - Powers of base number
 
+## Removal of Values
+
+You can remove specific parameter from subset of cases when stacking parameters sets using `[REMOVE]` parameter value:
+
+```json
+... "estimator_params": { "n_jobs": "[REMOVE]" } ...
+```
+
 ---
 [Documentation tree](../README.md#-documentation-tree)
@@ -19,6 +19,35 @@
                 { "library": "sklearnex.preview", "device": ["cpu", "gpu"] }
             ]
         },
+        "sklearnex spmd implementation": {
+            "algorithm": {
+                "library": "sklearnex.spmd",
+                "device": "gpu",
+                "estimator_params": { "n_jobs": "[REMOVE]" }
+            },
+            "data": {
+                "format": "dpctl",
+                "order": "C",
+                "distributed_split": "rank_based"
+            },
+            "bench": {
+                "distributor": "mpi"
+            }
+        },
+        "spmd default parameters": {
+            "algorithm": {
+                "estimator_methods": {
+                    "training": "fit",
+                    "inference": ""
+                }
+            },
+            "data": {
+                "dtype": "float32"
+            },
+            "bench": {
+                "mpi_params": { "n": [1, 2] }
+            }
+        },
         "cuml implementation": {
             "algorithm": { "library": "cuml" },
             "data": { "format": "cudf" }
 
@@ -0,0 +1,18 @@
+{
+    "INCLUDE": ["../common/sklearn.json", "../regular/dbscan.json"],
+    "PARAMETERS_SETS": {
+        "spmd dbscan parameters": {}
+    },
+    "TEMPLATES": {
+        "kmeans": {
+            "SETS": [
+                "common dbscan parameters",
+                "sklearn dbscan parameters",
+                "dbscan datasets",
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd dbscan parameters"
+            ]
+        }
+    }
+}
@@ -0,0 +1,59 @@
+{
+    "INCLUDE": ["../common/sklearn.json", "../regular/ensemble.json"],
+    "PARAMETERS_SETS": {
+        "spmd ensemble classifier params": {
+            "algorithm": {
+                "estimator": "RandomForestClassifier"
+            }
+        },
+        "spmd ensemble regressor params": {
+            "algorithm": {
+                "estimator": "RandomForestRegressor"
+            }
+        },
+        "ensemble classification data": {
+            "data": [
+                { "dataset": "skin_segmentation", "split_kwargs": { "train_size": 0.5, "test_size": 0.5 } },
+                { "dataset": "creditcard", "split_kwargs": { "train_size": 100000, "test_size": null } },
+                { "dataset": "a9a", "split_kwargs": { "train_size": 0.5, "test_size": 0.5 } },
+                { "dataset": "mnist", "split_kwargs": { "train_size": 20000, "test_size": null } }
+            ]
+        },
+        "ensemble regression data": {
+            "data": [
+                {
+                    "dataset": "road_network",
+                    "split_kwargs": {
+                        "train_size": 200000, "test_size": null,
+                        "shuffle": true, "random_state": 42
+                    }
+                },
+                { "dataset": "creditcard", "split_kwargs": { "train_size": 100000, "test_size": null } },
+                { "dataset": "year_prediction_msd", "split_kwargs": { "train_size": 50000, "test_size": null } },
+                { "dataset": "a9a", "split_kwargs": { "train_size": 0.5, "test_size": 0.5 } }
+            ]
+        }
+    },
+    "TEMPLATES": {
+        "ensemble classification": {
+            "SETS": [
+                "common ensemble params",
+                "sklearn ensemble classifier params",
+                "ensemble classification data",
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd ensemble classifier params"
+            ]
+        },
+        "ensemble regression": {
+            "SETS": [
+                "common ensemble params",
+                "sklearn ensemble regressor params",
+                "ensemble regression data",
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd ensemble regressor params"
+            ]
+        }
+    }
+}
@@ -0,0 +1,18 @@
+{
+    "INCLUDE": ["../common/sklearn.json", "../regular/kmeans.json"],
+    "PARAMETERS_SETS": {
+        "spmd kmeans parameters": {}
+    },
+    "TEMPLATES": {
+        "kmeans": {
+            "SETS": [
+                "common kmeans parameters",
+				"sklearn kmeans parameters",
+				"kmeans datasets",
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd kmeans parameters"
+            ]
+        }
+    }
+}
@@ -0,0 +1,27 @@
+{
+    "INCLUDE": ["../common/sklearn.json", "../regular/knn.json"],
+    "PARAMETERS_SETS": {
+        "spmd knn parameters": {
+            "algorithm": {
+                "estimator_params": {
+                    "algorithm": "brute",
+                    "metric": "minkowski",
+                    "p": 2,
+                    "weights": "uniform"
+                }
+            }
+        }
+    },
+    "TEMPLATES": {
+        "knn regressor": {
+            "SETS": [
+                "common knn parameters",
+                "sklearn knn parameters",
+                "brute knn algorithm - regression data",
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd knn parameters"
+            ]
+        }
+    }
+}
@@ -0,0 +1,18 @@
+{
+    "INCLUDE": ["../common/sklearn.json", "../regular/linear_model.json"],
+    "PARAMETERS_SETS": {
+        "spmd linear parameters": {}
+    },
+    "TEMPLATES": {
+        "linreg": {
+            "SETS": [
+                "common linear parameters",
+                "sklearn linear parameters",
+                "regression datasets",
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd linear parameters"
+            ]
+        }
+    }
+}
@@ -0,0 +1,22 @@
+{
+    "INCLUDE": ["../common/sklearn.json", "../regular/logreg.json"],
+    "PARAMETERS_SETS": {
+        "spmd logreg parameters": {
+            "algorithm": {
+                "estimator_params": { "solver": "newton-cg" }
+            }
+        }
+    },
+    "TEMPLATES": {
+        "logreg": {
+            "SETS": [
+                "common logreg parameters",
+                "sklearn logreg parameters",
+                "logreg datasets",
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd logreg parameters"
+            ]
+        }
+    }
+}
@@ -0,0 +1,28 @@
+{
+    "INCLUDE": ["../common/sklearn.json", "../regular/pca.json"],
+    "PARAMETERS_SETS": {
+        "spmd pca parameters": {
+            "algorithm": {
+                "estimator_params": {
+                    "copy": "[REMOVE]",
+                    "svd_solver": "[REMOVE]",
+                    "tol": "[REMOVE]",
+                    "iterated_power": "[REMOVE]",
+                    "random_state": "[REMOVE]",
+                    "method": "cov"
+                }
+            }
+        }
+    },
+    "TEMPLATES": {
+        "pca": {
+            "SETS": [
+                "pca parameters",
+                "pca datasets",
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd pca parameters"
+            ]
+        }
+    }
+}
@@ -0,0 +1,54 @@
+{
+    "INCLUDE": ["../common/sklearn.json"],
+    "PARAMETERS_SETS": {
+        "spmd basic statistics parameters": {
+            "algorithm": {
+                "estimator": "BasicStatistics",
+                "estimator_methods": {
+                    "training": "compute"
+                }
+            }
+        },
+        "spmd covariance parameters": {
+            "algorithm": {
+                "estimator": "EmpiricalCovariance",
+                "estimator_params": {
+                    "bias": true
+                }
+            }
+        },
+        "datasets": {
+            "data": [
+                {
+                    "dataset": ["susy", "higgs"]
+                },
+                {
+                    "source": "make_blobs",
+                    "generation_kwargs": [
+                        { "n_samples": 400000, "n_features": 1000, "centers": 1 },
+                        { "n_samples": 40000000, "n_features": 10, "centers": 1 }
+                    ],
+                    "split_kwargs": { "ignore": true }
+                }
+            ]
+        }
+    },
+    "TEMPLATES": {
+        "basic statistics": {
+            "SETS": [
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd basic statistics parameters",
+                "datasets"
+            ]
+        },
+        "covariance": {
+            "SETS": [
+                "sklearnex spmd implementation",
+                "spmd default parameters",
+                "spmd covariance parameters",
+                "datasets"
+            ]
+        }
+    }
+}
@@ -0,0 +1,71 @@
+{
+    "PARAMETERS_SETS": {
+        "implementations": [
+            {
+                "algorithm": {
+                    "library": "sklearnex.spmd",
+                    "device": "gpu"
+                },
+                "data": { "distributed_split": "rank_based" },
+                "bench": {
+                    "distributor": "mpi",
+                    "mpi_params": { "n": 2, "ppn": 2 }
+                }
+            },
+            {
+                "algorithm": {
+                    "library": "sklearnex",
+                    "device": "cpu"
+                }
+            }
+        ],
+        "datasets": {
+            "data": [
+                {
+                    "dataset": "higgs",
+                    "split_kwargs": { "train_size": 10000, "test_size": 10000 }
+                },
+                {
+                    "source": "make_regression",
+                    "generation_kwargs": {
+                        "n_samples": 20000,
+                        "n_features": 100,
+                        "noise": 1.0
+                    },
+                    "split_kwargs": { "train_size": 0.5, "test_size": 0.5 }
+                }
+            ]
+        },
+        "linear regression": {
+            "algorithm": { "estimator": "LinearRegression" }
+        },
+        "knn regression": {
+            "algorithm": {
+                "estimator": "KNeighborsRegressor",
+                "estimator_params": { "algorithm": "brute", "n_neighbors": 5 }
+            }
+        },
+        "random forest regression": {
+            "algorithm": {
+                "estimator": "RandomForestRegressor",
+                "estimator_params": { 
+                    "criterion": "squared_error",
+                    "max_features": 1.0,
+                    "n_estimators": 10,
+                    "max_depth": 4
+                }
+            }
+        }
+    },
+    "TEMPLATES": {
+        "linear regression": {
+            "SETS": ["implementations", "datasets", "linear regression"]
+        },
+        "knn regression": {
+            "SETS": ["implementations", "datasets", "knn regression"]
+        },
+        "random forest regression": {
+            "SETS": ["implementations", "datasets", "random forest regression"]
+        }
+    }
+}
@@ -1,4 +1,5 @@
-scikit-learn
+# essentials
+scikit-learn==1.4.*
 pandas
 tabulate
 fastparquet