BUG: fix non deterministic result by always sorting sampling_strategy (#449)

glemaitre · web-flow · commit 267dd3287bb9 · 2018-08-22T23:52:07.000+02:00
diff --git a/doc/whats_new/v0.0.4.rst b/doc/whats_new/v0.0.4.rst
@@ -56,6 +56,10 @@ Bug fixes
   generating new samples. :issue:`354` by :user:`Guillaume Lemaitre
   <glemaitre>`.
 
+- Fix bug which allow for sorted behavior of ``sampling_strategy`` dictionary
+  and thus to obtain a deterministic results when using the same random state.
+  :issue:`447` by :user:`Guillaume Lemaitre <glemaitre>`.
+
 - Force to clone scikit-learn estimator passed as attributes to samplers.
   :issue:`446` by :user:`Guillaume Lemaitre <glemaitre>`.
 
diff --git a/imblearn/utils/tests/test_validation.py b/imblearn/utils/tests/test_validation.py
@@ -4,6 +4,7 @@
 # License: MIT
 
 from collections import Counter
+from collections import OrderedDict
 
 import pytest
 import numpy as np
@@ -372,3 +373,19 @@ def test_hash_X_y():
     y = np.array([0] * 2 + [1] * 3)
     # all data will be used in this case
     assert hash_X_y(X, y) == (joblib.hash(X), joblib.hash(y))
+
+
+@pytest.mark.parametrize(
+    "sampling_strategy, sampling_type, expected_result",
+    [({3: 25, 1: 25, 2: 25}, 'under-sampling',
+      OrderedDict({1: 25, 2: 25, 3: 25})),
+     ({3: 100, 1: 100, 2: 100}, 'over-sampling',
+      OrderedDict({1: 50, 2: 0, 3: 75}))])
+def test_sampling_strategy_check_order(sampling_strategy, sampling_type,
+                                       expected_result):
+    # We pass on purpose a non sorted dictionary and check that the resulting
+    # dictionary is sorted. Refer to issue #428.
+    y = np.array([1] * 50 + [2] * 100 + [3] * 25)
+    sampling_strategy_ = check_sampling_strategy(
+        sampling_strategy, y, sampling_type)
+    assert sampling_strategy_ == expected_result
diff --git a/imblearn/utils/validation.py b/imblearn/utils/validation.py
@@ -6,6 +6,7 @@
 
 import warnings
 from collections import Counter
+from collections import OrderedDict
 from numbers import Integral, Real
 
 import numpy as np
@@ -463,21 +464,30 @@ def check_sampling_strategy(sampling_strategy, y, sampling_type, **kwargs):
             raise ValueError("When 'sampling_strategy' is a string, it needs"
                              " to be one of {}. Got '{}' instead.".format(
                                  SAMPLING_TARGET_KIND, sampling_strategy))
-        return SAMPLING_TARGET_KIND[sampling_strategy](y, sampling_type)
+        return OrderedDict(sorted(
+            SAMPLING_TARGET_KIND[sampling_strategy](y, sampling_type).items()))
     elif isinstance(sampling_strategy, dict):
-        return _sampling_strategy_dict(sampling_strategy, y, sampling_type)
+        return OrderedDict(sorted(
+            _sampling_strategy_dict(sampling_strategy, y, sampling_type)
+            .items()))
     elif isinstance(sampling_strategy, list):
-        return _sampling_strategy_list(sampling_strategy, y, sampling_type)
+        return OrderedDict(sorted(
+            _sampling_strategy_list(sampling_strategy, y, sampling_type)
+            .items()))
     elif isinstance(sampling_strategy, Real):
         if sampling_strategy <= 0 or sampling_strategy > 1:
             raise ValueError(
                 "When 'sampling_strategy' is a float, it should be "
                 "in the range (0, 1]. Got {} instead."
                 .format(sampling_strategy))
-        return _sampling_strategy_float(sampling_strategy, y, sampling_type)
+        return OrderedDict(sorted(
+            _sampling_strategy_float(sampling_strategy, y, sampling_type)
+            .items()))
     elif callable(sampling_strategy):
         sampling_strategy_ = sampling_strategy(y, **kwargs)
-        return _sampling_strategy_dict(sampling_strategy_, y, sampling_type)
+        return OrderedDict(sorted(
+            _sampling_strategy_dict(sampling_strategy_, y, sampling_type)
+            .items()))
 
 
 SAMPLING_TARGET_KIND = {