iter

glemaitre · glemaitre · commit 77f9c750a16d · 2021-02-18T01:08:10.000+01:00
diff --git a/examples/ensemble/plot_bagging_classifier.py b/examples/ensemble/plot_bagging_classifier.py
@@ -102,6 +102,48 @@
 
 print(f"{cv_results['test_score'].mean():.3f} +/- {cv_results['test_score'].std():.3f}")
 
+# %% [markdown]
+# Roughly Balanced Bagging
+# ------------------------
+# FIXME: narration based on [3]_.
+
+# %%
+from collections import Counter
+import numpy as np
+from imblearn import FunctionSampler
+
+
+def binomial_resampling(X, y):
+    class_counts = Counter(y)
+    majority_class = max(class_counts, key=class_counts.get)
+    minority_class = min(class_counts, key=class_counts.get)
+
+    n_minority_class = class_counts[minority_class]
+    n_majority_resampled = np.random.negative_binomial(n_minority_class, 0.5)
+
+    majority_indices = np.random.choice(
+        np.flatnonzero(y == majority_class),
+        size=n_majority_resampled,
+        replace=True,
+    )
+    minority_indices = np.random.choice(
+        np.flatnonzero(y == minority_class),
+        size=n_minority_class,
+        replace=True,
+    )
+    indices = np.hstack([majority_indices, minority_indices])
+
+    X_res, y_res = X[indices], y[indices]
+    return X_res, y_res
+
+
+# Roughly Balanced Bagging
+rbb = BalancedBaggingClassifier(sampler=FunctionSampler(func=binomial_resampling))
+cv_results = cross_validate(rbb, X, y, scoring="balanced_accuracy")
+
+print(f"{cv_results['test_score'].mean():.3f} +/- {cv_results['test_score'].std():.3f}")
+
+
 # %% [markdown]
 # .. topic:: References:
 #
@@ -111,3 +153,7 @@
 #    .. [2] S. Wang, and X. Yao. "Diversity analysis on imbalanced data sets by
 #           using ensemble models." 2009 IEEE symposium on computational
 #           intelligence and data mining. IEEE, 2009.
+#
+#    .. [3] S. Hido, H. Kashima, and Y. Takahashi. "Roughly balanced bagging
+#          for imbalanced data." Statistical Analysis and Data Mining: The ASA
+#          Data Science Journal 2.5‐6 (2009): 412-426.
diff --git a/imblearn/ensemble/_bagging.py b/imblearn/ensemble/_bagging.py
@@ -246,7 +246,10 @@ def __init__(
 
     def _validate_y(self, y):
         y_encoded = super()._validate_y(y)
-        if isinstance(self.sampling_strategy, dict):
+        if (
+            isinstance(self.sampling_strategy, dict)
+            and self.sampler_._sampling_type != "bypass"
+        ):
             self._sampling_strategy = {
                 np.where(self.classes_ == key)[0][0]: value
                 for key, value in check_sampling_strategy(
@@ -277,7 +280,8 @@ def _validate_estimator(self, default=DecisionTreeClassifier()):
         else:
             base_estimator = clone(default)
 
-        self.sampler_.set_params(sampling_strategy=self._sampling_strategy)
+        if self.sampler_._sampling_type != "bypass":
+            self.sampler_.set_params(sampling_strategy=self._sampling_strategy)
 
         self.base_estimator_ = Pipeline(
             [