handling mypy, at. 1

Igor Rukhovich · Igor Rukhovich · commit fd8e84bd616d · 2021-04-15T10:37:30.000+03:00
diff --git a/configs/temp.json b/configs/temp.json
@@ -0,0 +1,31 @@
+{
+    "common": {
+        "lib":          "xgboost",
+        "data-format":  "pandas",
+        "data-order":   "F",
+        "dtype":        "float32",
+        "algorithm":    "gbt",
+        "tree-method":  "hist",
+        "count-dmatrix":""
+    },
+    "cases": [
+        {
+            "dataset": [
+                {
+                    "source":   "csv",
+                    "name":     "plasticc",
+                    "training":
+                    {
+                        "x":    "data/plasticc_x_train.csv",
+                        "y":    "data/plasticc_y_train.csv"
+                    }
+                }
+            ],
+            "n-estimators":     60,
+            "objective":        "multi:softprob",
+            "max-depth":        7,
+            "subsample":        0.7,
+            "colsample-bytree": 0.7
+        }
+    ]
+}
diff --git a/datasets/loader_clf.py b/datasets/loader_clf.py
@@ -158,7 +158,7 @@ def airline_ohe(dataset_dir: Path) -> bool:
         X = df.drop('dep_delayed_15min', 1)
         y = df["dep_delayed_15min"]
 
-        y_num = np.where(y == "Y", 1, 0)
+        y_num = np.where(np.array(y == "Y"), 1, 0)
 
         sets.append(X)
         labels.append(y_num)
@@ -381,8 +381,8 @@ def gisette(dataset_dir: Path) -> bool:
     df_labels = pd.read_csv(filename_train_labels, header=None)
     num_train = 6000
     x_train_arr = df_train.iloc[:num_train].values
-    x_train = pd.DataFrame(np.array([np.fromstring(
-        elem[0], dtype=int, count=num_cols, sep=' ') for elem in x_train_arr]))
+    x_train = pd.DataFrame(np.array([[np.fromstring(
+        elem[0], dtype=int, count=num_cols, sep=' ') for elem in x_train_arr]]))
     y_train_arr = df_labels.iloc[:num_train].values
     y_train = pd.DataFrame((y_train_arr > 0).astype(int))
 
@@ -391,9 +391,9 @@ def gisette(dataset_dir: Path) -> bool:
     df_labels = pd.read_csv(filename_test_labels, header=None)
     x_test_arr = df_test.iloc[:num_train].values
     x_test = pd.DataFrame(np.array(
-        [np.fromstring(
+        [[np.fromstring(
             elem[0],
-            dtype=int, count=num_cols, sep=' ')
+            dtype=int, count=num_cols, sep=' ')]
          for elem in x_test_arr]))
     y_test_arr = df_labels.iloc[:num_train].values
     y_test = pd.DataFrame((y_test_arr > 0).astype(int))