Re-allow bytes in str._validate_

h-vetinari · h-vetinari · commit d817d5cdbf26 · 2018-11-02T16:32:40.000+01:00
diff --git a/pandas/core/strings.py b/pandas/core/strings.py
@@ -1822,7 +1822,10 @@ def _validate(data):
                                      'not MultiIndex')
 
         # see src/inference.pyx which can contain string values
-        allowed_types = ('string', 'unicode', 'mixed', 'mixed-integer')
+        allowed_types = ['string', 'unicode', 'mixed', 'mixed-integer']
+        if isinstance(data, ABCSeries): 
+            allowed_types = allowed_types + ['bytes']
+
         values = data if isinstance(data, Index) else data.values
         if is_categorical_dtype(data.dtype):
             inf_type = lib.infer_dtype(values.categories)
diff --git a/pandas/tests/test_strings.py b/pandas/tests/test_strings.py
@@ -3016,35 +3016,35 @@ def test_match_findall_flags(self):
             result = data.str.contains(pat, flags=re.IGNORECASE)
         assert result[0]
 
-#     def test_encode_decode(self):
-#         base = Series([u('a'), u('b'), u('a\xe4')])
-#         series = base.str.encode('utf-8')
-#
-#         f = lambda x: x.decode('utf-8')
-#         result = series.str.decode('utf-8')
-#         exp = series.map(f)
-#
-#         tm.assert_series_equal(result, exp)
-#
-#     def test_encode_decode_errors(self):
-#         encodeBase = Series([u('a'), u('b'), u('a\x9d')])
-#
-#         pytest.raises(UnicodeEncodeError, encodeBase.str.encode, 'cp1252')
-#
-#         f = lambda x: x.encode('cp1252', 'ignore')
-#         result = encodeBase.str.encode('cp1252', 'ignore')
-#         exp = encodeBase.map(f)
-#         tm.assert_series_equal(result, exp)
-#
-#         decodeBase = Series([b'a', b'b', b'a\x9d'])
-#
-#         pytest.raises(UnicodeDecodeError, decodeBase.str.decode, 'cp1252')
-#
-#         f = lambda x: x.decode('cp1252', 'ignore')
-#         result = decodeBase.str.decode('cp1252', 'ignore')
-#         exp = decodeBase.map(f)
-#
-#         tm.assert_series_equal(result, exp)
+    def test_encode_decode(self):
+        base = Series([u('a'), u('b'), u('a\xe4')])
+        series = base.str.encode('utf-8')
+
+        f = lambda x: x.decode('utf-8')
+        result = series.str.decode('utf-8')
+        exp = series.map(f)
+
+        tm.assert_series_equal(result, exp)
+
+    def test_encode_decode_errors(self):
+        encodeBase = Series([u('a'), u('b'), u('a\x9d')])
+
+        pytest.raises(UnicodeEncodeError, encodeBase.str.encode, 'cp1252')
+
+        f = lambda x: x.encode('cp1252', 'ignore')
+        result = encodeBase.str.encode('cp1252', 'ignore')
+        exp = encodeBase.map(f)
+        tm.assert_series_equal(result, exp)
+
+        decodeBase = Series([b'a', b'b', b'a\x9d'])
+
+        pytest.raises(UnicodeDecodeError, decodeBase.str.decode, 'cp1252')
+
+        f = lambda x: x.decode('cp1252', 'ignore')
+        result = decodeBase.str.decode('cp1252', 'ignore')
+        exp = decodeBase.map(f)
+
+        tm.assert_series_equal(result, exp)
 
     def test_normalize(self):
         values = ['ABC', u'ＡＢＣ', u'１２３', np.nan, u'ｱｲｴ']
@@ -3130,9 +3130,7 @@ def test_method_on_bytes(self):
         lhs = Series(np.array(list('abc'), 'S1').astype(object))
         rhs = Series(np.array(list('def'), 'S1').astype(object))
         if compat.PY3:
-            message = 'Can only use .str accessor with string values'
-            with tm.assert_raises_regex(AttributeError, message):
-                lhs.str
+            pytest.raises(TypeError, lhs.str.cat, rhs, sep=',')
         else:
             result = lhs.str.cat(rhs)
             expected = Series(np.array(