ENH: Improve typing for pivot and pivot_table (#379)

bashtage · Kevin Sheppard · web-flow · commit 5a9515b219ae · 2022-10-10T10:05:34.000-04:00
* ENH: Improve typing for pivot and pivot_table

* TST: Add test for pivot

* TST: Add tests for pivot_table

* TST: Add test for pivot_table

* ENH: Improve function definitions

* BUG: Correct type

* TST: Fix test issue

* TYP: Improve concat

* ENH: Allow selected use of Index or ndarray

* TYP: Final typing of concat

* TYP: Final typing of concat

* TYP: Final typing of concat

* BUG: Correct values type

* CLN: Remove comments

Co-authored-by: Kevin Sheppard &lt;kevin.sheppard@gmail.com&gt;
diff --git a/pandas-stubs/core/reshape/concat.pyi b/pandas-stubs/core/reshape/concat.pyi
@@ -2,6 +2,7 @@ from typing import (
     Iterable,
     Literal,
     Mapping,
+    Sequence,
     overload,
 )
 
@@ -10,43 +11,48 @@ from pandas import (
     Series,
 )
 
-from pandas._typing import HashableT
+from pandas._typing import (
+    HashableT1,
+    HashableT2,
+    HashableT3,
+    HashableT4,
+)
 
 @overload
 def concat(
-    objs: Iterable[DataFrame] | Mapping[HashableT, DataFrame],
+    objs: Iterable[DataFrame] | Mapping[HashableT1, DataFrame],
     axis: Literal[0, "index"] = ...,
-    join: str = ...,
+    join: Literal["inner", "outer"] = ...,
     ignore_index: bool = ...,
-    keys=...,
-    levels=...,
-    names=...,
+    keys: list[HashableT2] = ...,
+    levels: Sequence[list[HashableT3] | tuple[HashableT3, ...]] = ...,
+    names: list[HashableT4] = ...,
     verify_integrity: bool = ...,
     sort: bool = ...,
     copy: bool = ...,
 ) -> DataFrame: ...
 @overload
 def concat(
-    objs: Iterable[Series] | Mapping[HashableT, Series],
+    objs: Iterable[Series] | Mapping[HashableT1, Series],
     axis: Literal[0, "index"] = ...,
-    join: str = ...,
+    join: Literal["inner", "outer"] = ...,
     ignore_index: bool = ...,
-    keys=...,
-    levels=...,
-    names=...,
+    keys: list[HashableT2] = ...,
+    levels: Sequence[list[HashableT3] | tuple[HashableT3, ...]] = ...,
+    names: list[HashableT4] = ...,
     verify_integrity: bool = ...,
     sort: bool = ...,
     copy: bool = ...,
 ) -> Series: ...
 @overload
 def concat(
-    objs: Iterable[Series | DataFrame] | Mapping[HashableT, Series | DataFrame],
+    objs: Iterable[Series | DataFrame] | Mapping[HashableT1, Series | DataFrame],
     axis: Literal[1, "columns"],
-    join: str = ...,
+    join: Literal["inner", "outer"] = ...,
     ignore_index: bool = ...,
-    keys=...,
-    levels=...,
-    names=...,
+    keys: list[HashableT2] = ...,
+    levels: Sequence[list[HashableT3] | tuple[HashableT3, ...]] = ...,
+    names: list[HashableT4] = ...,
     verify_integrity: bool = ...,
     sort: bool = ...,
     copy: bool = ...,
diff --git a/pandas-stubs/core/reshape/pivot.pyi b/pandas-stubs/core/reshape/pivot.pyi
@@ -1,9 +1,10 @@
+import datetime
 from typing import (
     Callable,
     Hashable,
     Literal,
+    Mapping,
     Sequence,
-    TypeVar,
     Union,
     overload,
 )
@@ -12,47 +13,116 @@ import numpy as np
 import pandas as pd
 from pandas.core.frame import DataFrame
 from pandas.core.groupby.grouper import Grouper
+from pandas.core.indexes.base import Index
 from pandas.core.series import Series
 from typing_extensions import TypeAlias
 
 from pandas._typing import (
     AnyArrayLike,
     ArrayLike,
-    HashableT,
-    IndexLabel,
+    HashableT1,
+    HashableT2,
+    HashableT3,
+    Label,
     Scalar,
+    ScalarT,
+    npt,
 )
 
+_PivotAggCallable: TypeAlias = Callable[[Series], ScalarT]
+
+_PivotAggFunc: TypeAlias = Union[
+    _PivotAggCallable,
+    np.ufunc,
+    Literal["mean", "sum", "count", "min", "max", "median", "std", "var"],
+]
+
+_NonIterableHashable: TypeAlias = Union[
+    str,
+    datetime.date,
+    datetime.datetime,
+    datetime.timedelta,
+    bool,
+    int,
+    float,
+    complex,
+    pd.Timestamp,
+    pd.Timedelta,
+]
+
+_PivotTableIndexTypes: TypeAlias = Union[Label, list[HashableT1], Series, Grouper, None]
+_PivotTableColumnsTypes: TypeAlias = Union[
+    Label, list[HashableT2], Series, Grouper, None
+]
+
 _ExtendedAnyArrayLike: TypeAlias = Union[AnyArrayLike, ArrayLike]
 
-_HashableT2 = TypeVar("_HashableT2", bound=Hashable)
+@overload
+def pivot_table(
+    data: DataFrame,
+    values: Label | list[HashableT3] | None = ...,
+    index: _PivotTableIndexTypes = ...,
+    columns: _PivotTableColumnsTypes = ...,
+    aggfunc: _PivotAggFunc
+    | list[_PivotAggFunc]
+    | Mapping[Hashable, _PivotAggFunc] = ...,
+    fill_value: Scalar | None = ...,
+    margins: bool = ...,
+    dropna: bool = ...,
+    margins_name: str = ...,
+    observed: bool = ...,
+    sort: bool = ...,
+) -> DataFrame: ...
 
+# Can only use Index or ndarray when index or columns is a Grouper
+@overload
+def pivot_table(
+    data: DataFrame,
+    values: Label | list[HashableT3] | None = ...,
+    *,
+    index: Grouper,
+    columns: _PivotTableColumnsTypes | Index | npt.NDArray = ...,
+    aggfunc: _PivotAggFunc
+    | list[_PivotAggFunc]
+    | Mapping[Hashable, _PivotAggFunc] = ...,
+    fill_value: Scalar | None = ...,
+    margins: bool = ...,
+    dropna: bool = ...,
+    margins_name: str = ...,
+    observed: bool = ...,
+    sort: bool = ...,
+) -> DataFrame: ...
+@overload
 def pivot_table(
     data: DataFrame,
-    values: str | None = ...,
-    index: str | Sequence | Grouper | None = ...,
-    columns: str | Sequence | Grouper | None = ...,
-    aggfunc=...,
+    values: Label | list[HashableT3] | None = ...,
+    index: _PivotTableIndexTypes | Index | npt.NDArray = ...,
+    *,
+    columns: Grouper,
+    aggfunc: _PivotAggFunc
+    | list[_PivotAggFunc]
+    | Mapping[Hashable, _PivotAggFunc] = ...,
     fill_value: Scalar | None = ...,
     margins: bool = ...,
     dropna: bool = ...,
     margins_name: str = ...,
     observed: bool = ...,
+    sort: bool = ...,
 ) -> DataFrame: ...
 def pivot(
     data: DataFrame,
     *,
-    index: IndexLabel = ...,
-    columns: IndexLabel = ...,
-    values: IndexLabel = ...,
+    index: _NonIterableHashable | list[HashableT1] = ...,
+    columns: _NonIterableHashable | list[HashableT2] = ...,
+    values: _NonIterableHashable | list[HashableT3] = ...,
 ) -> DataFrame: ...
 @overload
 def crosstab(
     index: list | _ExtendedAnyArrayLike | list[Sequence | _ExtendedAnyArrayLike],
     columns: list | _ExtendedAnyArrayLike | list[Sequence | _ExtendedAnyArrayLike],
     values: list | _ExtendedAnyArrayLike,
-    rownames: list[HashableT] | None = ...,
-    colnames: list[_HashableT2] | None = ...,
+    rownames: list[HashableT1] | None = ...,
+    colnames: list[HashableT2] | None = ...,
     *,
     aggfunc: str | np.ufunc | Callable[[Series], float],
     margins: bool = ...,
@@ -65,8 +135,8 @@ def crosstab(
     index: list | _ExtendedAnyArrayLike | list[Sequence | _ExtendedAnyArrayLike],
     columns: list | _ExtendedAnyArrayLike | list[Sequence | _ExtendedAnyArrayLike],
     values: None = ...,
-    rownames: list[HashableT] | None = ...,
-    colnames: list[_HashableT2] | None = ...,
+    rownames: list[HashableT1] | None = ...,
+    colnames: list[HashableT2] | None = ...,
     aggfunc: None = ...,
     margins: bool = ...,
     margins_name: str = ...,
diff --git a/tests/test_pandas.py b/tests/test_pandas.py