Performance regression in DataFrame[bool_indexer]

```python
import numpy as np
import pandas as pd

idx_dupe = np.array(range(30)) * 99
df = pd.DataFrame(np.random.randn(10000, 5))
bool_indexer = [True] * 5000 + [False] * 5000


%timeit df[np.array(bool_indexer)]
```


```
# 1.0.2
2.58 ms ± 108 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# master
5.47 ms ± 192 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
```

Note that this only affects the case where the indexer is a *list*. Performance looks fine when an ndarray is passed.

https://pandas.pydata.org/speed/pandas/index.html#indexing.DataFrameNumericIndexing.time_bool_indexer?commits=80d37adcc3d9bfbbe17e8aa626d6b5873465ca98-4f89c261f624305fc7bae6c43ae862663994be34 points to somewhere in 80d37adc..4f89c261, which has a bunch of commits.


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Performance regression in DataFrame[bool_indexer] #33924

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Uh oh!

Performance regression in DataFrame[bool_indexer] #33924

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions