Pandas DataFrame搜索是线性时间还是恒定时间？

Question

Pandas DataFrame搜索是线性时间还是恒定时间？

Say*_*Sil 10 python search time-complexity dataframe pandas

我有一个df超过15000行的数据框对象,如:

anime_id          name              genre    rating
1234      Kimi no nawa    Romance, Comedy     9.31
5678       Stiens;Gate             Sci-fi     8.92

Run Code Online (Sandbox Code Playgroud)

我试图找到具有特定anime_id的行.

a_id = "5678"
temp = (df.query("anime_id == "+a_id).genre)

Run Code Online (Sandbox Code Playgroud)

我只是想知道这个搜索是在恒定时间(如字典)还是线性时间(如列表)中完成的.

Answer 1

gal*_*yan 5

我无法告诉你它是如何实现的，但经过一些测试后。看起来数据帧布尔掩码更像是线性的。

>>> timeit.timeit('dict_data[key]',setup=setup,number = 10000)
0.0005770014540757984
>>> timeit.timeit('df[df.val==key]',setup=setup,number = 10000)
17.583375428628642
>>> timeit.timeit('[i == key for i in dict_data ]',setup=setup,number = 10000)
16.613936403242406

Run Code Online (Sandbox Code Playgroud)

Answer 2

Max*_*axU 5

这是一个非常有趣的问题！

我认为这取决于以下几个方面：

按索引访问单行（索引已排序且唯一）应具有运行时O(m)，其中m << n_rows

通过索引访问单行（索引不是唯一的并且没有排序）应该具有运行时O(n_rows)

按索引访问单行（索引不是唯一的并且是排序的）应该具有运行时O(m)，其中`m <n_rows）

通过布尔索引索引访问行（独立于索引）应具有运行时 O(n_rows)

演示：

索引是排序且唯一的：

In [49]: df = pd.DataFrame(np.random.rand(10**5,6), columns=list('abcdef'))

In [50]: %timeit df.loc[random.randint(0, 10**4)]
The slowest run took 27.65 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 331 µs per loop

In [51]: %timeit df.iloc[random.randint(0, 10**4)]
1000 loops, best of 3: 275 µs per loop

In [52]: %timeit df.query("a > 0.9")
100 loops, best of 3: 7.84 ms per loop

In [53]: %timeit df.loc[df.a > 0.9]
100 loops, best of 3: 2.96 ms per loop

Run Code Online (Sandbox Code Playgroud)

索引未排序且也不唯一：

In [54]: df = pd.DataFrame(np.random.rand(10**5,6), columns=list('abcdef'), index=np.random.randint(0, 10000, 10**5))

In [55]: %timeit df.loc[random.randint(0, 10**4)]
100 loops, best of 3: 12.3 ms per loop

In [56]: %timeit df.iloc[random.randint(0, 10**4)]
1000 loops, best of 3: 262 µs per loop

In [57]: %timeit df.query("a > 0.9")
100 loops, best of 3: 7.78 ms per loop

In [58]: %timeit df.loc[df.a > 0.9]
100 loops, best of 3: 2.93 ms per loop

Run Code Online (Sandbox Code Playgroud)

索引不是唯一的，并且进行了排序：

In [64]: df = pd.DataFrame(np.random.rand(10**5,6), columns=list('abcdef'), index=np.random.randint(0, 10000, 10**5)).sort_index()

In [65]: df.index.is_monotonic_increasing
Out[65]: True

In [66]: %timeit df.loc[random.randint(0, 10**4)]
The slowest run took 9.70 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 478 µs per loop

In [67]: %timeit df.iloc[random.randint(0, 10**4)]
1000 loops, best of 3: 262 µs per loop

In [68]: %timeit df.query("a > 0.9")
100 loops, best of 3: 7.81 ms per loop

In [69]: %timeit df.loc[df.a > 0.9]
100 loops, best of 3: 2.95 ms per loop

Run Code Online (Sandbox Code Playgroud)

您的答案中的“ m”是什么？ (6认同)

归档时间：	8 年，3 月前
查看次数：	3984 次
最近记录：	6 年，8 月前