我读过https://jakevdp.github.io/PythonDataScienceHandbook/03.12-performance-eval-and-query.html 使用 query() 进行数据帧过滤比仅使用带有 \'&\' 的条件来过滤数据更快。当然,使用 query() 时有一些限制。但我在数据帧上尝试了它,实际上执行速度明显慢了。为什么会这样?我缺少什么?什么时候应该使用query()?见下文:
\n\nimport pandas as pd\n\nimport numpy as np\n\n#create dataframe with 5 columns using random numbers \n\nrng = np.random.RandomState(42)\n\ndf = pd.DataFrame(rng.rand(1000, 5), columns=[\'A\', \'B\', \'C\', \'D\',\'E\'])\n\ndf2= round((df * 10),1)\n\n%timeit df3 = df2[(df2["A"] < 3) & (df2["B"]>2)]\n\n%timeit df4 = df2.query("A<3 and B>2") \nRun Code Online (Sandbox Code Playgroud)\n\n对于 df3 我得到: 1.06 ms \xc2\xb1 156 \xc2\xb5s 每个循环(意味着 \xc2\xb1 标准偏差 7 次运行,每次 1000 次循环)
\n\n对于 df4:每次循环 1.97 ms \xc2\xb1 155 \xc2\xb5s(平均 \xc2\xb1 标准偏差 7 次运行,每次 1000 次循环)
\n\n正如您所看到的,df4 花费了几乎两倍的时间。为什么???使用 query() 是否有限制?我发现 query() 语法更清晰、更易于使用,我希望默认使用它。
\n\n我正在使用 Pandas 0.24.2
\n| 归档时间: |
|
| 查看次数: |
5956 次 |
| 最近记录: |