小编ADE*_*ANI的帖子

使用 pyarrow 作为 dtype_backend 的 Pandas 2.0 数据帧上的聚合速度非常慢

假设我有以下数据框:

代码 价格
AA1 10
AA1 20
BB2 30

我想对其执行以下操作:

df.groupby("code").aggregate({
    "price": "sum"
})
Run Code Online (Sandbox Code Playgroud)

我尝试使用 Pandas 2.0 中引入的新 pyarrow dtypes,并创建了 3 个副本,对于每个副本,我测量了上述操作的执行时间(5 次执行的平均值)。

代码列数据类型 价格列数据类型 执行时间处理时间
目的 浮动64 2.94秒
字符串[pyarrow] 双[pyarrow] 49.5秒
字符串[pyarrow] 浮动64 1.11秒

谁能解释为什么与标准 numpy float64 dtype 相比,在具有 double pyarrow dtype 的列上应用聚合函数如此慢?

python group-by pandas apache-arrow pyarrow

5
推荐指数
1
解决办法
1283
查看次数

Laravel 5.6 存储链接已存在,但尝试从公共文件夹获取文件时出现 404 错误

我使用以下命令创建了一个符号链接:

php artisan storage:link
Run Code Online (Sandbox Code Playgroud)

然后我在storage/app/public. 按照文档,我可以通过以下方式获得此文件的链接:

asset('storage/file.txt')
Run Code Online (Sandbox Code Playgroud)

在 html 代码中返回:

http://127.0.0.1:8000/storage/psps.txt
Run Code Online (Sandbox Code Playgroud)

但我收到 404 错误。有什么帮助吗?

php laravel-5.6

1
推荐指数
1
解决办法
2154
查看次数

标签 统计

apache-arrow ×1

group-by ×1

laravel-5.6 ×1

pandas ×1

php ×1

pyarrow ×1

python ×1