Cae*_*nog 5 python pandas dask
我需要处理一个大文件并更改一些值。
我想做这样的事情:
for index, row in dataFrame.iterrows():
foo = doSomeStuffWith(row)
lol = doOtherStuffWith(row)
dataFrame['colx'][index] = foo
dataFrame['coly'][index] = lol
Run Code Online (Sandbox Code Playgroud)
对我不好,我不能做 dataFrame['colx'][index] = foo!
我的行数很大,我需要处理大量的列。因此,如果我为每一列执行一个 dataFrame.apply(...) ,我担心 dask 可能会多次读取文件。
其他解决方案是手动将我的数据分成块并使用 Pandas 或将任何内容放入数据库中。但是,如果我可以继续使用我的 .csv 并让 dask 为我进行块处理,那就太好了!
感谢您的帮助。
| 归档时间: |
|
| 查看次数: |
7281 次 |
| 最近记录: |