abc*_*efg 5 python csv distributed dask
我正在尝试编写代码,该代码将从一组命名my_file_*.csv为 Dask 数据帧的 CSV 中读取。
然后我想根据 CSV 的长度设置分区。我试图在每个分区上映射一个函数,为了做到这一点,每个分区必须是整个 CSV。
我尝试重置索引,然后根据每个 CSV 的长度设置分区,但看起来 Dask 数据帧的索引不是唯一的。
有没有更好的方法根据每个 CSV 的长度进行分区?
那么一个分区应该只包含一个文件吗?你冷吗:
import dask.dataframe as dd
ddf = dd.read_csv(my_file_*.csv, blocksize = None)
Run Code Online (Sandbox Code Playgroud)
将 blocksize 设置为 None 可确保文件不会分成多个分区。因此,ddf将是一个 dask 数据帧,每个分区包含一个文件。
您可能想查看文档:
| 归档时间: |
|
| 查看次数: |
4159 次 |
| 最近记录: |