我正在尝试读取 csv 文件(2GB)。由于大小很大,我使用了 dask,但它显示 ValueError:样本不够大,无法包含至少一行数据。sample请增加调用中的字节数read_csv/read_table
任何人都可以建议我如何解决它吗?谢谢
代码:
import dask.dataframe as dd
df= dd.read_csv('file1.csv')
Run Code Online (Sandbox Code Playgroud)
错误:
ValueError: Sample is not large enough to include at least one row of data. Please increase the number of bytes in `sample` in the call to `read_csv`/`read_table`
Run Code Online (Sandbox Code Playgroud)
sample该错误意味着“请在调用中包含可选关键字参数read_csv,给出一个足够大以包含一行数据的值(以字节为单位)”。查看函数docstring,您会发现默认值为 256000bytes。
所以也许可以尝试
df = dd.read_csv('file1.csv', sample=1000000)
Run Code Online (Sandbox Code Playgroud)