小编Tho*_*uoc的帖子

Dask.dataframe:合并和groupby时内存不足

我是Dask的新手并且遇到了一些麻烦.

我正在使用一台机器(4GB内存,2个内核)来分析两个csv文件(key.csv:约200万行,约300Mb,sig.csv:~1200万行,约600Mb).有了这些数据,大熊猫无法放入内存中,所以我切换到使用Dask.dataframe,我期望Dask会处理可以放入内存的小块内容(速度可能会慢一些,我不喜欢但是,只要它有效,我就不介意了,但是,不知怎的,Dask仍然耗尽了所有的记忆.

我的代码如下:

key=dd.read_csv("key.csv")
sig=dd.read_csv("sig.csv")

merge=dd.merge(key,sig,left_on["tag","name"],
    right_on["key_tag","query_name"],how="inner")
merge.to_csv("test2903_*.csv") 
# store results into  a hard disk since it cant be fit in memory
Run Code Online (Sandbox Code Playgroud)

我犯了什么错误?任何帮助表示赞赏.

dask

7
推荐指数
1
解决办法
635
查看次数

标签 统计

dask ×1