我试图用dask加载数据集,但是当需要计算我的数据集时,我总是遇到这样的问题:
警告-工作者超出了95%的内存预算。正在重新启动。
我只是在本地计算机上工作,因此启动了dask,如下所示:
if __name__ == '__main__':
libmarket.config.client = Client() # use dask.distributed by default
Run Code Online (Sandbox Code Playgroud)
现在,在错误消息中,我一直看到对“ memory_limit =”关键字参数的引用。但是,我已经彻底搜索了dask文档,无法弄清楚如何在单机配置中增加流血的worker内存限制。我有256GB的RAM,在将其转换回pandas数据帧之前,我将删除将来的大多数列(20GB的csv文件),因此我知道它将适合内存。我只需要从代码中增加每个工人的内存限制(不使用dask-worker),以便可以处理它。
拜托,有人帮我。