R 相当于 Python 的 dask

Ada*_*ell 11 python r dask

R 中有与 Python 等效的包dask吗?专门用于在单台机器上的大于内存的数据集上运行机器学习算法。

链接到 Python 的Dask页面:https : //dask.pydata.org/en/latest/

来自 Dask 网站:

Dask 本地扩展 Python

Dask 为分析提供高级并行性,为您喜爱的工具提供大规模性能

Dask 的调度程序可扩展到千节点集群,其算法已在世界上一些最大的超级计算机上进行了测试。

但是你不需要一个庞大的集群来开始。Dask 附带了专为在个人机器上使用而设计的调度程序。今天,许多人使用 Dask 在他们的笔记本电脑上扩展计算,使用多个内核进行计算,并使用磁盘进行多余的存储。

xia*_*dai 6

我正在开发一个名为的简单库disk.frame,它有可能在dask某一天使用。它使用fst文件格式并data.table处理磁盘上的大量数据。截至目前,它没有集群模块,但考虑到它future在后台使用并且future可以有集群后端,未来有可能。

Hadley 等人的作品中也有multidplyr

目前,我已经成功地使用 disk.frame 来操作具有数亿行数据和数百列的数据集。

如果您愿意超越 R,那么 Julia 生态系统中的 JuliaDB.jl 值得关注。


Rob*_*dow 2

一般来说,R 在其本机使用中对 RAM 中的数据进行操作。根据您的操作系统,当 R 需要的内存超过可用内存时,部分内存将换出到磁盘。正常的结果是颠簸,这将使您的机器停止运行。在Windows中,你可以看着任务管理器哭。

有一些软件包承诺管理此过程。Microsoft 的 RevoScaleR 就是其中之一。它不是开源的,并且无法从 CRAN 获得。我对 R 的软件附加组件和那些承诺提高汽车燃油经济性的附加小工具持怀疑态度。总是存在权衡。

简单的答案是,R 中没有免费的午餐。下载不会像为您的计算机安装一些新的 DIMM 那样有效。你最好先看看你的代码。如果这不起作用,请在云中租用大小合适的配置。

  • dask 在 python 中做得很好,值得称赞:) 请注意,dask 分布式调度程序与语言无关,理论上可以从 R 调用(有一个 Julia POC)。 (2认同)