Har*_*sad 63 python bigdata pandas apache-spark dask
我目前正在使用Pandas和Spark进行数据分析.我发现Dask提供了并行化的NumPy数组和Pandas DataFrame.
Pandas在Python中进行数据分析非常简单直观.但由于系统内存有限,我发现难以在Pandas中处理多个更大的数据帧.
简单回答:
Apache Spark是一个包含分布式计算,SQL查询,机器学习等在JVM上运行的全包框架,通常与Hadoop等其他大数据框架共同部署....通常Dask比Spark更小,重量更轻.
我从http://dask.pydata.org/en/latest/spark.html了解下面的详细信息
我从以下链接了解有关Dask的更多信息 https://www.continuum.io/blog/developer-blog/high-performance-hadoop-anaconda-and-dask-your-cluster
http://dask.pydata.org/en/latest/dataframe-overview.html
限制
Dask.DataFrame不实现整个Pandas接口.期望这样的用户会感到失望.但是,dask.dataframe有以下限制:
感谢Dask开发人员.这似乎是非常有前途的技术.
总的来说,我可以理解Dask比spark更容易使用.Dask与Pandas一样灵活,具有更大的计算能力和更多的CPU.
我理解关于Dask的所有上述事实.
那么,使用Dask大致可以处理多少数据量(以TB为单位)?
Max*_*axU 28
您可能想要阅读与Apache Spark的Dask比较
Apache Spark是一个包含分布式计算,SQL查询,机器学习等在JVM上运行的全包框架,通常与Hadoop等其他大数据框架共同部署.它最初针对数据工程和业务分析中常见的批量数据摄取和查询进行了优化,但后来扩展了.Spark通常用于中小型集群,但也可在单台机器上运行良好.
Dask是一个并行编程库,它与Numeric Python生态系统相结合,提供并行数组,数据帧,机器学习和自定义算法.它基于Python和基础C/Fortran堆栈.Dask最初设计用于补充具有并行性的其他库,特别是用于数值计算和高级分析,但后来扩展了.Dask通常在单个计算机上使用,但也可以在分布式群集上运行良好.
通常,Dask比Spark更小,重量更轻.这意味着它具有更少的功能,而是旨在与其他库结合使用,尤其是数字Python生态系统中的库.
| 归档时间: |
|
| 查看次数: |
20007 次 |
| 最近记录: |