JPi*_*ter 6 python cluster-computing multiprocessing scikit-learn pyspark
一个新手问题,因为我对 pyspark 越来越感到困惑。我想扩展现有的 python 数据预处理和数据分析管道。我意识到如果我用 pyspark 对我的数据进行分区,我不能再将每个分区视为一个独立的 Pandas 数据框,并且需要学习使用 pyspark.sql 行/列函数进行操作,并更改大量现有代码,加上我必然会激发 mllib 库,并且无法充分利用更成熟的 scikit-learn 包。那么,如果我可以使用多处理工具进行集群计算并在现有数据帧上并行化任务,我为什么还需要使用 Spark?
小智 1
确实,Spark 确实存在您提到的局限性,即您受限于功能性 Spark 世界(spark mllib、数据帧等)。然而,与其他多处理工具/库相比,它提供的是并行任务的自动分配、分区和重新缩放。与编写自定义多处理代码以响应大量数据+计算相比,扩展和调度 Spark 代码变得更加容易。
| 归档时间: |
|
| 查看次数: |
2142 次 |
| 最近记录: |