小编use*_*009的帖子

Pyspark和Pandas是否经过认证可以合作?

我面临很多问题,将Pyspark数据帧集成/添加到现有的Pandas代码中.

1)如果我将Pandas数据帧转换为Pyspark数据帧,则多个操作无法很好地转换,因为Pyspark数据帧似乎不像Pandas数据帧那样丰富.

2)如果我选择使用Pyspark数据帧和Pandas来处理同一代码中的不同数据集,那么当通过map调用的函数包含任何pandas数据帧时,Pyspark转换(如map)似乎根本不起作用.

我在Python中使用pandas和numpy的现有代码; 并在一台机器上正常工作.我最初尝试将整个代码转换为Spark数据帧失败,因为Spark数据帧不支持Pandas所做的许多操作.

现在,我正在尝试将pyspark应用于现有代码以从Pyspark的分布式计算中获益.使用Spark 2.1.0(Cloudera parcel)和Anaconda发行版 - 使用Python 2.7.14.

Pyspark和Pandas是否经过认证可以合作?有什么好的参考资料,我可以找到文档和一起使用它们的例子吗?

您的回复将受到高度赞赏.

python pandas apache-spark apache-spark-sql pyspark

6
推荐指数
1
解决办法
1503
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pandas ×1

pyspark ×1

python ×1