yuq*_*qli 1 python numpy apache-spark pyspark
我无法理解 pyspark、spark 和 python 之间的关系。我试图阅读有关操作系统的内容,但仍然有点困惑。
所以我搜索的是:
但是当我写程序的时候,我很困惑:
在 Pyspark 中,我们可以导入 Numpy 并创建 Numpy 对象。那么,Spark 是否也支持 Numpy 项目呢?
我们可以写“from pyspark import SparkContext”,那么pyspark是否和numpy一样是一个库?
spark中的RDD对象存储在哪里?我可能在这里缺乏一些知识,但究竟什么是 Python 对象/numpy 对象/spark 对象?它们是否存储在物理内存的某个地方?它们在文件系统中吗?来自不同编程库的对象如何在python环境中一起运行?
我觉得我可能在这里搞乱了抽象级别,所以任何指导都会有所帮助!谢谢。
非常简短(您的问题太广泛了,实际上这不是进行此类查询的最佳地点):
pip)。