Fer*_*ard 7 apache-spark pyspark
我已经使用以下方法独立/本地(在Windows上)安装了PySpark:
pip install pyspark
Run Code Online (Sandbox Code Playgroud)
我已经可以pyspark在命令行中运行或在Jupyter Notebooks中使用它了,并且它不需要正确的Spark安装(例如,我不必执行本教程中的大多数步骤,https://medium.com / @ GalarnykMichael / install-spark-on-windows-pyspark-4498a5d8d66c)。
我遇到的大多数教程都需要“在安装PySpark之前先安装Spark”。这与我的观点有关,即PySpark基本上是Spark的包装。但也许我在这里错了-有人可以解释一下吗:
sbin包含启动历史记录服务器脚本的文件夹)从v2.2开始,执行pip install pyspark将安装Spark。
如果您要使用Pyspark,那么这显然是最简单的入门方法。
在我的系统上,Spark安装在我的虚拟环境(miniconda)中,位于 lib/python3.6/site-packages/pyspark/jars
小智 8
pip 安装的 PySpark 是完整 Spark 的子文件夹。你可以在 .pyspark 中找到大部分 PySpark python 文件spark-3.0.0-bin-hadoop3.2/python/pyspark。因此,如果您想使用java或scala接口,并使用hadoop部署分布式系统,您必须从Apache Spark下载完整的Spark并安装它。
| 归档时间: |
|
| 查看次数: |
1275 次 |
| 最近记录: |