PIZ*_*ZZA 2 hadoop hdfs apache-spark pyspark spark-dataframe
我是一个新的 pyspark 用户。我刚刚下载并安装了一个spark集群(“spark-2.0.2-bin-hadoop2.7.tgz”),安装后我想访问文件系统(将本地文件上传到集群)。但是当我尝试在命令中输入 hadoop 或 hdfs 时,它会说“找不到命令”。
我要安装 hadoop/HDFS(我认为它是内置在 spark 中的,我不明白)?
提前致谢。
您必须先安装 hadoop 才能访问 HDFS。按照这个http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
从 apache 站点选择最新版本的 hadoop。完成 hadoop 设置后,转到 spark http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz下载此文件,提取文件。在 spark-env.sh 中设置 java_home 和 hadoop_home。
| 归档时间: |
|
| 查看次数: |
1396 次 |
| 最近记录: |