安装了 Spark 但没有找到命令“hdfs”或“hadoop”

Question

我是一个新的 pyspark 用户。我刚刚下载并安装了一个spark集群（“spark-2.0.2-bin-hadoop2.7.tgz”），安装后我想访问文件系统（将本地文件上传到集群）。但是当我尝试在命令中输入 hadoop 或 hdfs 时，它会说“找不到命令”。

我要安装 hadoop/HDFS（我认为它是内置在 spark 中的，我不明白）？

提前致谢。

Answer 1

从 apache 站点选择最新版本的 hadoop。完成 hadoop 设置后，转到 spark http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz下载此文件，提取文件。在 spark-env.sh 中设置 java_home 和 hadoop_home。