如何解决 Windows 上的“pyspark”无法识别...错误？

Question

两周以来，我一直在尝试在我的 Windows 10 计算机上安装 Spark (pyspark)，现在我意识到我需要您的帮助。

当我尝试在命令提示符中启动“pyspark”时，我仍然收到以下错误：

问题

“pyspark”不被识别为内部或外部命令、可操作程序或批处理文件。

对我来说，这暗示路径/环境变量有问题，但我找不到问题的根源。

从Github下载 Hadoop 2.7.1 ：

curl -k -L -o winutils.exe https://github.com/steveloughran/winutils/raw/master/hadoop-2.7.1/bin/winutils.exe?raw=true

这些操作应该可以解决问题，但是当我运行时pyspark --master local[2]，我仍然收到上面的错误。您可以使用上面的信息帮助追踪此错误吗？

我在命令提示符中运行了一些检查来验证以下内容：

Answer 1

我通过将变量设置为“系统变量”而不是“用户变量”解决了这个问题。笔记

就我而言，从命令行设置变量会导致“用户变量”，因此我必须使用高级设置 GUI 输入值作为“系统变量”
您可能想排除任何安装问题，在这种情况下尝试 cd 进入 C:\opt\spark\spark-2.3.1-bin-hadoop2.7\bin 并运行pyspark master local[2]（确保 winutils.exe 在那里）；如果这不起作用那么你还有其他问题而不仅仅是环境变量