如何在 Glue ETL 中启用 pySpark?

Lim*_*Lim 1 pyspark aws-glue

我有一个非常简单的 Glue ETL 作业,代码如下:

from pyspark.context import SparkContext

sc = SparkContext.getOrCreate()
conf = sc.getConf()

print(conf.toDebugString())
Run Code Online (Sandbox Code Playgroud)

该作业是在启用 Redshift 连接的情况下创建的。执行作业时我得到:

No module named pyspark.context
Run Code Online (Sandbox Code Playgroud)

公共文档似乎都提到、指出并暗示了 pyspark 的可用性,但为什么我的环境抱怨它没有 pyspark?我缺少哪些步骤?

最好的问候,林

Aid*_*nez 5

Python Shell 作业仅支持 Python 和 pandas、Scikit-learn 等库。它们不支持 PySpark,因此您应该创建一个作业类型 = Spark 且 ETL 语言 = Python 的作业才能使其正常工作。