我有一个非常简单的 Glue ETL 作业,代码如下:
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate()
conf = sc.getConf()
print(conf.toDebugString())
Run Code Online (Sandbox Code Playgroud)
该作业是在启用 Redshift 连接的情况下创建的。执行作业时我得到:
No module named pyspark.context
Run Code Online (Sandbox Code Playgroud)
公共文档似乎都提到、指出并暗示了 pyspark 的可用性,但为什么我的环境抱怨它没有 pyspark?我缺少哪些步骤?
最好的问候,林
Python Shell 作业仅支持 Python 和 pandas、Scikit-learn 等库。它们不支持 PySpark,因此您应该创建一个作业类型 = Spark 且 ETL 语言 = Python 的作业才能使其正常工作。
| 归档时间: |
|
| 查看次数: |
3083 次 |
| 最近记录: |