Vic*_*tor 4 amazon-web-services amazon-emr pyspark pyspark-sql
我目前正在尝试使用 EMR 使用笔记本分析一些数据。我遇到的问题是,当我使用 PySpark 内核时,我无法弄清楚如何包含特定的工件。具体来说,我试图通过简单地使用 --packages争论。我是否必须包含 Bootstrap 操作?我不完全确定我什至会在那里放什么。非常感激任何的帮助。
我在 reddit 上提问,EMR 团队的某个人回答说:
您可以使用%%configure块作为笔记本中的第一个单元格来指定其他包。在你的情况下,这看起来像这样:
%%configure
{ "conf": {"spark.jars.packages": "org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0" }}
Run Code Online (Sandbox Code Playgroud)
这是加载 spark-avro的示例笔记本的屏幕截图。
(免责声明:EMR 团队的 AWS 员工)
| 归档时间: |
|
| 查看次数: |
139 次 |
| 最近记录: |