awsglue python shell 作业与 Spark 作业的最佳用例是什么？

Question

awsglue python shell 作业与 Spark 作业的最佳用例是什么？

Jin*_*hen 7 amazon-web-services apache-spark aws-glue

一直使用awsgluepythonshell作业来构建简单的数据etl作业，对于spark作业，只使用过一两次转换为orc格式或在JDBC数据上执行sparksql。那么想知道它们各自的最佳/典型用例是什么？一些文档说 python shell job 适合简单的作业，而 Spark 适合更复杂的作业，这是正确的吗？您能否分享更多这方面的经验？

非常感谢

Answer 1

Ram*_*ram -1

它们各自的最佳/典型用例是什么？一些文档说 python shell job 适合简单的作业，而 Spark 适合更复杂的作业，这是正确的吗？

AWS Glue 是 AWS 提供的用于 ETL 作业的快速开发工具/服务。恕我直言，如果您知道 etl 管道中需要做什么，那么开发速度会非常快。

Glue 具有发现、开发、部署等组件。在 Discover... 中，自动爬行（多次运行或调度爬虫）是与我观察到的其他工具不同的重要功能。
Glue 似乎具有连接到 AWS 生态系统服务的集成功能（而 Spark 则需要这样做）

AWS Glue 的典型用例可能是...
1) 从数据仓库加载数据。
2）在amazon s3上构建数据湖。

请参阅 AWS 的演示以获取更多见解。

Custom Spark Job也可以做同样的事情，但需要从头开始开发。而且它没有内置的自动爬行功能。

但是，如果您为 etl 开发 Spark 作业，您就可以进行细粒度的控制来实现复杂的作业。

glue、spark 对于 ETL 都有相同的目标。AFAIK，Glue 适用于简单的工作，例如从源加载到目的地。Spark 作业可以以受控方式进行各种转换。

结论： 对于 ETL 的简单用例（无需太多开发经验即可完成），请使用 Glue。对于具有许多依赖项/转换的定制 ETL，请使用 Spark 作业。

我想，你误解了这个问题。Spark 和 Python Shell 作业都是 AWS Glue 服务的一部分。对我来说，它们之间的区别并不清楚。PySpark 使用特殊的内置 Spark/Glue API；而我的 Python Shell 作业也可以使用“boto3”中的 AWS API。 (11认同)

归档时间：	6 年前
查看次数：	9099 次
最近记录：	4 年，6 月前