Jin*_*hen 7 amazon-web-services apache-spark aws-glue
一直使用awsgluepythonshell作业来构建简单的数据etl作业,对于spark作业,只使用过一两次转换为orc格式或在JDBC数据上执行sparksql。那么想知道它们各自的最佳/典型用例是什么?一些文档说 python shell job 适合简单的作业,而 Spark 适合更复杂的作业,这是正确的吗?您能否分享更多这方面的经验?
非常感谢
Ram*_*ram -1
它们各自的最佳/典型用例是什么?一些文档说 python shell job 适合简单的作业,而 Spark 适合更复杂的作业,这是正确的吗?
AWS Glue 是 AWS 提供的用于 ETL 作业的快速开发工具/服务。恕我直言,如果您知道 etl 管道中需要做什么,那么开发速度会非常快。
Glue 具有发现、开发、部署等组件。在 Discover... 中,自动爬行(多次运行或调度爬虫)是与我观察到的其他工具不同的重要功能。
Glue 似乎具有连接到 AWS 生态系统服务的集成功能(而 Spark 则需要这样做)
AWS Glue 的典型用例可能是...
1) 从数据仓库加载数据。
2)在amazon s3上构建数据湖。
Custom Spark Job也可以做同样的事情,但需要从头开始开发。而且它没有内置的自动爬行功能。
但是,如果您为 etl 开发 Spark 作业,您就可以进行细粒度的控制来实现复杂的作业。
glue、spark 对于 ETL 都有相同的目标。AFAIK,Glue 适用于简单的工作,例如从源加载到目的地。Spark 作业可以以受控方式进行各种转换。
结论: 对于 ETL 的简单用例(无需太多开发经验即可完成),请使用 Glue。对于具有许多依赖项/转换的定制 ETL,请使用 Spark 作业。
| 归档时间: |
|
| 查看次数: |
9099 次 |
| 最近记录: |