使用 AWS Glue 缩短开发周转时间

wrs*_*der 1 amazon-web-services apache-spark aws-glue

AWS Glue 看起来很有前途,但我在开发周期时间方面遇到了挑战。如果我通过 AWS 控制台编辑 PySpark 脚本,即使在最小的测试数据集上运行也需要几分钟的时间。如果我必须等待 3-5 分钟才能查看是否调用了正确的方法glueContext或理解了特定DynamicFrame行为,那么快速迭代就会成为一个挑战。

哪些技术可以让我更快地迭代?

我想我可以在本地开发 Spark 代码,并将其部署到 Glue 作为执行框架。但如果我需要使用特定于 Glue 的扩展来测试代码,我就会陷入困境。

Yur*_*ruk 5

对于开发和测试脚本,Glue 具有开发端点,您可以将其与安装在本地计算机Amazon EC2 实例上的Zeppelin 等笔记本一起使用(其他选项包括“REPL Shell”和“PyCharm Professional”)。

完成测试后,请不要忘记删除端点,因为即使它处于空闲状态,您也需要付费