如何监控和控制 AWS Glue Crawler 中的 DPU 使用情况

vil*_*asv 8 amazon-web-services aws-glue

文档中,据说 AWS 默认为每个 ETL 作业分配 10 个 DPU,默认为每个开发端点分配 5 个 DPU,即使两者都可以配置至少 2 个 DPU。

还提到 Crawling 也是按秒递增定价的,最少运行 10 分钟,但没有指定分配了多少 DPU。可以在 Glue 控制台中配置 Jobs 和 Development Endpoints 以消耗更少的 DPU,但我还没有看到爬虫的任何此类配置。

每个爬虫的 DPU 数量是否固定?我们能控制这个数量吗?

小智 5

这是我与 AWS Support 就该主题进行的对话:

您好,我想知道一个爬虫使用了多少个 DPU,以便计算我的爬虫成本。

他们的回答是:

尊敬的 AWS 客户,

感谢您今天与我们联系。我叫 Safari,我会协助您处理案件。

据我了解,在编译 Glue 爬虫的成本时,您想知道特定爬虫使用的 DPU 数量。

不幸的是,没有直接的方法可以找出给定爬虫的 DPU 消耗量。我带来的不便表示歉意。但是,您可能会在详细账单中的 AWS 服务费用 > Glue > {region} > AWS Glue CrawlerRun 部分下看到所有爬网程序的总 DPU 消耗量。此外,您可以向爬网程序添加标签,然后从 AWS Billing and Cost Management 控制台启用“成本分配标签”。这将允许 AWS 生成按预定义标签分组的成本分配报告。有关这方面的更多信息,请参阅下面的文档链接 [1]。

我希望这有帮助。如果我可以为您提供任何其他帮助,请告诉我。

参考文献 [1]: https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/cost-alloc-tags.html


Yuv*_*uva 3

也与 AWS 支持团队讨论,目前无法修改或查看 Glue - 爬虫的 DPU 配置详细信息。但是,爬虫使用 DPU 吗?

  • 是的,他们确实这样做,而且他们的收费与乔布斯完全相同,只是他们将或确实消耗了多少 DPU 并不透明。 (3认同)