小编use_ult的帖子

从AWS Redshift到S3的AWS Glue ETL作业失败

我正在尝试将AWS Glue服务ETL某些数据从redshift迁移到S3。爬网程序成功运行并在数据目录中创建了元表，但是，当我运行ETL作业（由AWS生成）时，它在大约20分钟后失败，并说“ Resource unavailable”。

我看不到在Cloudwatch中创建的AWS粘合日志或错误日志。当我尝试查看它们时，它说：“找不到日志流。找不到日志流jr_xxxxxxxxxx。检查它是否已正确创建，然后重试。”

如果您能提供解决此问题的任何指导，我们将不胜感激。

amazon-s3 amazon-web-services amazon-redshift aws-glue

9
推荐指数

2
解决办法

2456
查看次数

Apache Kafka 中的分区数量与生产者吞吐量

分区数量对 Kafka 中的生产者吞吐量有影响吗？（我知道分区数是消费者端并行度的上限，但是它会影响生产者性能吗？）

我使用 Kafka 中的生产者性能工具在 AWS 上的 Kafka 集群设置上对此进行了测试。我观察到，对于 3、6 和 20 个分区，集群中的聚合吞吐量大致相似（大约 200 MB/s）。如果您能帮我澄清这个问题，我将不胜感激。

谢谢。

apache-kafka kafka-consumer-api kafka-producer-api

5
推荐指数

1
解决办法

1759
查看次数

未创建 AWS CloudWatch Logs

我正在尝试使用 AWS Glue 运行 ETL 作业，将数据从 Redshift 提取到 S3。

当我运行爬网程序时，它成功连接到 Redshift 并获取架构信息。相关日志在日志组 aws-glue/crawlers 下创建。
当我运行 ETL 作业时，它应该在日志组 aws-glue/jobs/output 和 aws-glue/jobs/error 下创建一个日志流，但它无法创建此类日志流，最终作业也失败。

（我正在使用 AWS 托管的 AWSGlueServiceRole 策略进行 Glue 服务）

由于它不产生任何日志，因此很难确定 ETL 作业失败的原因。如果您能帮我解决这个问题，我将不胜感激。

amazon-web-services aws-glue

4
推荐指数

1
解决办法

6054
查看次数

标签统计

amazon-web-services ×2

amazon-redshift ×1

apache-kafka ×1

kafka-consumer-api ×1

kafka-producer-api ×1