我正在尝试将AWS Glue服务ETL某些数据从redshift迁移到S3。爬网程序成功运行并在数据目录中创建了元表,但是,当我运行ETL作业(由AWS生成)时,它在大约20分钟后失败,并说“ Resource unavailable”。
我看不到在Cloudwatch中创建的AWS粘合日志或错误日志。当我尝试查看它们时,它说:“找不到日志流。找不到日志流jr_xxxxxxxxxx。检查它是否已正确创建,然后重试。”
如果您能提供解决此问题的任何指导,我们将不胜感激。
分区数量对 Kafka 中的生产者吞吐量有影响吗?(我知道分区数是消费者端并行度的上限,但是它会影响生产者性能吗?)
我使用 Kafka 中的生产者性能工具在 AWS 上的 Kafka 集群设置上对此进行了测试。我观察到,对于 3、6 和 20 个分区,集群中的聚合吞吐量大致相似(大约 200 MB/s)。如果您能帮我澄清这个问题,我将不胜感激。
谢谢。
我正在尝试使用 AWS Glue 运行 ETL 作业,将数据从 Redshift 提取到 S3。
当我运行爬网程序时,它成功连接到 Redshift 并获取架构信息。相关日志在日志组 aws-glue/crawlers 下创建。
当我运行 ETL 作业时,它应该在日志组 aws-glue/jobs/output 和 aws-glue/jobs/error 下创建一个日志流,但它无法创建此类日志流,最终作业也失败。
(我正在使用 AWS 托管的 AWSGlueServiceRole 策略进行 Glue 服务)
由于它不产生任何日志,因此很难确定 ETL 作业失败的原因。如果您能帮我解决这个问题,我将不胜感激。