Kafka 与 AWS Glue

tho*_*tam 2 amazon-web-services apache-kafka aws-glue

我们在 AWS 上运行 Kafka 服务,并计划使用 Athena/S3 长期存储我们的分析数据。是否可以将 Kafka 与 AWS Glue 服务结合使用,从 Kafka 读取数据并将其存储在 s3 中?

Han*_*sen 6

最好的选择是使用 Confluence 的开源 Kafka Connector for S3,因为即使服务出现故障并重新启动,它也能保证对 S3 进行一次写入。它还\xe2\x80\x99s 之间的实时流集成,因此数据会立即写入 S3,而不会产生额外的延迟。

\n\n

文档在这里:

\n\n

https://docs.confluence.io/current/connect/connect-storage-cloud/kafka-connect-s3/docs/s3_connector.html

\n\n

源代码在github上:

\n\n

https://github.com/confluenceinc/kafka-connect-storage-cloud

\n\n

Docker 镜像在这里:

\n\n

https://hub.docker.com/r/confluenceinc/cp-kafka-connect/

\n\n

可执行包和 tarball 下载地址:

\n\n

https://www.confluence.io/download/

\n\n

S3 的 Kafka Sink 连接器是使用官方 Apache Kafka Connect API 编写的,因此它在标准 Connect Distributed 工作容器中运行,并且可以水平扩展/缩减任务或实例的数量,并通过 Kafka 进行分区和并行消费,以实现高吞吐量。

\n