Kafka 与 AWS Glue

Question

我们在 AWS 上运行 Kafka 服务，并计划使用 Athena/S3 长期存储我们的分析数据。是否可以将 Kafka 与 AWS Glue 服务结合使用，从 Kafka 读取数据并将其存储在 s3 中？

Answer 1

最好的选择是使用 Confluence 的开源 Kafka Connector for S3，因为即使服务出现故障并重新启动，它也能保证对 S3 进行一次写入。它还\xe2\x80\x99s 之间的实时流集成，因此数据会立即写入 S3，而不会产生额外的延迟。

\n\n

文档在这里：

\n\n

\n\n

源代码在github上：

\n\n

\n\n

Docker 镜像在这里：

\n\n

\n\n

可执行包和 tarball 下载地址：

\n\n

\n\n

S3 的 Kafka Sink 连接器是使用官方 Apache Kafka Connect API 编写的，因此它在标准 Connect Distributed 工作容器中运行，并且可以水平扩展/缩减任务或实例的数量，并通过 Kafka 进行分区和并行消费，以实现高吞吐量。

\n