将 Kafka 中的 Avro 转换为 Parquet 直接转入 S3

Nat*_*H06 5 amazon-s3 apache-kafka parquet apache-kafka-connect

我在 Kafka 中有以 Avro 格式存储的主题。我想使用整个主题(在收到时不会更改任何消息)并将其转换为 Parquet,直接保存在 S3 上。

我目前正在这样做,但它需要我一次使用来自 Kafka 的消息并在本地计算机上处​​理,将它们转换为 parquet 文件,一旦整个主题被使用并且 parquet 文件完全写入,关闭写入进程,然后启动 S3 分段文件上传。或者| Avro in Kafka -> convert to parquet on local -> copy file to S3 |简称。

我想做的是| Avro in Kafka -> parquet in S3 |

需要注意的一点是,Kafka 主题名称不是静态的,需要在参数中输入,使用一次,然后不再使用。

我研究过 Alpakka,似乎有可能 - 但还不清楚,我还没有看到任何例子。有什么建议么?

Rob*_*att 3

您刚刚描述了 Kafka Connect :)

Kafka Connect 是 Apache Kafka 的一部分,并带有S3 连接器插件。尽管如此,目前 Parquet 支持的开发仍在进行中

有关 Kafka Connect 的入门知识,请参阅http://rmoff.dev/ksldn19-kafka-connect