Nat*_*H06 5 amazon-s3 apache-kafka parquet apache-kafka-connect
我在 Kafka 中有以 Avro 格式存储的主题。我想使用整个主题(在收到时不会更改任何消息)并将其转换为 Parquet,直接保存在 S3 上。
我目前正在这样做,但它需要我一次使用来自 Kafka 的消息并在本地计算机上处理,将它们转换为 parquet 文件,一旦整个主题被使用并且 parquet 文件完全写入,关闭写入进程,然后启动 S3 分段文件上传。或者| Avro in Kafka -> convert to parquet on local -> copy file to S3 |简称。
我想做的是| Avro in Kafka -> parquet in S3 |
需要注意的一点是,Kafka 主题名称不是静态的,需要在参数中输入,使用一次,然后不再使用。
我研究过 Alpakka,似乎有可能 - 但还不清楚,我还没有看到任何例子。有什么建议么?
您刚刚描述了 Kafka Connect :)
Kafka Connect 是 Apache Kafka 的一部分,并带有S3 连接器插件。尽管如此,目前 Parquet 支持的开发仍在进行中。
有关 Kafka Connect 的入门知识,请参阅http://rmoff.dev/ksldn19-kafka-connect
| 归档时间: |
|
| 查看次数: |
2364 次 |
| 最近记录: |