Anu*_*rve 1 apache-kafka apache-kafka-streams apache-kafka-connect
所以我最近开始阅读Kafka,我对Kafka Connect和Kafka Streams之间的区别感到有些困惑.根据定义,Kafka Streams可以从Kafka主题收集数据,处理它并将输出推送到另一个Kafka主题.而Kafka Connect将大型数据集移入和移出Kafka.
我的问题是为什么我们需要Kafka Connect几乎可以读取数据,处理数据并将其推送到主题?为什么要增加一个组件 如果有人可以解释差异,那将是很棒的,在此先感谢:)
Kafka Streams是Apache Kafka的流处理库.因此,您可以构建流应用程序,从Kafka主题读取/写入数据.这是一个通用的图书馆.
另一方面,Kafka Connect是一个"数据集成"框架.通常,您使用Kafka Connect将某些数据系统(如关系数据库)中的数据导入到某个Kafka主题中.您也可以使用相同的框架进行数据导出.
不同的数据存储系统有很多连接器:HDFS,关系数据库,ElasticSearch等.
使用这两个组件(Kafka Connect,Kafka Streams)的可能方案之一将是:
从关系数据库连续将数据导入Kafka主题.使用Kafka Streams应用程序处理数据,该应用程序将结果写入某些输出主题.使用Kafka Connect将该输出主题中的数据导出到ElasticSearch.
[1]这篇博客文章很好地概述了两种技术的结合:https://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams/
| 归档时间: |
|
| 查看次数: |
403 次 |
| 最近记录: |