我们有一个在Kafka层测试数据的项目需求。所以 JSON 文件正在进入 hadoop 区域,而 kafka 正在读取 hadoop(原始 Json 文件)中的实时数据。现在我要测试从其他系统发送的数据和kafka读取的数据是否应该相同。
我可以在 kafka 验证数据吗?kafka 是否将消息内部存储在 HDFS 上?如果是,那么它是否存储在类似于 hive 内部保存的文件结构中,就像单个表的单个文件夹一样。
hadoop hdfs apache-kafka kafka-python kafka-producer-api
apache-kafka ×1
hadoop ×1
hdfs ×1
kafka-producer-api ×1
kafka-python ×1