我们正尝试使用Java客户端从Kafka集群中进行使用.群集是Jump主机的后面,因此唯一的访问方式是通过SSH隧道.但我们无法读取,因为一旦消费者获取元数据,它就会使用原始主机连接到代理.这种行为可以被覆盖吗?我们可以要求Kafka客户端不使用元数据吗?
ssh-tunnel apache-kafka
我们有在 S3 上存储数据的流应用程序。S3 分区可能有重复的记录。我们通过Athena查询S3中的数据。
有没有办法从 S3 文件中删除重复项,以便我们在从 Athena 查询时不会得到它们?
hive presto amazon-athena
amazon-athena ×1
apache-kafka ×1
hive ×1
presto ×1
ssh-tunnel ×1