小编Sou*_*abh的帖子

通过SSH隧道从Kafka群集中消耗

我们正尝试使用Java客户端从Kafka集群中进行使用.群集是Jump主机的后面,因此唯一的访问方式是通过SSH隧道.但我们无法读取,因为一旦消费者获取元数据,它就会使用原始主机连接到代理.这种行为可以被覆盖吗?我们可以要求Kafka客户端不使用元数据吗?

ssh-tunnel apache-kafka

10
推荐指数
4
解决办法
4360
查看次数

Amazon Athena 上的重复数据删除

我们有在 S3 上存储数据的流应用程序。S3 分区可能有重复的记录。我们通过Athena查询S3中的数据。

有没有办法从 S3 文件中删除重复项,以便我们在从 Athena 查询时不会得到它们?

hive presto amazon-athena

5
推荐指数
1
解决办法
2万
查看次数

标签 统计

amazon-athena ×1

apache-kafka ×1

hive ×1

presto ×1

ssh-tunnel ×1