小编And*_*hoi的帖子

如何修复“分区上的 Kafka 偏移提交失败:请求超时”

我突然在生产 Kafka 中遇到了类型异常

ERROR[pool-XX-thread-YY] org.apache.kafka.clients.consumer.internals.ConsumerCoordinator - [Consumer clientId=someclientid, groupId=somegroup] Offset commit failed on partition SomeTopic-SomePartition at offset SomeOffset: The request timed out.
Run Code Online (Sandbox Code Playgroud)

这从许多不同的服务(客户端)(不同的线程\不同的主题\不同的分区)发生了 3.5 秒,而不仅仅是自我修复......所有这些客户端的偏移提交配置是 5 秒自动提交。

无法从 kafka 代理日志中跟踪任何内容,除了一组的一些重新平衡权(10 个中有该问题),这在心跳失败时是正常的,在指标服务器中,我可以看到一些提交延迟的峰值,这是我猜的症状和 1 个代理上的一些 TCP 峰值(共 3 个)

我该如何开始调查?什么会导致这样的问题?当这样的事情发生时,我应该去哪里看?

在此附上一些图表的照片:

server-3 中的 TCP 尖峰 server-3 中的 TCP 尖峰

提交延迟峰值 提交延迟峰值

群组同步 群组同步

心跳 心跳

apache-kafka

5
推荐指数
0
解决办法
1510
查看次数

client.dns.lookup 选项中的“use_all_dns_ips”和“resolve_canonical_bootstrap_servers_only”之间的确切区别是什么?

在kafka-client 2.1.0中,client.dns.lookup可用。以下是每个选项的说明。

  1. use_all_dns_ips

    当查找返回主机名的多个 IP 地址时,在连接失败之前将尝试连接所有这些 IP 地址

  2. 仅限resolve_canonical_bootstrap_servers_only

    每个条目都将被解析并扩展为规范名称列表

他们不是都使用dns吗?use_all_dns_ipsresolve_canonical_bootstrap_servers_only之间有什么区别?

apache-kafka kafka-consumer-api kafka-producer-api spring-kafka

2
推荐指数
1
解决办法
4911
查看次数

pyspark:如何按年/月/日/小时子目录编写数据帧分区?

我有如下制表符分隔的数据(csv 文件):

201911240130 a
201911250132 b
201911250143 c
201911250223 z
201911250224 d
...
Run Code Online (Sandbox Code Playgroud)

我想按年、月、日、小时编写目录组。

hdfs://dest/2019/11/24/01/xxxx.csv
hdfs://dest/2019/11/25/01/xxxx.csv
hdfs://dest/2019/11/25/02/xxxx.csv
Run Code Online (Sandbox Code Playgroud)

如何按 yyyy/mm/dd/hh 写入分区?

apache-spark apache-spark-sql pyspark pyspark-sql

1
推荐指数
1
解决办法
3031
查看次数