大量读取期间 kafka 磁盘 hault 写入并导致 kafka 生产者中的“队列已满”错误

Ela*_*dor 7 raid apache-kafka spark-streaming sched-deadline

我们有 6 个具有 256GB RAM、24c/48T 的 kafka 代理，它们托管在 raid10 中配置的 20 个 1.8TB SAS 10K rpm 磁盘。

有两个火花流应用程序

每 10 分钟开始他们的批次
一旦他们开始，他们的第一份工作就是阅读同一个 kafka 主题。
该主题有 200 个分区，均匀分布在 6 个代理上（每个代理上有 33 个分区）。
流媒体应用程序使用 kafka 客户端 0.8.2.1 从 kafka 消费

有 21 个注入器实例以 6K 事件/秒的速率连续写入该主题。他们使用 librdkafka poroducer 来向 kafka 生成事件。

当流媒体应用程序醒来时，他们的第一份工作是阅读主题。一旦这样做，kafka 磁盘中的 %util 将在 30 秒到 60 秒内变为 90-100%，同时所有注入器实例都从它们的 kafka 生产者那里得到“队列已满”错误。这是生产者配置：

queue.buffering.max.kbytes：2097151
逗留时间：0.5

从该图中看不到，但是在 util% 高的时候，有一段时间写入为 0，我们假设在这些时间注入器的生产者的队列已满，因此抛出“队列已满”错误。

值得一提的是，我们在kafka机器中使用deadline IO调度器，它优先考虑读取操作。

关于如何释放写的压力，我们有几个想法：

减少不必要的 iops - 将 kafka 磁盘配置从 raid10 更改为非raid（“jbod”）
传播阅读 - 使 Spark 应用程序在不同时间从 kafka 读取而不是在同一时间醒来
更改写入和读取的优先级 - 将 IO 调度程序更改为 CFQ

我写这个问题是为了验证我们是否在正确的轨道上，并且由于 raid10、截止时间 IO 调度程序和同时读取过多，操作系统 hault 在读取期间确实写入。

你怎么看？

归档时间：	5 年，8 月前
查看次数：	184 次
最近记录：	4 年，3 月前

创建Kafka主题时出错 - 复制因子大于可用代理 37

Spark Streaming:无状态的整体窗口与保持状态 23

发送大量消息 Kafka Producer 11

Kafkacat：如何删除主题或其所有消息？ 7

Kafka Broker 可能无法在 127.0.0.1:2181 上使用 7

为微服务扩展 Kafka 6

春季卡夫卡面临org.apache.kafka.common.errors.InvalidPidMappingException 1

使用 SpringBoot 外部化 Spring Kafka 配置 1

检查Kafka队列是否为空 0

单个 Zookeeper 集合上的多个 kafka 集群 0

"px","dip","dp"和"sp"之间有什么区别？ 5676

如何测试空的JavaScript对象？ 2730

我是否施放了malloc的结果？ 2318

JavaScript发布请求,如表单提交 1465

在Android上旋转活动重启 1341

如何从主机获取Docker容器的IP地址？ 1221

如何让jQuery执行同步而非异步的Ajax请求？ 1173

如何通过对象中的属性对List <T>进行排序 1146

为什么人们在AWS出现时会使用Heroku？Heroku与AWS的区别是什么？ 1082

AngularJS中指令范围内的'@'和'='有什么区别？ 1053