小编Aja*_*ary的帖子

消费者“group_name”组正在永远重新平衡

我使用的是卡夫卡：2.11-1.0.1。该应用程序包含主题“X”的并发度为 5 且分区为 5 的使用者。

当应用程序重新启动并且在分区分配之前在主题“X”上发布消息时，主题“X”的 5 个消费者找到组协调器并向组协调器发送加入组请求。预计会得到团体协调员的答复，但没有收到任何答复。

我已检查 Kafka 服务器日志，但找不到 DEBUG 日志级别的相关日志。

当我运行描述消费者组命令时，出现以下观察结果：

消费群体正在重新平衡
老消费者，有一定滞后性
具有一些随机名称的新消费者。随着时间的推移，新的消费者数量不断增加。

新消息发布在主题“X”上，但消费者没有收到。

heartbeat 和 session.time.out 设置为默认值。

如果消息在主题“X”及其使用者的分区分配之前发布，则会出现此问题。

我的疑问是：为什么重新平衡没有完成以便新的消费者开始消费新生成的消息？

apache-kafka kafka-consumer-api rebalancing spring-kafka

swa*_*il7

2020 07-06

6
推荐指数

1
解决办法

1万
查看次数

如何向单个 AWS EMR 集群提交多个 Spark 作业

我正在尝试向 EMR 集群提交多个作业，但我只看到第一个处于运行状态，其余全部处于接受状态。我的大部分工作都是流媒体工作。

我有以下疑问：

如何实现这些作业的并行运行？
自动化这些作业以供将来部署的各种方法有哪些？
如何处理预定作业（例如每 15 分钟运行一次的作业）？

我正在使用 Java 进行开发。任何输入都将非常有帮助。

java amazon-emr apache-spark spark-streaming

Ank*_*ate

2020 07-20

6
推荐指数

1
解决办法

977
查看次数

包含 presto Athena 中的字符串函数

我在雅典娜与 Serde 有一张桌子ORC。该表包含一个名为的字符串列greeting_message。它也可以包含空值。我想找出表中有多少行具有特定文本作为模式。

假设我的示例数据如下所示：

|greeting_message |
|-----------------|
|hello world      |
|What's up        |
|                 |
|hello Sam        |
|                 |
|hello Ram        |
|good morning, hello |
|                 |
|the above row has null |
| Good morning Sir |

Run Code Online (Sandbox Code Playgroud)

现在对于上表，如果我们看到总共有 10 行。其中 7 个不具有 null 值，其中 3 个仅具有 null/空值。

我想知道包含特定单词的行的百分比是多少。

例如，考虑这个词hello。它存在于 4 行中，因此此类行的百分比为 4/10，即 40%。

另一个例子：这个词morning出现在 2 条消息中。因此，此类行的百分比为 2/10，即 20%。

请注意，我null也在考虑分母的计数。

mysql contains presto string-function amazon-athena

Aja*_*ary

lucky-day

2
推荐指数

1
解决办法

2万
查看次数

标签统计

amazon-athena ×1

amazon-emr ×1

apache-kafka ×1

apache-spark ×1

contains ×1

java ×1

kafka-consumer-api ×1

mysql ×1

presto ×1

rebalancing ×1

spark-streaming ×1

spring-kafka ×1

string-function ×1

消费者“group_name”组正在永远重新平衡

如何向单个 AWS EMR 集群提交多个 Spark 作业

包含 presto Athena 中的字符串函数

标签 统计

小编Aja_ary的帖子

标签统计