小编Aja*_*ary的帖子

消费者“group_name”组正在永远重新平衡

我使用的是卡夫卡:2.11-1.0.1。该应用程序包含主题“X”的并发度为 5 且分区为 5 的使用者。

当应用程序重新启动并且在分区分配之前在主题“X”上发布消息时,主题“X”的 5 个消费者找到组协调器并向组协调器发送加入组请求。预计会得到团体协调员的答复,但没有收到任何答复。

我已检查 Kafka 服务器日志,但找不到 DEBUG 日志级别的相关日志。

当我运行描述消费者组命令时,出现以下观察结果:

  1. 消费群体正在重新平衡
  2. 老消费者,有一定滞后性
  3. 具有一些随机名称的新消费者。随着时间的推移,新的消费者数量不断增加。

新消息发布在主题“X”上,但消费者没有收到。

heartbeat 和 session.time.out 设置为默认值。

如果消息在主题“X”及其使用者的分区分配之前发布,则会出现此问题。

我的疑问是:为什么重新平衡没有完成以便新的消费者开始消费新生成的消息?

apache-kafka kafka-consumer-api rebalancing spring-kafka

6
推荐指数
1
解决办法
1万
查看次数

如何向单个 AWS EMR 集群提交多个 Spark 作业

我正在尝试向 EMR 集群提交多个作业,但我只看到第一个处于运行状态,其余全部处于接受状态。我的大部分工作都是流媒体工作。

我有以下疑问:

  1. 如何实现这些作业的并行运行?
  2. 自动化这些作业以供将来部署的各种方法有哪些?
  3. 如何处理预定作业(例如每 15 分钟运行一次的作业)?

我正在使用 Java 进行开发。任何输入都将非常有帮助。

java amazon-emr apache-spark spark-streaming

6
推荐指数
1
解决办法
977
查看次数

包含 presto Athena 中的字符串函数

我在雅典娜与 Serde 有一张桌子ORC。该表包含一个名为 的字符串列greeting_message。它也可以包含空值。我想找出表中有多少行具有特定文本作为模式。

假设我的示例数据如下所示:

|greeting_message |
|-----------------|
|hello world      |
|What's up        |
|                 |
|hello Sam        |
|                 |
|hello Ram        |
|good morning, hello |
|                 |
|the above row has null |
| Good morning Sir |
Run Code Online (Sandbox Code Playgroud)

现在对于上表,如果我们看到总共有 10 行。其中 7 个不具有 null 值,其中 3 个仅具有 null/空值。

我想知道包含特定单词的行的百分比是多少。

例如,考虑这个词hello。它存在于 4 行中,因此此类行的百分比为 4/10,即 40%。

另一个例子:这个词morning出现在 2 条消息中。因此,此类行的百分比为 2/10,即 20%。

请注意,我null也在考虑分母的计数。

mysql contains presto string-function amazon-athena

2
推荐指数
1
解决办法
2万
查看次数