小编AKC*_*AKC的帖子

如何优雅地停止运行Spark Streaming应用程序?

我如何阻止火花流?我的火花流工作正在持续运行.我想以优雅的方式停下来.

我在下面看到了关闭流应用程序的选项.

sparkConf.set("spark.streaming.stopGracefullyOnShutdown","true") 
Run Code Online (Sandbox Code Playgroud)

Spark配置:可用属性

但是,如何在正在运行的应用程序上更新此参数?

apache-spark spark-streaming

8
推荐指数
1
解决办法
9412
查看次数

保留期后卡夫卡抵消

我有一个带有1个分区的kafka主题.如果它中有100条消息,则偏移量将为0.99.

根据kafka保留策略,所有消息将在指定的时间段后消失.

一旦所有消息被删除(保留期后),我将向该主题发送100条新消息.现在,消息的新偏移量从哪里开始?是100还是0?

我想知道新的补偿是100-199还是0-99?

apache-kafka kafka-consumer-api kafka-producer-api

7
推荐指数
1
解决办法
878
查看次数

在不增加核心的情况下增加Spark Executor中的并行度

我正在运行一个Spark-Kafka Streaming作业,有4个执行器(每个1个核心).而kafka源主题有50个分区.

在流式java程序的foreachpartition中,我正在连接到oracle并做一些工作.Apache DBCP2用于连接池.

Spark-streaming程序与数据库建立4个连接 - 每个执行程序可能为1.但是,我的期望是 - 由于有50个分区,应该有50个线程在运行并且存在50个数据库连接.

如何在不增加内核数量的情况下增加并行度.

oracle apache-spark spark-streaming

5
推荐指数
1
解决办法
185
查看次数

在Hive中,空字符串不被视为null

我对以下语句的理解是,如果在蜂巢列中插入空白或空字符串,则将其视为null。

TBLPROPERTIES('serialization.null.format'=''
Run Code Online (Sandbox Code Playgroud)

为了测试功能,我创建了一个表并在字段3中插入了“”。当我在field3上查询空值时,没有符合该条件的行。

我对将空白字符串设置为null的理解正确吗?

CREATE TABLE CDR
(
field1                 string,
field2                 string,
field3                 string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'
**TBLPROPERTIES('serialization.null.format'='');**

insert overwrite table emmtest.cdr select **field1,field2,''** from emmtest.cdr_non_orc;

select * from emmtest.cdr where **field3 is null;**
Run Code Online (Sandbox Code Playgroud)

最后一条语句未返回任何行。但我期望所有行都将返回,因为field3中有空白字符串。

hadoop hive hiveql

2
推荐指数
1
解决办法
3万
查看次数

如何在 Linux 中捕获 Java -jar 命令的操作系统输出?

我在 linux 终端上运行 java -jar xyz.jar 命令。我的代码中有 system.out.println 语句和 System.exit 语句。

如何在linux上捕获system.exit或输出到操作系统?我需要为此准备一个 linux 脚本吗?

java unix linux shell jar

0
推荐指数
1
解决办法
2593
查看次数