小编Soh*_*dev的帖子

如何在终端中执行bash脚本?

我有一个bash脚本,如:

#!/bin/bash

echo Hello world!
Run Code Online (Sandbox Code Playgroud)

如何在终端中执行此操作?

bash terminal

87
推荐指数
8
解决办法
33万
查看次数

了解Spark中的合并

我有一个关于合并的问题。目前尚不清楚它的副作用。我有以下RDD:

JavaRDD<String> someStrings = //...
JavaRDD<String> coalescedStrings = someStrings.coalesce(100, false); //descreasing
Run Code Online (Sandbox Code Playgroud)

那么,实际发生了什么?如果我进行someStrings一些操作会影响coalescedStrings吗?

java apache-spark

1
推荐指数
1
解决办法
2200
查看次数

Spark的dataframe count()函数耗时很长

在我的代码中,我有一系列数据帧,我想过滤掉空的数据帧.我做的事情如下:

Seq(df1, df2).map(df => df.count() > 0)
Run Code Online (Sandbox Code Playgroud)

然而,这需要非常长的时间,大约2个数据帧的每个100k行消耗大约7分钟.

我的问题:为什么Spark的count()实现很慢.有解决方法吗?

dataframe apache-spark spark-dataframe

0
推荐指数
1
解决办法
2211
查看次数

标签 统计

apache-spark ×2

bash ×1

dataframe ×1

java ×1

spark-dataframe ×1

terminal ×1