小编kec*_*cso的帖子

获取DataFrame的当前分区数

有没有办法获得DataFrame的当前分区数?我检查了DataFrame javadoc(spark 1.6)并没有找到方法,或者我只是错过了它?(在JavaRDD的情况下,有一个getNumPartitions()方法.)

dataframe apache-spark apache-spark-sql

55
推荐指数
4
解决办法
5万
查看次数

如何在PIG中显示声明的变量

我只是想知道是否有办法在PIG中显示声明的变量 - 用于测试目的(没有UDF)?

那么如何显示$ DATE:

%declare DATE `date +%s`;
Run Code Online (Sandbox Code Playgroud)

apache-pig

3
推荐指数
1
解决办法
6668
查看次数

Spark - 如何以给定的权限写入文件

我尝试使用 750 权限从 spark 写入一些文件,方法如下我fs.permissions.umask-mode在代码中更新了

jsc.hadoopConfiguration().set("fs.permissions.umask-mode", "022");
Run Code Online (Sandbox Code Playgroud)

它已成功更新默认 umask。

比我尝试在磁盘上写一些 RDD,但文件权限与我应用的掩码不一致。这些文件没有预期的 750 权限。

代码示例:

public class Bla {
    public static void main(String[] args) throws Exception {
    SparkConf sConf = new SparkConf().setAppName("test hadoop config ");
    JavaSparkContext jsc = new JavaSparkContext(sConf);
    JavaRDD<String> stringJavaRDD = jsc.textFile("/path/a.txt");
    stringJavaRDD.saveAsTextFile("/path/def_umask");
    System.out.println("fs.permissions.umask-mode " +
            jsc.hadoopConfiguration().get("fs.permissions.umask-mode"));
    jsc.hadoopConfiguration().set("fs.permissions.umask-mode", "022");
    System.out.println("after mod -- fs.permissions.umask-mode " +
            jsc.hadoopConfiguration().get("fs.permissions.umask-mode"));
    // < this succeed
    stringJavaRDD.saveAsTextFile("/path/updated_umask");
    // < files has the same permission as before the umask change :(

    jsc.stop();
}
Run Code Online (Sandbox Code Playgroud)

我在这里想念什么?我该怎么做?火花 …

java hadoop file apache-spark

2
推荐指数
1
解决办法
6341
查看次数

如何访问首次尝试的纱线日志?

如果我使用_ trypid后缀,我会得到给定的尝试日志吗?像这样:

yarn logs -applicationId application_11112222333333_444444_1
Run Code Online (Sandbox Code Playgroud)

奇怪的是,我没有在网上找到答案。

更新:让我重新表述我的问题:如何访问给定尝试的纱线记录?

logging hadoop-yarn

1
推荐指数
1
解决办法
1813
查看次数