小编use*_*205的帖子

HDFS上的root scratch dir:/ tmp/hive应该是可写的.当前权限是:rw-rw-rw-(在Windows上)

我在Windows 7上运行Spark.当我使用Hive时,我看到以下错误

The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw-

Run Code Online (Sandbox Code Playgroud)

权限设置如下

C:\tmp>ls -la
total 20
drwxr-xr-x    1 ADMIN Administ        0 Dec 10 13:06 .
drwxr-xr-x    1 ADMIN Administ    28672 Dec 10 09:53 ..
drwxr-xr-x    2 ADMIN Administ        0 Dec 10 12:22 hive

Run Code Online (Sandbox Code Playgroud)

我已经从Windows-> properties-> security-> Advanced为所有用户设置了"完全控制".

但我仍然看到同样的错误.有什么帮助吗？我查了一堆链接,有人说这是Spark 1.5上的一个错误.这是真的？

谢谢Aarthi

windows hdfs

use*_*205

2017 02-28

43
推荐指数

7
解决办法

4万
查看次数

使用ant从文件中提取值

文件中包含以下行.我想从这个文件中提取多个数据.

当前用户构建列表的数量:23

'RevisionBuild'运行时间(以分钟为单位)= 8.40

[Build] RC = 0

我使用以下正则表达式从此文件中检索值23

<ac:for param="line" list="${logFileContent}" delimiter="${line.separator}">
  <sequential>                          
<propertyregex property="noOfBuildlists"
         input="@{line}"
     regexp="(.*)Number of current user build lists: (.*)$"
     select="\2"/>  
  </sequential>
</ac:for>

Run Code Online (Sandbox Code Playgroud)

但是当我尝试获取其他行时,相同的正则表达式不会获取任何值,例如regexp ="(.)[revBuild] RC =(.)$"或regexp ="(.)'RevisionBuild'运行时间(以分钟为单位) )=(.)$"其中提取的值应分别为0和8.40.

有人可以帮忙吗？谢谢,Aarthi

regex ant

use*_*205

2017 03-02

6
推荐指数

1
解决办法

1万
查看次数

不使用过滤函数删除 RDD 中的第一个元素

我从一个文件构建了一个 RDD，其中 RDD 中的每个元素都是文件中由分隔符分隔的部分。

val inputRDD1:RDD[(String,Long)] = myUtilities.paragraphFile(spark,path1)
                                              .coalesce(100*spark.defaultParallelism) 
                                              .zipWithIndex() //RDD[String, Long]
                                              .filter(f => f._2!=0)

Run Code Online (Sandbox Code Playgroud)

我执行上面最后一个操作（过滤器）的原因是删除第一个索引 0。

有没有更好的方法来删除第一个元素，而不是像上面那样检查每个元素的索引值？

谢谢！

scala apache-spark rdd

use*_*205

2016 10-27

4
推荐指数

1
解决办法

3652
查看次数