小编use*_*205的帖子

HDFS上的root scratch dir:/ tmp/hive应该是可写的.当前权限是:rw-rw-rw-(在Windows上)

我在Windows 7上运行Spark.当我使用Hive时,我看到以下错误

The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw- 
Run Code Online (Sandbox Code Playgroud)

权限设置如下

C:\tmp>ls -la
total 20
drwxr-xr-x    1 ADMIN Administ        0 Dec 10 13:06 .
drwxr-xr-x    1 ADMIN Administ    28672 Dec 10 09:53 ..
drwxr-xr-x    2 ADMIN Administ        0 Dec 10 12:22 hive
Run Code Online (Sandbox Code Playgroud)

我已经从Windows-> properties-> security-> Advanced为所有用户设置了"完全控制".

但我仍然看到同样的错误.有什么帮助吗?我查了一堆链接,有人说这是Spark 1.5上的一个错误.这是真的?

谢谢Aarthi

windows hdfs

43
推荐指数
7
解决办法
4万
查看次数

使用ant从文件中提取值

文件中包含以下行.我想从这个文件中提取多个数据.

当前用户构建列表的数量:23

  • 'RevisionBuild'运行时间(以分钟为单位)= 8.40

[Build] RC = 0

我使用以下正则表达式从此文件中检索值23

<ac:for param="line" list="${logFileContent}" delimiter="${line.separator}">
  <sequential>                          
<propertyregex property="noOfBuildlists"
         input="@{line}"
     regexp="(.*)Number of current user build lists: (.*)$"
     select="\2"/>  
  </sequential>
</ac:for>
Run Code Online (Sandbox Code Playgroud)

但是当我尝试获取其他行时,相同的正则表达式不会获取任何值,例如regexp ="(.)[revBuild] RC =(.)$"或regexp ="(.)'RevisionBuild'运行时间(以分钟为单位) )=(.)$"其中提取的值应分别为0和8.40.

有人可以帮忙吗?谢谢,Aarthi

regex ant

6
推荐指数
1
解决办法
1万
查看次数

不使用过滤函数删除 RDD 中的第一个元素

我从一个文件构建了一个 RDD,其中 RDD 中的每个元素都是文件中由分隔符分隔的部分。

val inputRDD1:RDD[(String,Long)] = myUtilities.paragraphFile(spark,path1)
                                              .coalesce(100*spark.defaultParallelism) 
                                              .zipWithIndex() //RDD[String, Long]
                                              .filter(f => f._2!=0)
Run Code Online (Sandbox Code Playgroud)

我执行上面最后一个操作(过滤器)的原因是删除第一个索引 0。

有没有更好的方法来删除第一个元素,而不是像上面那样检查每个元素的索引值?

谢谢!

scala apache-spark rdd

4
推荐指数
1
解决办法
3652
查看次数

是否有等效于 AWS SQS 的 GCP?

我很想了解 GCP 的 PubSub 的实现。尽管 Pubsub 似乎指向遵循发布-订阅设计模式,但它似乎比 AWS SNS(使用发布-订阅模型)更接近 AWS 的 SQS(队列)。为什么认为这是,GCP 的 pubSub

  1. 每个项目最多允许 10,000 个订阅。
  2. 允许过滤订阅
  3. 它甚至允许订购(测试版)——这应该涉及某处的 FIFA 队列。
  4. 它为请求/响应模式公开同步 api。

这让我怀疑 pub/sub 中的订阅是否仅仅是 SQS 的队列。我想听听你对这个比较的意见。混淆是由于缺乏 PubSub 的实现细节和明显的名称表明某种设计模式。

问候,

publish-subscribe amazon-sqs amazon-sns google-cloud-pubsub request-response

3
推荐指数
2
解决办法
4953
查看次数