小编Ami*_*mar的帖子

如何在zookeeper中删除非空的数据节点?

要从命令行界面删除zookeeper中的节点,可以使用delete命令.当我运行它时,它说:

Node not empty: /testNode
Run Code Online (Sandbox Code Playgroud)

我正在使用本指南.

apache-zookeeper

18
推荐指数
1
解决办法
3万
查看次数

Apache Storm vs Apache Samza vs Apache Spark

我曾经参与过Storm和Spark,但是Samza很新.

我不明白为什么当Storm已经在那里进行实时处理时Samza被引入了.Spark在内存中提供近实时处理,并具有其他非常有用的组件如graphx和mllib.

Samza带来了哪些改进以及可能的进一步改进?

apache-spark apache-storm apache-samza

9
推荐指数
1
解决办法
4996
查看次数

线程"main"中的异常java.lang.NoClassDefFoundError:org/apache/spark/Logging

我是Spark的新手.我试图在Oracle VirtualBox 5.1.4r110228上运行CDH 5.8.0-0上的Spark应用程序(.jar),它利用Spark Steaming在twitter上执行情绪分析.我创建了自己的Twitter帐户,并生成了所有必需的(4)令牌.我被NoClassDefFoundError例外阻止了.

我一直在谷歌上搜索几天.到目前为止我发现的最好的建议是在下面的URL中,但显然我的环境仍然缺少一些东西.

http://javarevisited.blogspot.com/2011/06/noclassdeffounderror-exception-in.html#ixzz4Ia99dsp0

在Runile中缺少Compile中出现的库是什么意思?我们该如何解决这个问题?

什么是Logging库?我看到一篇文章说这个Logging可能会被弃用.除此之外,我确实在我的环境中看到了log4j.

在我的CDH 5.8中,我正在运行这些版本的软件:Spark-2.0.0-bin-hadoop2.7/spark-core_2.10-2.0.0 jdk-8u101-linux-x64/jre-bu101-linux-x64

我在最后添加了例外的细节.以下是我执行应用程序时执行的过程以及在执行异常后执行的一些验证:

  1. 解压twitter-streaming.zip(Spark应用)
  2. cd twitter-streaming
  3. 运行./sbt/sbt汇编
  4. 使用您的Twitter帐户更新env.sh

$ cat env.sh

export SPARK_HOME=/home/cloudera/spark-2.0.0-bin-hadoop2.7
export CONSUMER_KEY=<my_consumer_key>
export CONSUMER_SECRET=<my_consumer_secret>
export ACCESS_TOKEN=<my_twitterapp_access_token>
export ACCESS_TOKEN_SECRET=<my_twitterapp_access_token>
Run Code Online (Sandbox Code Playgroud)

submit.sh脚本在env.sh中包含了spark-submit命令以及所需的凭据信息:

$ cat submit.sh

source ./env.sh
$SPARK_HOME/bin/spark-submit --class "TwitterStreamingApp" --master local[*] ./target/scala-2.10/twitter-streaming-assembly-1.0.jar $CONSUMER_KEY $CONSUMER_SECRET $ACCESS_TOKEN $ACCESS_TOKEN_SECRET
Run Code Online (Sandbox Code Playgroud)

装配过程的日志:[cloudera @ quickstart twitter-streaming] $ ./sbt/sbt assembly

Launching sbt from sbt/sbt-launch-0.13.7.jar
[info] Loading project definition from /home/cloudera/workspace/twitter-streaming/project
[info] Set current project to twitter-streaming (in build file:/home/cloudera/workspace/twitter-streaming/)
[info] Including: twitter4j-stream-3.0.3.jar
[info] Including: …
Run Code Online (Sandbox Code Playgroud)

apache-spark

6
推荐指数
1
解决办法
1万
查看次数

如何通过spark REST API获取所有作业状态?

我正在使用spark 1.5.1,我想通过REST API检索所有作业状态.

我正在使用正确的结果 /api/v1/applications/{appId}.但是在访问工作时/api/v1/applications/{appId}/jobs遇到"没有这样的app:{appID}"响应.

我应该如何在此处传递应用程序ID以使用spark REST API检索应用程序的作业状态?

rest apache-spark

5
推荐指数
3
解决办法
2万
查看次数

Spark Streaming 不从 Windows 中的本地目录读取文件

public class StreamingWordCount implements Serializable { 

public static void main(String[] args) {    

    JavaStreamingContext jssc = new JavaStreamingContext("local[2]", "JavaWordCount",
            new Duration(1000));
    JavaDStream<String> data = jssc.textFileStream("D:/krishna/").cache();
    data.foreach(new Function<JavaRDD<String>, Void>() {

        public Void call(JavaRDD<String> rdd) throws Exception {
            List<String> output = rdd.collect();
            System.out.println("Sentences Collected from files " + output);
            return null;
        }
    });

    data.print();
    jssc.start();
    jssc.awaitTermination();
  }
}
Run Code Online (Sandbox Code Playgroud)

我在 Windows 8 上独立使用 Spark。

JavaStreamingContext 仅适用于 HDFS 目录吗?

点击输出:这是控制台输出,从文件中收集的句子是空的。我尝试更改目录,文件。但是代码仍然没有选择文件。这是我在 Spark Streaming 中的第一个代码。请帮忙。

real-time apache-spark spark-streaming

5
推荐指数
1
解决办法
844
查看次数

java.lang.IllegalStateException:不支持在启动上下文后添加新输入,转换和输出操作

当我尝试在Spark的Function调用中创建一个dStream时,我得到以下异常.

我的通话方式:

@Override
public JavaRDD<Object> call(JavaRDD<Object> v1) throws Exception {
    Queue<JavaRDD<Object>> queue = new LinkedList<>();
    queue.add(v1);
    JavaDStream<Object> dStream = context.queueStream(queue);
    JavaDStream<Object> newDStream = dStream.map(AbstractProcessor.this);
    final JavaRDD<Object> rdd = context.sparkContext().emptyRDD();
    newDStream.foreachRDD(new SaxFunction<JavaRDD<Object>, Void>() {
        private static final long serialVersionUID = 672054140484217234L;

        @Override
        public Void execute(JavaRDD<Object> object) throws Exception {
            rdd.union(object);
            return null;
        }
    });
    return rdd;
}
Run Code Online (Sandbox Code Playgroud)

例外:

Caused by: java.lang.IllegalStateException: Adding new inputs, transformations, and output operations after starting a context is not supported
    at org.apache.spark.streaming.dstream.DStream.validateAtInit(DStream.scala:220)
    at org.apache.spark.streaming.dstream.DStream.<init>(DStream.scala:64)
    at org.apache.spark.streaming.dstream.InputDStream.<init>(InputDStream.scala:42) …
Run Code Online (Sandbox Code Playgroud)

apache-spark

5
推荐指数
0
解决办法
1725
查看次数

Maven动态地从不同的依赖项中排除具有相同名称的类

有两个类com.package.A,一个来自

<dependency>
    <groupId>com.package</groupId>
    <artifactId>art1</artifactId>
</dependency>
Run Code Online (Sandbox Code Playgroud)

一个来自

<dependency>
    <groupId>com.package</groupId>
    <artifactId>art2</artifactId>
</dependency>
Run Code Online (Sandbox Code Playgroud)

请注意,工件ID是不同的.

对于不同的Maven配置文件,我想排除一个版本,只保留另一个版本.我正在使用Shade插件.

maven maven-shade-plugin

4
推荐指数
1
解决办法
2883
查看次数