Nar*_*ren 6 twitter scala twitter4j apache-spark spark-streaming
我是Spark和Spark Streaming的新手.我正在研究Twitter流媒体数据.我的任务涉及独立处理每个推文,比如计算每条推文中的单词数量.根据我的阅读,每个输入批处理在Spark Streaming中的RDD上形成.因此,如果我给出2秒的批处理间隔,则新的RDD包含所有推文两秒钟,并且所应用的任何转换将应用于整个两秒数据,并且在该两秒内无法处理单个推文.我的理解是否正确?或者每条推文形成一个新的RDD?我有点困惑......
在一批中,您有一个 RDD,其中包含 2 秒间隔内出现的所有状态。然后您可以单独处理这些状态。这是一个简短的例子:
JavaDStream<Status> inputDStream = TwitterUtils.createStream(ctx, new OAuthAuthorization(builder.build()), filters);
inputDStream.foreach(new Function2<JavaRDD<Status>,Time,Void>(){
@Override
public Void call(JavaRDD<Status> status, Time time) throws Exception {
List<Status> statuses=status.collect();
for(Status st:statuses){
System.out.println("STATUS:"+st.getText()+" user:"+st.getUser().getId());
//Process and store status somewhere
}
return null;
}});
ctx.start();
ctx.awaitTermination();
}
Run Code Online (Sandbox Code Playgroud)
我希望我没有误解你的问题。
佐兰
| 归档时间: |
|
| 查看次数: |
2485 次 |
| 最近记录: |