我正在尝试在Windows上设置Apache Spark.
经过一番搜索,我明白独立模式就是我想要的.我要下载哪些二进制文件才能在Windows中运行Apache spark?我在火花下载页面看到了带有hadoop和cdh的发行版.
我没有在网上引用这个.我们非常感谢您的分步指南.
编写以下java程序来试验apache spark.
程序尝试从相应的文件中读取正面和负面单词列表,将其与主文件进行比较并相应地过滤结果.
import java.io.Serializable;
import java.io.FileNotFoundException;
import java.io.File;
import java.util.*;
import java.util.Iterator;
import java.util.List;
import java.util.List;
import org.apache.spark.api.java.*;
import org.apache.spark.api.java.function.Function;
public class SimpleApp implements Serializable{
public static void main(String[] args) {
String logFile = "/tmp/master.txt"; // Should be some file on your system
String positive = "/tmp/positive.txt"; // Should be some file on your system
String negative = "/tmp/negative.txt"; // Should be some file on your system
JavaSparkContext sc = new JavaSparkContext("local[4]", "Twitter Analyzer", "/home/welcome/Downloads/spark-1.1.0/", new String[]{"target/scala-2.10/Simple-assembly-0.1.0.jar"});
JavaRDD<String> positiveComments …Run Code Online (Sandbox Code Playgroud) 是否有可能实际构建一个包含java代码的maven项目,并且可以共享二进制文件?
问题:我正在尝试构建的项目需要大约3-4个小时,并且需要高互联网带宽.我试图检查在其他几台机器中重新使用这个构建项目的可能性.
我之前使用过涉及makefile的c ++项目,这非常简单.我是Java/eclipse的新手,需要帮助才能弄清楚这是否真的有可能.
PS:我确实试图找到现有的解决方案; 他们不是明星前锋,或者他们说不能这样做
val lines: RDD[String] = sc.textFile("/tmp/inputs/*")
val tokenizedLines = lines.map(Tokenizer.tokenize)
Run Code Online (Sandbox Code Playgroud)
在上面的代码片段中,tokenize函数可能返回空字符串.在这种情况下,如何跳过将其添加到地图中?或添加到地图后删除空条目?
我试图在scala中获取逗号分隔字符串的前2个值.例如
a,b,this is a test
Run Code Online (Sandbox Code Playgroud)
如何将值a,b存储在2个单独的变量中?
我试图将示例中filter显示的内容添加到我的程序中:
val logFile = "/tmp/master.txt"
val sc = new JavaSparkContext("local[4]", "Twitter Analyzer", "/home/welcome/Downloads/spark-1.1.0/",Array("target/scala-2.10/Simple-assembly-0.1.0.jar"))
val twitterFeed = sc.textFile(logFile).cache()
while (iterator.hasNext) {
val value = iterator.next()
val numAs = twitterFeed.filter(line => line.contains(value))
numAs.saveAsTextFile("/tmp/output/positive/" + value)
}
Run Code Online (Sandbox Code Playgroud)
我得到编译错误如下:
[info] Compiling 1 Scala source to /home/siva/file1/target/scala-2.10/classes...
[error] /home/siva/file1/src/main/scala/com/chimpler/example/twitter/Tweet.scala:27: missing parameter type
[error] val numAs = twitterFeed.filter(line => line.contains(value))
[error] ^
[error] one error found
[error] (compile:compile) Compilation failed
[error] Total time: 5 s, completed 19 Sep, 2014 1:31:26 PM
Run Code Online (Sandbox Code Playgroud)
有任何想法吗?