小编Siv*_*iva的帖子

如何在Windows上设置Spark?

我正在尝试在Windows上设置Apache Spark.

经过一番搜索,我明白独立模式就是我想要的.我要下载哪些二进制文件才能在Windows中运行Apache spark?我在火花下载页面看到了带有hadoop和cdh的发行版.

我没有在网上引用这个.我们非常感谢您的分步指南.

windows apache-spark

89
推荐指数
5
解决办法
19万
查看次数

运行apache spark job时,任务不可序列化异常

编写以下java程序来试验apache spark.

程序尝试从相应的文件中读取正面和负面单词列表,将其与主文件进行比较并相应地过滤结果.

import java.io.Serializable;
import java.io.FileNotFoundException;
import java.io.File;
import java.util.*;
import java.util.Iterator;
import java.util.List;
import java.util.List;
import org.apache.spark.api.java.*;
import org.apache.spark.api.java.function.Function;

public class SimpleApp implements Serializable{
  public static void main(String[] args) {
    String logFile = "/tmp/master.txt"; // Should be some file on your system
    String positive = "/tmp/positive.txt"; // Should be some file on your system
    String negative = "/tmp/negative.txt"; // Should be some file on your system

    JavaSparkContext sc = new JavaSparkContext("local[4]", "Twitter Analyzer", "/home/welcome/Downloads/spark-1.1.0/", new String[]{"target/scala-2.10/Simple-assembly-0.1.0.jar"});

    JavaRDD<String> positiveComments …
Run Code Online (Sandbox Code Playgroud)

java apache-spark

20
推荐指数
2
解决办法
3万
查看次数

是否有可能只使用eclipse和共享构建一个java项目?

是否有可能实际构建一个包含java代码的maven项目,并且可以共享二进制文件?

问题:我正在尝试构建的项目需要大约3-4个小时,并且需要高互联网带宽.我试图检查在其他几台机器中重新使用这个构建项目的可能性.

我之前使用过涉及makefile的c ++项目,这非常简单.我是Java/eclipse的新手,需要帮助才能弄清楚这是否真的有可能.

PS:我确实试图找到现有的解决方案; 他们不是明星前锋,或者他们说不能这样做

java eclipse maven

16
推荐指数
2
解决办法
4712
查看次数

从scala中的地图中删除空字符串

val lines: RDD[String] = sc.textFile("/tmp/inputs/*")
val tokenizedLines = lines.map(Tokenizer.tokenize)
Run Code Online (Sandbox Code Playgroud)

在上面的代码片段中,tokenize函数可能返回空字符串.在这种情况下,如何跳过将其添加到地图中?或添加到地图后删除空条目?

scala apache-spark

11
推荐指数
2
解决办法
2万
查看次数

在逗号分隔的字符串中获取前2个值

我试图在scala中获取逗号分隔字符串的前2个值.例如

a,b,this is a test
Run Code Online (Sandbox Code Playgroud)

如何将值a,b存储在2个单独的变量中?

scala

4
推荐指数
2
解决办法
7529
查看次数

为什么Scala编译器因缺少JavaSparkContext过滤器的参数类型而失败?

我试图将示例中filter显示的内容添加到我的程序中:

val logFile = "/tmp/master.txt"
val sc = new JavaSparkContext("local[4]", "Twitter Analyzer", "/home/welcome/Downloads/spark-1.1.0/",Array("target/scala-2.10/Simple-assembly-0.1.0.jar"))
val twitterFeed = sc.textFile(logFile).cache()

while (iterator.hasNext) {
  val value = iterator.next()
  val numAs = twitterFeed.filter(line => line.contains(value))
  numAs.saveAsTextFile("/tmp/output/positive/" + value)
}
Run Code Online (Sandbox Code Playgroud)

我得到编译错误如下:

[info] Compiling 1 Scala source to /home/siva/file1/target/scala-2.10/classes...
[error] /home/siva/file1/src/main/scala/com/chimpler/example/twitter/Tweet.scala:27: missing parameter type
[error]     val numAs = twitterFeed.filter(line => line.contains(value))
[error]                                    ^
[error] one error found
[error] (compile:compile) Compilation failed
[error] Total time: 5 s, completed 19 Sep, 2014 1:31:26 PM
Run Code Online (Sandbox Code Playgroud)

有任何想法吗?

scala apache-spark

3
推荐指数
1
解决办法
4138
查看次数

标签 统计

apache-spark ×4

scala ×3

java ×2

eclipse ×1

maven ×1

windows ×1