小编Mne*_*yne的帖子

如何在纱线客户端模式下在远程主节点上提交spark作业?

我需要将火花应用程序/作业提交到远程火花群集.我目前在我的机器上点火,主节点的IP地址作为yarn-client.顺便说一句我的机器不在群集中.我用这个命令提交我的工作

./spark-submit --class SparkTest --deploy-mode client /home/vm/app.jar 
Run Code Online (Sandbox Code Playgroud)

我将我的主人的地址硬编码到表单中的应用程序中

val spark_master = spark://IP:7077
Run Code Online (Sandbox Code Playgroud)

但我得到的只是错误

16/06/06 03:04:34 INFO AppClient$ClientEndpoint: Connecting to master spark://IP:7077...
16/06/06 03:04:34 WARN AppClient$ClientEndpoint: Failed to connect to master IP:7077
java.io.IOException: Failed to connect to /IP:7077
at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:216)
at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:167)
at org.apache.spark.rpc.netty.NettyRpcEnv.createClient(NettyRpcEnv.scala:200)
at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:187)
at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:183)
at java.util.concurrent.FutureTask.run(FutureTask.java:266)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.net.ConnectException: Connection refused: /IP:7077
Run Code Online (Sandbox Code Playgroud)

或者如果我使用

./spark-submit --class SparkTest --master yarn --deploy-mode client /home/vm/test.jar
Run Code Online (Sandbox Code Playgroud)

我明白了

Exception in thread "main" java.lang.Exception: When running with master …
Run Code Online (Sandbox Code Playgroud)

hadoop cluster-computing hadoop-yarn apache-spark

14
推荐指数
1
解决办法
2万
查看次数

Spark抛出java.util.NoSuchElementException:未找到密钥:67

在Zeppelin中运行Spark bisecting kmmeans算法.

//I transform my data using the TF-IDF algorithm 

val idf = new IDF(minFreq).fit(data)
val hashIDF_features = idf.transform(dbTF)    

//and parse the transformed data to the clustering algorithm.

val bkm = new BisectingKMeans().setK(100).setMaxIterations(2)
val model = bkm.run(hashIDF_features)
val cluster_rdd = model.predict(hashIDF_features)
Run Code Online (Sandbox Code Playgroud)

我总是得到这个错误:

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 270.0 failed 4 times, most recent failure: Lost task 0.3 in stage 270.0 (TID 126885, IP): java.util.NoSuchElementException: key not found: 67
    at scala.collection.MapLike$class.default(MapLike.scala:228)
    at scala.collection.AbstractMap.default(Map.scala:58)
    at …
Run Code Online (Sandbox Code Playgroud)

scala nosuchelementexception apache-spark apache-zeppelin

8
推荐指数
1
解决办法
1万
查看次数

我可以在主键的聚类列中有空值吗?

所以我有一张表,我想创建一个复合主键:一个分区键和几个集群列。然而,严格来说这些列并不总是填充的,因此某些行可能具有空值。Cassandra 允许这样做吗?具有空值的聚类列?

cassandra

6
推荐指数
2
解决办法
7463
查看次数

我无法在我的机器上启动 logstash。里面的错误信息

以下是教程中的测试命令:

./logstash -e 'input { stdin { } } output { stdout {} }'
Run Code Online (Sandbox Code Playgroud)

以下是错误。

WARNING: Could not find logstash.yml which is typically located in $LS_HOME/config or /etc/logstash. You can specify the path using --path.settings. Continuing using the defaults
Could not find log4j2 configuration at path //usr/share/logstash/config/log4j2.properties. Using default config which logs to console
01:55:14.242 [main] FATAL logstash.runner - An unexpected error occurred! {:error=>#<ArgumentError: Path "/usr/share/logstash/data" must be a writable directory. It is not writable.>, :backtrace=>["/usr/share/logstash/logstash-core/lib/logstash/settings.rb:433:in `validate'", "/usr/share/logstash/logstash-core/lib/logstash/settings.rb:216:in `validate_value'", "/usr/share/logstash/logstash-core/lib/logstash/settings.rb:132:in …
Run Code Online (Sandbox Code Playgroud)

elasticsearch logstash logstash-configuration

5
推荐指数
1
解决办法
3901
查看次数

不能使用不等数量的分区来压缩RDD.我可以用什么作为拉链的替代品?

我有三个相同大小的RDD rdd1包含一个String标识符,rdd2包含一个向量并rdd3包含一个整数值.

基本上我想将这三个压缩在一起得到一个RDD,RDD[String,Vector,Int]但我不断得到不能用不等数量的分区压缩RDD.我怎样才能完全绕过拉链来做上述事情呢?

scala zipper apache-spark rdd

3
推荐指数
1
解决办法
976
查看次数

Spark:由于自定义字符串比较,在Filter命令期间任务不可序列化

我正在尝试使用Spark对cassandra执行查询.系统获取特定值,我想在DB中找到包含该值的其他元素.但是,该值是用户生成的,它取决于查询(即,它不是预定义的,系统每次都会收到一个新的).因此它将在方法中的某处定义为:

val id = "ID"
Run Code Online (Sandbox Code Playgroud)

我将要查询的colmn被DB视为TEXT,但实际上它是一个json输出,我必须在json字段中找到一个特定的值.因此,在spark命令中,我也在转换Json中每行的内容并遍历.

所以查询看起来像这样:

    sc.cassandraTable("keyspace","table").where("some_restriction=random")
      .filter(x=> (Json.parse(x.get[String]("content"))\"id")
      .toString.contains(id))
Run Code Online (Sandbox Code Playgroud)

这会引发错误:

org.apache.spark.SparkException: Task not serializable
    at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304)
    at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:294)
    at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:122)
    at org.apache.spark.SparkContext.clean(SparkContext.scala:2055)
    at org.apache.spark.rdd.RDD$$anonfun$filter$1.apply(RDD.scala:341)
    at org.apache.spark.rdd.RDD$$anonfun$filter$1.apply(RDD.scala:340)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:316)
    at org.apache.spark.rdd.RDD.filter(RDD.scala:340)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:61)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:66)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:68)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:70)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:72)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:74)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:76)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:78)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:80)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:82)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:84)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:86)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:88)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:90)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:92)
    at $iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:94)
    at $iwC$$iwC$$iwC$$iwC.<init>(<console>:96)
    at $iwC$$iwC$$iwC.<init>(<console>:98)
    at $iwC$$iwC.<init>(<console>:100)
    at $iwC.<init>(<console>:102)
    at <init>(<console>:104)
    at .<init>(<console>:108) …
Run Code Online (Sandbox Code Playgroud)

scala cassandra apache-spark spark-cassandra-connector

1
推荐指数
1
解决办法
1036
查看次数

无法在 cassandra 表中复制 csv 文件

我使用 COPY/TO 创建了一个标准的 csv 文件,现在我想在另一个 cassandra 表中使用 COPY/FROM 上传内容。但是,我收到以下错误:

Failed to import 5000 rows: Error - field larger than field limit (131072),  given up after 1 attempts
Exceeded maximum number of insert errors 1000
Failed to process 5000 rows; failed rows written to import_point_labeled_results.err
Exceeded maximum number of insert errors 1000
Processed: 0 rows; Rate:       0 rows/s; Avg. rate:       0 rows/s
0 rows imported from 0 files in 6.639 seconds (0 skipped).
Run Code Online (Sandbox Code Playgroud)

csv 有大约 90 万个条目。是的,某些列内容大于 131072,但这是不可避免的,无法更改。如何解决此问题/绕过此问题?我真的很想这样做而不必重新启动整个集群。

编辑:

我尝试遵循更改./cqlshrc …

csv cassandra cassandra-3.0

1
推荐指数
1
解决办法
1142
查看次数

如何同时使用两个功能对RDD条目进行排序?

我有一个 Spark RDD,我想以有组织的方式对其条目进行排序。假设条目是一个包含 3 个元素的元组(name,phonenumber,timestamp)。我想首先根据 的值对条目进行排序phonenumber,然后根据 的值进行timestamp排序,同时尊重而不是更改基于phonenumber. (所以timestamp只根据phonenumber排序重新排列)。是否有 Spark 函数来执行此操作?

(我在 Scala 中使用 Spark 2.x)

scala apache-spark rdd apache-spark-2.0

0
推荐指数
1
解决办法
572
查看次数

如何全局设置 Go 环境变量

当我声明我的 Go 环境时(即使用简单导出的 GOPATH 和 GOROOT):

export GOROOT=/usr/lib/go-1.9/
export GOPATH=/my/workspace/go
Run Code Online (Sandbox Code Playgroud)

当前终端正常识别变量,但如果我打开另一个终端窗口,这些变量没有设置,需要从头开始重新配置。

除了像编辑 .bashrc 文件这样的常见方法之外,是否有一种特定于 go 的方法来设置 go 环境变量的默认值?

bash environment-variables go

-1
推荐指数
1
解决办法
1万
查看次数