小编npp*_*993的帖子

在takeSample上运行堆内存的Spark作业

我有一个Apache spark集群,有一个主节点和三个工作节点.工作节点每个都有32个内核和124G内存.我还在HDFS中获得了大约6.5亿条文本记录的数据集.这个数据集是许多读入的序列化RDD,如下所示:

import org.apache.spark.mllib.linalg.{Vector, Vectors, SparseVector}
val vectors = sc.objectFile[(String, SparseVector)]("hdfs://mn:8020/data/*")

Run Code Online (Sandbox Code Playgroud)

我想提取一百万条记录的样本来做一些分析,所以我想我会尝试val sample = vectors.takeSample(false, 10000, 0).但是,最终失败并显示以下错误消息:

 15/08/25 09:48:27 ERROR Utils: Uncaught exception in thread task-result-getter-3
java.lang.OutOfMemoryError: Java heap space
        at org.apache.spark.scheduler.DirectTaskResult$$anonfun$readExternal$1.apply$mcV$sp(TaskResult.scala:64)
        at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1239)
        at org.apache.spark.scheduler.DirectTaskResult.readExternal(TaskResult.scala:61)
        at java.io.ObjectInputStream.readExternalData(ObjectInputStream.java:1837)
        at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1796)
        at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
        at java.io.ObjectInputStream.readObject(ObjectInputStream.java:370)
        at org.apache.spark.serializer.JavaDeserializationStream.readObject(JavaSerializer.scala:69)
        at org.apache.spark.serializer.JavaSerializerInstance.deserialize(JavaSerializer.scala:89)
        at org.apache.spark.scheduler.TaskResultGetter$$anon$2$$anonfun$run$1.apply$mcV$sp(TaskResultGetter.scala:79)
        at org.apache.spark.scheduler.TaskResultGetter$$anon$2$$anonfun$run$1.apply(TaskResultGetter.scala:51)
        at org.apache.spark.scheduler.TaskResultGetter$$anon$2$$anonfun$run$1.apply(TaskResultGetter.scala:51)
        at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1772)
        at org.apache.spark.scheduler.TaskResultGetter$$anon$2.run(TaskResultGetter.scala:50)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:745)
Exception in thread "task-result-getter-3" java.lang.OutOfMemoryError: Java heap space
        at org.apache.spark.scheduler.DirectTaskResult$$anonfun$readExternal$1.apply$mcV$sp(TaskResult.scala:64)
        at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1239)
        at org.apache.spark.scheduler.DirectTaskResult.readExternal(TaskResult.scala:61) …

Run Code Online (Sandbox Code Playgroud)

java cloud scala apache-spark

npp*_*993

lucky-day

5
推荐指数

1
解决办法

3740
查看次数

如何防止数据绑定中GridView中第一个项目的自动选择？

当我将GridView数据绑定到ObservableCollection时,会自动选择该集合的第一项.SelectionModeGridView 的属性设置为multiple.有没有办法阻止这种自动选择？或者我应该监听什么事件,以便我可以SelectedIndex将GridView 重置为-1？

c# data-binding gridview windows-runtime winrt-xaml

npp*_*993

2014 09-09

1
推荐指数

1
解决办法

3103
查看次数