我正在尝试在 Spark 中实现 K-最近邻算法。我想知道是否可以使用嵌套的 RDD。这会让我的生活轻松很多。考虑以下代码片段。
public static void main (String[] args){
//blah blah code
JavaRDD<Double> temp1 = testData.map(
new Function<Vector,Double>(){
public Double call(final Vector z) throws Exception{
JavaRDD<Double> temp2 = trainData.map(
new Function<Vector, Double>() {
public Double call(Vector vector) throws Exception {
return (double) vector.length();
}
}
);
return (double)z.length();
}
}
);
}
Run Code Online (Sandbox Code Playgroud)
目前我遇到了这个嵌套设置的错误(我可以在这里发布完整的日志)。是否允许在拳头位置?谢谢
我用Java Spark API编写了一个程序.鉴于我的数据很大,我收到以下错误
java.lang.OutOfMemoryError:Java堆空间
知道如何在Aws上增加Spark EC2集群的Java堆空间吗?如有必要,我可以提供有关代码和群集设置的详细信息.谢谢.
java heap-memory amazon-ec2 amazon-web-services apache-spark