Kha*_*Mei 8 java mapreduce apache-spark
我正在使用spark来计算用户评论的页面,但是java.lang.StackOverflowError当我在大数据集上运行我的代码时,我会不断获得Spark (40k条目).当在少量条目上运行代码时,它工作正常.
输入示例:
product/productId: B00004CK40 review/userId: A39IIHQF18YGZA review/profileName: C. A. M. Salas review/helpfulness: 0/0 review/score: 4.0 review/time: 1175817600 review/summary: Reliable comedy review/text: Nice script, well acted comedy, and a young Nicolette Sheridan. Cusak is in top form.
Run Code Online (Sandbox Code Playgroud)
代码:
public void calculatePageRank() {
sc.clearCallSite();
sc.clearJobGroup();
JavaRDD < String > rddFileData = sc.textFile(inputFileName).cache();
sc.setCheckpointDir("pagerankCheckpoint/");
JavaRDD < String > rddMovieData = rddFileData.map(new Function < String, String > () {
@Override
public String call(String arg0) throws Exception {
String[] data = arg0.split("\t");
String movieId = data[0].split(":")[1].trim();
String userId = data[1].split(":")[1].trim();
return movieId + "\t" + userId;
}
});
JavaPairRDD<String, Iterable<String>> rddPairReviewData = rddMovieData.mapToPair(new PairFunction < String, String, String > () {
@Override
public Tuple2 < String, String > call(String arg0) throws Exception {
String[] data = arg0.split("\t");
return new Tuple2 < String, String > (data[0], data[1]);
}
}).groupByKey().cache();
JavaRDD<Iterable<String>> cartUsers = rddPairReviewData.map(f -> f._2());
List<Iterable<String>> cartUsersList = cartUsers.collect();
JavaPairRDD<String,String> finalCartesian = null;
int iterCounter = 0;
for(Iterable<String> out : cartUsersList){
JavaRDD<String> currentUsersRDD = sc.parallelize(Lists.newArrayList(out));
if(finalCartesian==null){
finalCartesian = currentUsersRDD.cartesian(currentUsersRDD);
}
else{
finalCartesian = currentUsersRDD.cartesian(currentUsersRDD).union(finalCartesian);
if(iterCounter % 20 == 0) {
finalCartesian.checkpoint();
}
}
}
JavaRDD<Tuple2<String,String>> finalCartesianToTuple = finalCartesian.map(m -> new Tuple2<String,String>(m._1(),m._2()));
finalCartesianToTuple = finalCartesianToTuple.filter(x -> x._1().compareTo(x._2())!=0);
JavaPairRDD<String, String> userIdPairs = finalCartesianToTuple.mapToPair(m -> new Tuple2<String,String>(m._1(),m._2()));
JavaRDD<String> userIdPairsString = userIdPairs.map(new Function < Tuple2<String, String>, String > () {
//Tuple2<Tuple2<MovieId, userId>, Tuple2<movieId, userId>>
@Override
public String call (Tuple2<String, String> t) throws Exception {
return t._1 + " " + t._2;
}
});
try {
//calculate pagerank using this https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/JavaPageRank.java
JavaPageRank.calculatePageRank(userIdPairsString, 100);
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
sc.close();
}
Run Code Online (Sandbox Code Playgroud)
小智 6
当您的 DAG 变大并且代码中发生太多级别的转换时,就会出现此问题。当一个动作最终执行时,JVM 将无法保留执行延迟执行的操作。
检查点是一种选择。我建议为这种聚合实现 spark-sql。如果您的数据是结构化的,请尝试将其加载到数据帧中并执行分组和其他 mysql 功能来实现这一点。
我有很多建议,它们将帮助您极大地提高问题代码的性能。
一个示例是RDD。
count—为了告诉您文件中的行数,需要读取文件。因此,如果您编写RDD。count,此时将读取文件,对行进行计数,并返回计数。如果您致电RDD怎么办。
count再次?同样的事情:文件将被读取并再次计数。那么RDD是什么呢。cache做?现在,如果您运行RDD。count第一次,文件将被加载,缓存和计数。如果您致电RDD。count第二次,该操作将使用缓存。它只会从缓存中获取数据并计算行数,而无需重新计算。
在此处阅读有关缓存的更多信息。
在代码示例中,您不会重用已缓存的任何内容。因此,您可以.cache从那里删除。
rddFileData,rddMovieData和rddPairReviewData步骤,使之一气呵成发生。摆脱掉,.collect因为这样会使结果返回给驱动程序,甚至可能导致错误的实际原因。
当 for 循环变得非常大时,Spark 无法再跟踪沿袭。在 for 循环中启用检查点,以便每 10 次迭代左右检查一次 rdd。检查点将解决该问题。不要忘记之后清理检查点目录。
http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing
| 归档时间: |
|
| 查看次数: |
13597 次 |
| 最近记录: |