小编Arv*_*ula的帖子

如何按数组中的common元素进行分组?

我试图在spark中找到解决方案,用数组中的公共元素对数据进行分组.

 key                            value
[k1,k2]                         v1
[k2]                            v2
[k3,k2]                         v3
[k4]                            v4
Run Code Online (Sandbox Code Playgroud)

如果任何元素在key中匹配,我们必须为其分配相同的groupid.(Groupby common element)

结果:

key                             value  GroupID
[k1,k2]                           v1    G1
[k2]                              v2    G1
[k3,k2]                           v3    G1 
[k4]                              v4    G2
Run Code Online (Sandbox Code Playgroud)

Spark Graphx已经提供了一些建议,但是此时学习曲线将更多地用于单个功能.

apache-spark apache-spark-sql

9
推荐指数
1
解决办法
802
查看次数

mongodb中集合的最大大小是多少

我想知道mongodb中集合的最大大小是多少.在mongodb限制文档中,提到单个MMAPv1数据库的最大大小为32TB.

这意味着最大收集量是32TB?如果我想在一个集合中存储超过32TB的解决方案是什么?

mongoose mongodb

7
推荐指数
1
解决办法
1万
查看次数

将Spark RDD保存到Hive表

在spark中我想将RDD对象保存到hive表中.我试图使用createDataFrame,但这是扔

线程"main"java.lang.NullPointerException中的异常

 val products=sc.parallelize(evaluatedProducts.toList);
 //here products are RDD[Product]
 val productdf = hiveContext.createDataFrame(products, classOf[Product])
Run Code Online (Sandbox Code Playgroud)

我正在使用Spark 1.5版本.

hadoop apache-spark apache-spark-sql

2
推荐指数
1
解决办法
1万
查看次数