小编Arv*_*ula的帖子

如何按数组中的common元素进行分组？

我试图在spark中找到解决方案,用数组中的公共元素对数据进行分组.

 key                            value
[k1,k2]                         v1
[k2]                            v2
[k3,k2]                         v3
[k4]                            v4

Run Code Online (Sandbox Code Playgroud)

如果任何元素在key中匹配,我们必须为其分配相同的groupid.(Groupby common element)

结果:

key                             value  GroupID
[k1,k2]                           v1    G1
[k2]                              v2    G1
[k3,k2]                           v3    G1 
[k4]                              v4    G2

Run Code Online (Sandbox Code Playgroud)

Spark Graphx已经提供了一些建议,但是此时学习曲线将更多地用于单个功能.

apache-spark apache-spark-sql

Arv*_*ula

2018 06-05

9
推荐指数

1
解决办法

802
查看次数

mongodb中集合的最大大小是多少

我想知道mongodb中集合的最大大小是多少.在mongodb限制文档中,提到单个MMAPv1数据库的最大大小为32TB.

这意味着最大收集量是32TB？如果我想在一个集合中存储超过32TB的解决方案是什么？

mongoose mongodb

Arv*_*ula

lucky-day

7
推荐指数

1
解决办法

1万
查看次数

将Spark RDD保存到Hive表

在spark中我想将RDD对象保存到hive表中.我试图使用createDataFrame,但这是扔

线程"main"java.lang.NullPointerException中的异常

 val products=sc.parallelize(evaluatedProducts.toList);
 //here products are RDD[Product]
 val productdf = hiveContext.createDataFrame(products, classOf[Product])

Run Code Online (Sandbox Code Playgroud)

我正在使用Spark 1.5版本.

hadoop apache-spark apache-spark-sql

Arv*_*ula

2016 05-05

2
推荐指数

1
解决办法

1万
查看次数