我试图在spark中找到解决方案,用数组中的公共元素对数据进行分组.
key value
[k1,k2] v1
[k2] v2
[k3,k2] v3
[k4] v4
Run Code Online (Sandbox Code Playgroud)
如果任何元素在key中匹配,我们必须为其分配相同的groupid.(Groupby common element)
结果:
key value GroupID
[k1,k2] v1 G1
[k2] v2 G1
[k3,k2] v3 G1
[k4] v4 G2
Run Code Online (Sandbox Code Playgroud)
Spark Graphx已经提供了一些建议,但是此时学习曲线将更多地用于单个功能.
我想知道mongodb中集合的最大大小是多少.在mongodb限制文档中,提到单个MMAPv1数据库的最大大小为32TB.
这意味着最大收集量是32TB?如果我想在一个集合中存储超过32TB的解决方案是什么?
在spark中我想将RDD对象保存到hive表中.我试图使用createDataFrame,但这是扔
线程"main"java.lang.NullPointerException中的异常
val products=sc.parallelize(evaluatedProducts.toList);
//here products are RDD[Product]
val productdf = hiveContext.createDataFrame(products, classOf[Product])
Run Code Online (Sandbox Code Playgroud)
我正在使用Spark 1.5版本.