如何在Spark中实现"交叉加入"？

Sha*_*Guo 12 cross-join apache-spark

我们计划将Apache Pig代码移动到新的Spark平台.

Pig具有"Bag/Tuple/Field"概念,其行为与关系数据库类似.Pig为CROSS/INNER/OUTER连接提供支持.

对于CROSS JOIN,我们可以使用别名= CROSS别名,别名[,别名...] [PARTITION BY partitioner] [PARALLEL n];

但是当我们转向Spark平台时,我在Spark API中找不到任何对应物.你有什么主意吗？

是的oneRDD.cartesian(anotherRDD).

归档时间：	11 年，1 月前
查看次数：	9777 次
最近记录：	8 年，6 月前

Spark 2.x的spark.sql.crossJoin.enabled 9

更多相关链接

Spark功能与UDF性能有关？ 32

通过Spark访问HBase表 11

Spark - 如何按键计算记录数 9

Scala:如何获取数据帧中的一系列行 6

Spark Kryo注册数组类 6

运行master的Spark ClassNotFoundException 5

如何在spark流中定期更新rdd 5

使用Apache Zeppelin使用-deprecation重新运行Scala代码 5

为什么我的println在rdd中打印出元素串？ 3

将SSD用于SPARK RDD 2

你如何获得JavaScript的时间戳？ 3844

关闭/隐藏Android软键盘 3641

迭代HashMap 3244

数据绑定如何在AngularJS中运行？ 1924

.gitignore和.gitkeep有什么区别？ 1776

如何使用jQuery更改超链接的href 1231

什么是Python 3相当于"python -m SimpleHTTPServer" 1124

visibility:hidden和display:none之间有什么区别？ 1121

什么是"Linting"？ 1044

将标签重新定义为4个空格 1041