小编NNa*_*med的帖子

我试图有效地连接两个DataFrame,其中一个是大的,第二个是小一点.

有没有办法避免这一切洗牌？我无法设置autoBroadCastJoinThreshold,因为它只支持整数 - 我尝试广播的表略大于整数个字节.

有没有办法迫使广播忽略这个变量？

dataframe apache-spark apache-spark-sql apache-spark-1.4

32
推荐指数

4
解决办法

5万
查看次数

在尝试执行一些早期计算后,我试图将两个DataFrame相互连接起来.命令很简单:

    employee.join(employer, employee("id") === employer("id"))

但是,连接似乎执行了carthesian join,完全忽略了我的===语句.有谁知道为什么会这样？

10
推荐指数

1
解决办法

4606
查看次数

小编NNa_med的帖子