我试图有效地连接两个DataFrame,其中一个是大的,第二个是小一点.
有没有办法避免这一切洗牌?我无法设置autoBroadCastJoinThreshold,因为它只支持整数 - 我尝试广播的表略大于整数个字节.
autoBroadCastJoinThreshold
有没有办法迫使广播忽略这个变量?
dataframe apache-spark apache-spark-sql apache-spark-1.4
我用于sc.broadcast查找文件以提高性能.
sc.broadcast
我也发现了一个broadcast在Spark SQL Functions中调用的函数.
broadcast
两个有什么区别?
哪一个我应该用它来广播参考/查找表?
scala function broadcast apache-spark apache-spark-sql
apache-spark ×2
apache-spark-sql ×2
apache-spark-1.4 ×1
broadcast ×1
dataframe ×1
function ×1
scala ×1