相关疑难解决方法(0)

DataFrame连接优化 - 广播哈希加入

我试图有效地连接两个DataFrame,其中一个是大的,第二个是小一点.

有没有办法避免这一切洗牌？我无法设置autoBroadCastJoinThreshold,因为它只支持整数 - 我尝试广播的表略大于整数个字节.

有没有办法迫使广播忽略这个变量？

dataframe apache-spark apache-spark-sql apache-spark-1.4

32
推荐指数

4
解决办法

5万
查看次数

spark sql中sc.broadcast和broadcast函数的区别

我用于sc.broadcast查找文件以提高性能.

我也发现了一个broadcast在Spark SQL Functions中调用的函数.

两个有什么区别？

哪一个我应该用它来广播参考/查找表？

scala function broadcast apache-spark apache-spark-sql

4
推荐指数

2
解决办法

5021
查看次数

标签统计

apache-spark ×2

apache-spark-sql ×2

apache-spark-1.4 ×1