相关疑难解决方法(0)

DataFrame连接优化 - 广播哈希加入

我试图有效地连接两个DataFrame,其中一个是大的,第二个是小一点.

有没有办法避免这一切洗牌?我无法设置autoBroadCastJoinThreshold,因为它只支持整数 - 我尝试广播的表略大于整数个字节.

有没有办法迫使广播忽略这个变量?

dataframe apache-spark apache-spark-sql apache-spark-1.4

32
推荐指数
4
解决办法
5万
查看次数

Google Dataproc上的Spark UI在哪里?

我应该使用哪个端口来访问Google Dataproc上的Spark UI?

我尝试了端口4040和7077以及我发现使用的一堆其他端口 netstat -pln

防火墙配置正确.

apache-spark google-cloud-dataproc

11
推荐指数
1
解决办法
5304
查看次数