小编S. *_*. K的帖子

什么是在Spark SQL中连接大表的优化方法

我需要使用Spark SQL或Dataframe API连接表.需要知道实现它的优化方式.

场景是:

  1. 所有数据都以ORC格式存在于Hive中(基本数据帧和参考文件).
  2. 我需要加入一个从Hive读取的基本文件(Dataframe)和11-13其他参考文件来创建一个大的内存结构(400列)(大小约1 TB)

实现这一目标的最佳方法是什么?如果有人遇到类似的问题,请分享您的经验.

apache-spark apache-spark-sql

10
推荐指数
3
解决办法
1万
查看次数

如何在udf中使用广播集合?

如何在Spark SQL 1.6.1 udf中使用广播集合.应该从Main SQL调用Udf,如下所示

sqlContext.sql("""Select col1,col2,udf_1(key) as value_from_udf FROM table_a""")
Run Code Online (Sandbox Code Playgroud)

udf_1() 应该通过广播小集合查找返回值到主sql.

apache-spark apache-spark-sql

7
推荐指数
1
解决办法
5588
查看次数

标签 统计

apache-spark ×2

apache-spark-sql ×2