我需要使用Spark SQL或Dataframe API连接表.需要知道实现它的优化方式.
场景是:
实现这一目标的最佳方法是什么?如果有人遇到类似的问题,请分享您的经验.
如何在Spark SQL 1.6.1 udf中使用广播集合.应该从Main SQL调用Udf,如下所示
sqlContext.sql("""Select col1,col2,udf_1(key) as value_from_udf FROM table_a""")
Run Code Online (Sandbox Code Playgroud)
udf_1() 应该通过广播小集合查找返回值到主sql.