小编Blo*_*d01的帖子

何时适合使用 UDF 与使用 Spark 功能?

在过去的几周里,我一直在通过工作中所做的所有测试来扩展我对 Spark 的了解,但我有点困惑,什么时候适合使用 UDF,什么时候不适合。查看一些同行代码,他们在使用数据帧时使用了很多UDF' ,但它们非常占用资源。因为我重构了他们的很多代码,所以我使用spark.sql() 重写了很多代码,而且速度更快,而且我只使用 Spark 功能。话虽如此,什么时候使用 UDF 比较合适,什么时候只使用 Spark 的内置功能比较合适?

user-defined-functions apache-spark apache-spark-sql pyspark

2
推荐指数
1
解决办法
2698
查看次数