在过去的几周里,我一直在通过工作中所做的所有测试来扩展我对 Spark 的了解,但我有点困惑,什么时候适合使用 UDF,什么时候不适合。查看一些同行代码,他们在使用数据帧时使用了很多UDF' ,但它们非常占用资源。因为我重构了他们的很多代码,所以我使用spark.sql() 重写了很多代码,而且速度更快,而且我只使用 Spark 功能。话虽如此,什么时候使用 UDF 比较合适,什么时候只使用 Spark 的内置功能比较合适?
user-defined-functions apache-spark apache-spark-sql pyspark