地图和udf之间的区别

Question

地图和udf之间的区别

当我在Spark中使用DataFrame时,我有时只需要编辑该DataFrame中特定列的值.例如.如果count我的数据框中有一个字段,如果我想添加1每个值count,那么我可以编写一个自定义withColumn的udf 来使用DataFrames 的功能完成工作,或者我可以map在DataFrame上做一个然后从结果RDD中提取另一个DataFrame.

我想知道的是udf实际上是如何工作的.在这种情况下,使用map/udf给我一个比较.性能差异是什么？

谢谢!

Answer 1

Dav*_*vid 4

简单来说，map就是比udf. 使用时map，您可以在一行中操作的列数没有限制。假设您想要导出 5 列数据的值并删除 3 列。您需要执行withColumn/ udf5 次，然后执行select. 使用 1 个map函数，您就可以完成这一切。

如果您只处理一列，使用“withColumn”/“udf”是否比“map”更有效？ (2认同)

归档时间：	9 年，6 月前
查看次数：	2456 次
最近记录：	9 年，6 月前