joj*_*ojo 2 scala apache-spark
我想使用spark和scala计算数据帧的频率分布(返回每列中最常见的元素及其出现的次数).我已经尝试过使用DataFrameStatFunctions库但是在我仅为数字类型列过滤数据帧之后,我无法应用库中的任何函数.这是创建UDF的最佳方法吗?
Abh*_*bhi 9
您可以使用 val newDF = df.groupBy("columnName").count() newDF.show()
val newDF = df.groupBy("columnName").count() newDF.show()
它将显示唯一条目的频率计数.
归档时间:
9 年,4 月 前
查看次数:
4533 次
最近记录:
6 年,2 月 前