first, last, lag, lead是否支持窗口函数(例如) pyspark?
例如,如何按一列进行分组并按另一列进行排序,然后通过 SparkSQL 或数据框选择每个组的第一行(这就像窗口函数所做的那样)?
我发现pyspark.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。
对于通过pyspark的Spark数据帧,我们可以pyspark.sql.functions.udf用来创建一个user defined function (UDF).  
我想知道我是否可以使用Python包中的任何函数udf(),例如np.random.normal来自numpy?