小编Jak*_*und的帖子

Spark的Column.isin函数不带List

我正在尝试从Spark Dataframe中过滤出行.

val sequence = Seq(1,2,3,4,5)
df.filter(df("column").isin(sequence))
Run Code Online (Sandbox Code Playgroud)

不幸的是,我得到了一个不受支持的文字类型错误

java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(1,2,3,4,5)
Run Code Online (Sandbox Code Playgroud)

根据文档,它采用scala.collection.Seq列表

我想我不想要文字?然后我可以接受什么样的包装类呢?

java scala apache-spark

7
推荐指数
1
解决办法
1万
查看次数

通过Spark groupBy数据帧找到时间戳的最小值

当我尝试将我的数据框分组到一列时,然后尝试找到groupbyDatafram.min('timestampCol')它出现的每个分组的最小值我不能在非数字列上进行.那我怎样才能正确过滤groupby上的最小(最早)日期?

我从postgresql S3实例流式传输数据帧,以便已经配置了数据.

sql scala apache-spark apache-spark-sql

6
推荐指数
1
解决办法
9522
查看次数

标签 统计

apache-spark ×2

scala ×2

apache-spark-sql ×1

java ×1

sql ×1