小编twi*_*458的帖子

Scala/Spark - 如何获取所有子数组的第一个元素

我在 Spark 中有以下 DataFrame(我使用的是 Scala):

[[1003014, 0.95266926], [15, 0.9484202], [754, 0.94236785], [1029530, 0.880922], [3066, 0.7085166], [1066440, 0.69400793], [1045811, 0.663178], [1020059, 0.6274495], [1233982, 0.6112905], [1007801, 0.60937023], [1239278, 0.60044676], [1000088, 0.5789191], [1056268, 0.5747936], [1307569, 0.5676605], [10334513, 0.56592846], [930, 0.5446228], [1170206, 0.52525467], [300, 0.52473146], [2105178, 0.4972785], [1088572, 0.4815367]]
Run Code Online (Sandbox Code Playgroud)

我想获得一个只有每个子数组的第一个 Int 的 Dataframe,如下所示:

[1003014, 15, 754, 1029530, 3066, 1066440, ...]
Run Code Online (Sandbox Code Playgroud)

因此仅保留x[0]上面列出的数组的每个子数组 x 。

我是 Scala 新手,找不到合适的匿名映射函数。预先感谢您的任何帮助

scala apache-spark apache-spark-sql

2
推荐指数
1
解决办法
2万
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

scala ×1