Spark DataFrame 中的collectAsList

sou*_*abh 5 scala apache-spark

collectAsListSpark DataFrame API 的方法返回 ajava.util.List而不是 Scala 列表有什么具体原因吗?

Hol*_*den 3

我相信它主要是为 Java 用户提供便利的功能,并且也使 Python API 的事情变得更加简单。查看 git 日志(以及since注释),它是在 DataFrame API 的初始合并中引入的,因此不一定是为了响应特定需求而添加的。有时,某些 API 会返回 Java 类型,因为它们更容易在 Python 中进行交互(通过 py4j) - 但这里的情况似乎并非如此(Python API 通过将 DF 转换为 RDD 并在 RDD 上收集来进行收集)。