计算数据框中条目数的更快方法是什么?

Din*_*ius 3 scala apache-spark apache-spark-sql

我有一个df包含大约1 Gb数据的数据框.为什么命令df.count()需要相对较长的时间才能完成,而df.filter(...)速度要快得多?有估算的条目数没有更好的办法df是比快df.count()"

Har*_*ebe 5

df.count()是正确的方法.注意,这df.filter(...)是一个转换,这意味着它是惰性的,即过滤代码尚未执行.只有在添加了类似于或已过滤结果的actiton时才会执行它.然后运行时应该与原始调用类似.countcollectcount