我正在 Spark DataFrame 上应用许多转换(过滤器、groupBy、连接)。我想要每次转换后 DataFrame 中的行数。
我目前正在每次转换后使用函数 count() 来计算行数,但这每次都会触发一个操作,而这并没有真正优化。
我想知道是否有任何方法可以知道行数,而不必触发原始作业以外的其他操作。
scala apache-spark apache-spark-sql
apache-spark ×1
apache-spark-sql ×1
scala ×1