我知道如何在scala中找到文件大小.但是如何在spark中找到RDD/dataframe大小?
斯卡拉:
object Main extends App {
val file = new java.io.File("hdfs://localhost:9000/samplefile.txt").toString()
println(file.length)
}
Run Code Online (Sandbox Code Playgroud)
火花:
val distFile = sc.textFile(file)
println(distFile.length)
Run Code Online (Sandbox Code Playgroud)
但如果我处理它没有获得文件大小.如何找到RDD大小?