从大 csv 文件读取数据时,spark 中的数据初始partitions发生在什么基础上?
partitions
从大 csv 文件读取时,它将如何决定将大文件数据的分区数量/拆分到不同的工作节点中?
谁能分享一下,它是如何完成的?
distributed-computing apache-spark
apache-spark ×1
distributed-computing ×1