.CSV 文件是否由 Spark 分解并并行处理

Question

我有一个大小为 100GB 的 .csv 文件。我想尽快将它加载到 Spark 中。

Spark 在内部是否将文件分解成块并在多个节点上并行解析块？还是 Spark 仅使用一个节点解析文件并在节点之间分发数据帧？

Answer 1

默认情况下，Spark 会将每个线程CSV file分成~128MB块并CSV以分布式方式读取文件。

Example:

3126179159以纱线集群模式读取csv文件字节，分为24分区（任务）并使用可用于您的应用程序的并行线程读取文件！

i.e 3126179159/(24*1024) = ~128MB

您可以how many partitions在 spark 作业 UI（或）spark 历史服务器 UI 中检查您的文件是否已划分。这等于文件读取的已完成任务数。您可以通过在 UI 的“作业”选项卡中查找“已完成的作业”并查找读取的文件来找到它。