.CSV 文件是否由 Spark 分解并并行处理

Rob*_*ant -1 csv apache-spark apache-spark-sql

我有一个大小为 100GB 的 .csv 文件。我想尽快将它加载到 Spark 中。

Spark 在内部是否将文件分解成块并在多个节点上并行解析块?还是 Spark 仅使用一个节点解析文件并在节点之间分发数据帧?

Shu*_*Shu 5

默认情况下,Spark 会将每个线程CSV file分成~128MB块并CSV以分布式方式读取文件。

Example:

3126179159以纱线集群模式读取csv文件字节,分为24分区(任务)并使用可用于您的应用程序的并行线程读取文件!

i.e 3126179159/(24*1024) = ~128MB
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

您可以how many partitions在 spark 作业 UI(或)spark 历史服务器 UI 中检查您的文件是否已划分。这等于文件读取的已完成任务数。您可以通过在 UI 的“作业”选项卡中查找“已完成的作业”并查找读取的文件来找到它。