Rob*_*ant -1 csv apache-spark apache-spark-sql
我有一个大小为 100GB 的 .csv 文件。我想尽快将它加载到 Spark 中。
Spark 在内部是否将文件分解成块并在多个节点上并行解析块?还是 Spark 仅使用一个节点解析文件并在节点之间分发数据帧?
默认情况下,Spark 会将每个线程CSV file
分成~128MB
块并CSV
以分布式方式读取文件。
Example:
3126179159
以纱线集群模式读取csv文件字节,分为24
分区(任务)并使用可用于您的应用程序的并行线程读取文件!
i.e 3126179159/(24*1024) = ~128MB
Run Code Online (Sandbox Code Playgroud)
您可以how many partitions
在 spark 作业 UI(或)spark 历史服务器 UI 中检查您的文件是否已划分。这等于文件读取的已完成任务数。您可以通过在 UI 的“作业”选项卡中查找“已完成的作业”并查找读取的文件来找到它。
归档时间: |
|
查看次数: |
104 次 |
最近记录: |