小编Pas*_*oix的帖子

如何将包含许多字段的大型 csv 加载到 Spark

新年快乐！！！

我知道以前有人问过/回答过这种类似的问题，但是，我的不同：

我有 100+ 个字段和 100MB+ 的大尺寸 csv，我想将它加载到 Spark (1.6) 进行分析，csv 的标题看起来像附加的示例（只有一行数据）

非常感谢。

更新 1（美国东部时间 2016.12.31.1:26pm）：

我使用以下方法并能够加载数据（具有有限列的示例数据），但是，我需要将标题（来自 csv）自动分配为 DataFrame 中的字段名称，但是，DataFrame 看起来像：

谁能告诉我怎么做？请注意，任何手动方式都是我想要避免的。

>>> import csv
>>> rdd = sc.textFile('file:///root/Downloads/data/flight201601short.csv') 
>>> rdd = rdd.mapPartitions(lambda x: csv.reader(x))
>>> rdd.take(5) 
>>> df = rdd.toDF() 
>>> df.show(5)

Run Code Online (Sandbox Code Playgroud)

csv apache-spark pyspark

Pas*_*oix

2017 01-02

2
推荐指数

1
解决办法

7663
查看次数

标签统计

apache-spark ×1

csv ×1

pyspark ×1

如何将包含许多字段的大型 csv 加载到 Spark

标签 统计

小编Pas_oix的帖子

标签统计