在pySpark中读取本地csv文件（2.3）

Question

在pySpark中读取本地csv文件（2.3）

oku*_*oub 1 apache-spark apache-spark-sql pyspark apache-spark-mllib

我正在使用 pySpark 2.3，尝试读取如下所示的 csv 文件：

0,0.000476517230863068,0.0008178378961061477
1,0.0008506156837329876,0.0008467260987257776

Run Code Online (Sandbox Code Playgroud)

但它不起作用：

from pyspark import sql, SparkConf, SparkContext
print (sc.applicationId)
>> <property at 0x7f47583a5548>
data_rdd = spark.textFile(name=tsv_data_path).filter(x.split(",")[0] != 1)

Run Code Online (Sandbox Code Playgroud)

我收到一个错误：

AttributeError: 'SparkSession' object has no attribute 'textFile'

Run Code Online (Sandbox Code Playgroud)

知道我应该如何在 pySpark 2.3 中阅读它吗？

Answer 1

Rya*_*ier 5

首先，textFile存在于SparkContext（sc在 repl 中调用）上，而不是在对象上（在 repl 中SparkSession调用）上。spark

其次，对于 CSV 数据，我建议使用 CSVDataFrame加载代码，如下所示：

df = spark.read.format("csv").load("file:///path/to/file.csv")

Run Code Online (Sandbox Code Playgroud)

您在评论中提到需要将数据作为 RDD。如果您可以将所有操作保留在 DataFrame 而不是 RDD 上，您将获得显着更好的性能。但是，如果您由于某种原因需要回退到 RDD，您可以按如下方式执行：

rdd = df.rdd.map(lambda row: row.asDict())

Run Code Online (Sandbox Code Playgroud)

执行此方法比尝试自己加载textFile并解析 CSV 数据更好。如果您使用DataFrameCSV 加载，那么它将正确处理所有 CSV 边缘情况，例如带引号的字段。此外，如果只需要某些列，您可以在将DataFrame其转换为 a 之前对其进行过滤RDD，以避免需要将所有额外数据带入 python 解释器。

为什么你特别需要一个 RDD？如果您使用 python，DataFrames 将为您提供更好的性能。如果您确实想这样做，我将更新示例以了解如何转换为 RDD。 (2认同)
尝试“DataFrame.rdd” (2认同)

归档时间：	7 年，6 月前
查看次数：	22726 次
最近记录：	7 年，6 月前