Spark (PySpark) 文件已存在异常

Question

Spark (PySpark) 文件已存在异常

jer*_*deb 6 apache-spark apache-spark-sql pyspark

我正在尝试将数据框保存为文本文件，但是，我收到文件已存在异常。我尝试将模式添加到代码中，但没有成功。此外，该文件实际上并不存在。有人知道我该如何解决这个问题吗？我正在使用 PySpark

这是代码：

distFile = sc.textFile("/Users/jeremy/Downloads/sample2.nq")
mapper = distFile.map(lambda q: __q2v(q))
reducer = mapper.reduceByKey(lambda a, b: a + os.linesep + b)
data_frame = reducer.toDF(["context", "triples"])
data_frame.coalesce(1).write.partitionBy("context").text("/Users/jeremy/Desktop/so")

Run Code Online (Sandbox Code Playgroud)

我可以补充一点，异常是在一段时间后引发的，并且某些数据实际上存储在临时文件中（显然已被删除）。

谢谢！

编辑：异常可以在这里找到： https: //gist.github.com/jerdeb/c30f65dc632fb997af289dac4d40c743

Answer 1

Sah*_*sai 2

您可以使用overwrite或append来替换文件或将数据添加到同一文件中。

data_frame.coalesce(1).write.mode('overwrite').partitionBy("context").text("/Users/jeremy/Desktop/so")

Run Code Online (Sandbox Code Playgroud)

或者

data_frame.coalesce(1).write.mode('append').partitionBy("context").text("/Users/jeremy/Desktop/so")

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，2 月前
查看次数：	8729 次
最近记录：	6 年，8 月前