尝试使用 to_csv 将镶木地板文件保存到 CSV 时出错

Ste*_*fer 0 python csv pandas pyspark

我正在尝试读取其中包含一些实验室数据的镶木地板文件,然后将其加载到临时表中,对该表执行查询,然后将结果保存到 CSV 文件中,并以列和逗号分隔。这是我的代码:

lines = sqlContext.read.parquet("hdfs:////data/lab_01/")
lines.registerTempTable("test_data")
resultsDF = sqlContext.sql("select * from results")

header = ["lab_key", "tray_id", "time", "gene_id", "source"]
pandas.resultsDF.to_csv("/data/results.csv", sep=",", columns = header)
Run Code Online (Sandbox Code Playgroud)

我得到的错误是这样的,它位于代码的最后一行:

AttributeError:模块“pandas”没有属性“resultsDF”

我正在寻找带有标题的 CSV 文件,如下所示:

lab_key  tray_id   time   gene_id  Source
10       26905972   1     8315     2        
30       26984972   1     8669     2        
30       26949059   1     1023     2        
30      26905972    1     1062     1    
Run Code Online (Sandbox Code Playgroud)

我的数据框 resultsDF 如下所示:

[Row(lab_key=1130, tray_id=26984905972, time=1, gene_id=833715, source=2),
 Row(lab_key=1130, tray_id=26984905972, time=1, gene_id=866950, source=2),
 Row(lab_key=1130, tray_id=26984905972, time=1, gene_id=1022843, source=2),
Run Code Online (Sandbox Code Playgroud)

pra*_*dha 5

要回答这个问题:您需要像这样转换为 Pandas 并转换为 csv

resultsDF.toPandas().to_csv(" ")
Run Code Online (Sandbox Code Playgroud)

这是一个不好的方法,因为如果只需要另存为 csv,则无需转换为 Pandas DataFrame,您应该使用以下方法

resultsDF.repartition(1).write.format('com.databricks.spark.csv').save('path+my.csv',header = 'true')
Run Code Online (Sandbox Code Playgroud)