Pandas：写入 Excel 在 Databricks 中不起作用

Question

Pandas：写入 Excel 在 Databricks 中不起作用

Ari*_*dal 5 python pandas xlsxwriter databricks azure-databricks

我试图将 parquet 文件转换为 Excel 文件。但是，当我尝试使用 pandas 或openpyxl引擎这样做时，它显示“ Operation not supported”错误。但是，我可以使用databricks 中的openpyxl引擎读取 excel 文件。

在阅读以下代码时，它正在工作：

xlfile = '/dbfs/mnt/raw/BOMFILE.xlsx'
tmp_csv = '/dbfs/mnt/trusted/BOMFILE.csv'
pdf = pd.DataFrame(pd.read_excel(xlfile, engine='openpyxl'))
pdf.to_csv (tmp_csv, index = None, header=True)

Run Code Online (Sandbox Code Playgroud)

但是，当我尝试使用 openpyxl 和 xlswriter 编写相同的内容时，它不起作用：

parq = '/mnt/raw/PRODUCT.parquet'
final = '/dbfs/mnt/trusted/PRODUCT.xlsx'
df = spark.read.format("parquet").option("header", "true").load(parq)
pandas_df = df.toPandas()
pandas_df.to_excel(final, engine='openpyxl')
#pandas_df.to_excel(outfile, engine='xlsxwriter')#, sheet_name=tbl)

Run Code Online (Sandbox Code Playgroud)

我得到的错误：

FileCreateError: [Errno 95] Operation not supported

OSError: [Errno 95] Operation not supported
During handling of the above exception, another exception occurred:
FileCreateError                           Traceback (most recent call last)
<command-473603709964454> in <module>
     17       final = '/dbfs/mnt/trusted/PRODUCT.xlsx'
     18       print(outfile)
---> 19       pandas_df.to_excel(outfile, engine='openpyxl')
     20       #pandas_df.to_excel(outfile, engine='xlsxwriter')#, sheet_name=tbl)

/databricks/python/lib/python3.7/site-packages/pandas/core/generic.py in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, inf_rep, verbose, freeze_panes)
   2179             startcol=startcol,
   2180             freeze_panes=freeze_panes,
-> 2181             engine=engine,
   2182         )
   2183

Run Code Online (Sandbox Code Playgroud)

请建议。

Answer 1

Ale*_*Ott 15

问题在于DBFS（保险丝）中的本地文件 API 支持存在限制/dbfs。例如，它不支持 Excel 文件所需的随机写入。来自文档：

不支持随机写入。对于需要随机写入的工作负载，请先在本地磁盘上执行 I/O，然后将结果复制到 /dbfs。

在你的情况下，它可能是：

from shutil import copyfile

parq = '/mnt/raw/PRODUCT.parquet'
final = '/dbfs/mnt/trusted/PRODUCT.xlsx'
temp_file = '/tmp/PRODUCT.xlsx'
df = spark.read.format("parquet").option("header", "true").load(parq)
pandas_df = df.toPandas()
pandas_df.to_excel(temp_file, engine='openpyxl')

copyfile(temp_file, final)

Run Code Online (Sandbox Code Playgroud)

PS 您还可以使用dbutils.fs.cp复制文件（doc） - 它也适用于/dbfs不支持的社区版

归档时间：	4 年，9 月前
查看次数：	10989 次
最近记录：	4 年，7 月前