小编Mon*_*nta的帖子

Excel错误可能是pandas写入或大数据引起的？需要建议

我正在读取多个 xml 文件，提取一些数据，然后用我的数据形成 pandas Dataframe。这些是我所做的主要步骤：

打开一个 xml 文件
提取一些元素
使用提取的元素创建一个 pandas 数据框
将结果附加到名为“output.xlsx”的 excel 文件中（在 python 中使用下面的代码）

对我拥有的所有 xml 文件重复我的步骤（15GB 初始数据，通常包含 100MB 有价值的文本数据）

这是我的 python 代码，用于在输出 excel 文件中附加数据框：

book = load_workbook('output.xlsx')
writer = pd.ExcelWriter('output.xlsx', engine='openpyxl')
writer.book = book
writer.sheets = {ws.title: ws for ws in book.worksheets}
startrow = writer.sheets['Sheet1'].max_row
output.to_excel(writer, startrow=startrow,index = False, header = False)
writer.save()

Run Code Online (Sandbox Code Playgroud)

当我在 Excel 中打开“output.xlsx”时，收到一条提示消息：“我们发现“output.xlsx”中的某些内容存在问题。您希望我们尽力恢复吗？” 是或否的答案

这是 excel 生成的日志文件：

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<recoveryLog xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main"> 
<logFileName>error001280_01.xml</logFileName><summary>Errors were detected in 
 file 'D:\JUPYWORKDIR\2009Results\output.xlsx'</summary><repairedRecords> 
<repairedRecord>Repaired Records: String properties …

Run Code Online (Sandbox Code Playgroud)

python xml excel dataframe pandas

Mon*_*nta

2021 01-05

2
推荐指数

1
解决办法

4149
查看次数