小编Mon*_*nta的帖子

Excel错误可能是pandas写入或大数据引起的?需要建议

我正在读取多个 xml 文件,提取一些数据,然后用我的数据形成 pandas Dataframe。这些是我所做的主要步骤:

  1. 打开一个 xml 文件
  2. 提取一些元素
  3. 使用提取的元素创建一个 pandas 数据框
  4. 将结果附加到名为“output.xlsx”的 excel 文件中(在 python 中使用下面的代码)

对我拥有的所有 xml 文件重复我的步骤(15GB 初始数据,通常包含 100MB 有价值的文本数据)

这是我的 python 代码,用于在输出 excel 文件中附加数据框:

book = load_workbook('output.xlsx')
writer = pd.ExcelWriter('output.xlsx', engine='openpyxl')
writer.book = book
writer.sheets = {ws.title: ws for ws in book.worksheets}
startrow = writer.sheets['Sheet1'].max_row
output.to_excel(writer, startrow=startrow,index = False, header = False)
writer.save()
Run Code Online (Sandbox Code Playgroud)

当我在 Excel 中打开“output.xlsx”时,收到一条提示消息:“我们发现“output.xlsx”中的某些内容存在问题。您希望我们尽力恢复吗?” 是或否的答案

这是 excel 生成的日志文件:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<recoveryLog xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main"> 
<logFileName>error001280_01.xml</logFileName><summary>Errors were detected in 
 file 'D:\JUPYWORKDIR\2009Results\output.xlsx'</summary><repairedRecords> 
<repairedRecord>Repaired Records: String properties …
Run Code Online (Sandbox Code Playgroud)

python xml excel dataframe pandas

2
推荐指数
1
解决办法
4149
查看次数

标签 统计

dataframe ×1

excel ×1

pandas ×1

python ×1

xml ×1