如何使用 Python 自动检测 Excel 中的表格

Boo*_*d16 5 python excel pandas

我有数百个 Excel 文件和数百个表格。

我想使用 python 自动检测这些表并将它们转换为 pandas 数据帧。

关于这些表的一些关键事实：

这些表没有命名。
这些桌子的位置也是未知的
一张表可以有多个表（通常由几个空行分隔）
可能有注释
表格总是有一组带有值、行和列标签的单元格
列标签可能位于 1 行或 2 行（想想 pandas df 中的嵌套标题）

这是表格外观的示例。

这是我提出的解决方案（我希望您对此提出意见）：

从 Excel 中给定工作表的右下角开始（因此从下到上工作）
搜索其中包含值的单元格簇。假设您找到 4 个单元格（上面 2 个，下面 2 个），其中有数字。这表明您已降落在桌子上
然后你会算出这个表的尺寸，所以左上角和右下角，这将是 df 的值
然后您将计算出列/标题中有多少级别并提取标签
然后你会计算出行/索引中有多少层并提取标签
然后移至下一张表并重复

使用什么库？

xlrd：非常快，但不读取 .xlsx 文件的单元格格式。它确实提供 .xls 文件的单元格格式信息，但不提供 .xlsx 的单元格格式信息。我们专注于 .xlsx。
openpyxl：非常慢，使用大量内存，因为它将所有内容加载到内存中。它确实提供单元格格式信息。

在我的研究过程中，我遇到了这两个问题，它们相似，但提出的解决方案是基于 VBA 的，而我需要一个纯粹的 python 解决方案。

归档时间：	6 年，1 月前
查看次数：	3889 次
最近记录：	5 年，1 月前

使用pandas GroupBy.agg()对同一列进行多次聚合 95

Flask jsonify对象列表 50

将OpenCV图像转换为黑白图像 45

在Pandas DataFrame中汇总列值 16

与热图配对(可能是对数)？ 8

python pandas datetime.time - datetime.time 7

仅使用 javascript 和 html 读取 csv 或 excel (xlsx) 文件？ 6

在将数据从Excel文件转换为XML时,Dot被隐式转换为哈希 5

Excel VBA：NTLM / Kerberos 和 VBA-Web / WinHttp 中的协商身份验证 5

如果我后来从其中任何一个删除了任何超链接，为什么 Excel 会删除所有粘贴的超链接？ 5

堆栈和堆的内容和位置是什么？ 7847

在Windows命令行上是否有相应的"哪个"？ 2231

原子和非原子属性之间有什么区别？ 1828

将(移动)子目录分离到单独的Git存储库中 1712

如何检查字符串"StartsWith"是否是另一个字符串？ 1660

JavaScript检查变量是否存在(定义/初始化) 1642

什么是TypeScript,为什么我会用它代替JavaScript？ 1637

为什么++ [[]] [+ []] + [+ []]返回字符串"10"？ 1613

PowerShell说"在这个系统上禁用了脚本的执行." 1545

将浮点数限制为两个小数点 1527