小编Iam_are的帖子

提取嵌入在 PDF 文档中的财务表

我正在尝试解析pdf 格式的公司年度报告（来自 yearreports.com）。我已经下载了大约 5000 个 pdf 文档，每个文档都包含文本和表格数据。我希望提取在这些 pdf 文档中找到的财务数据表并将它们保存到一个 excel 文件中。

我尝试过基于 Tabula、PyPDF2、Regexp 和 NLTK 的解决方案，但每次我的解决方案中似乎都会出现误报（未检测到字符、未提取 pdf 中的正确页面等）。这个问题有没有python解决方案？也愿意探索其他语言的解决方案（比如 VBA？）

以下是我正在处理的文档的一些示例

http://annualreports.com/HostedData/AnnualReportArchive/a/NYSE_ATEN_2015.pdf
http://annualreports.com/HostedData/AnnualReportArchive/a/NASDAQ_AEIS_2016.pdf http://annualreports.com/HostedData/AnnualReportArchive/A/LSE16.ALM_20 pdf

感谢您的时间！

python pdf excel finance extract

5
推荐指数

0
解决办法

851
查看次数

标签统计

pdf ×1