小编Iam*_*are的帖子

提取嵌入在 PDF 文档中的财务表

我正在尝试解析pdf 格式的公司年度报告(来自 yearreports.com)。我已经下载了大约 5000 个 pdf 文档,每个文档都包含文本和表格数据。我希望提取在这些 pdf 文档中找到的财务数据表并将它们保存到一个 excel 文件中

我尝试过基于 Tabula、PyPDF2、Regexp 和 NLTK 的解决方案,但每次我的解决方案中似乎都会出现误报(未检测到字符、未提取 pdf 中的正确页面等)。这个问题有没有python解决方案?也愿意探索其他语言的解决方案(比如 VBA?)

以下是我正在处理的文档的一些示例

http://annualreports.com/HostedData/AnnualReportArchive/a/NYSE_ATEN_2015.pdf
http://annualreports.com/HostedData/AnnualReportArchive/a/NASDAQ_AEIS_2016.pdf http://annualreports.com/HostedData/AnnualReportArchive/A/LSE16.ALM_20 pdf

感谢您的时间!

python pdf excel finance extract

5
推荐指数
0
解决办法
851
查看次数

标签 统计

excel ×1

extract ×1

finance ×1

pdf ×1

python ×1