我正在尝试解析pdf 格式的公司年度报告(来自 yearreports.com)。我已经下载了大约 5000 个 pdf 文档,每个文档都包含文本和表格数据。我希望提取在这些 pdf 文档中找到的财务数据表并将它们保存到一个 excel 文件中。
我尝试过基于 Tabula、PyPDF2、Regexp 和 NLTK 的解决方案,但每次我的解决方案中似乎都会出现误报(未检测到字符、未提取 pdf 中的正确页面等)。这个问题有没有python解决方案?也愿意探索其他语言的解决方案(比如 VBA?)
以下是我正在处理的文档的一些示例
http://annualreports.com/HostedData/AnnualReportArchive/a/NYSE_ATEN_2015.pdf
http://annualreports.com/HostedData/AnnualReportArchive/a/NASDAQ_AEIS_2016.pdf
http://annualreports.com/HostedData/AnnualReportArchive/A/LSE16.ALM_20 pdf
感谢您的时间!