从 PDF 和 Excel 中抓取数据

Sak*_*Ali 5 pdf excel screen-scraping

我正在做一些数据抓取,我从 3 种类型的文件中抓取数据。

1- HTML
2- PDF
3- Excel(xls)

对于 HTML 我很舒服,我为此使用 HTML Agility。

对于 PDF 和 excel,我需要任何人的建议。

提前致谢。

ren*_*ick 5

关于Excel。如果您在 MS 环境中,您可以执行办公自动化或使用 OLEDB。在 Java 环境中查看 Apache POI。

编辑:关于 Java 中的 PDF 尝试Apache PDFBox。也可以使用 IKVM 在 .NET 中工作