Sak*_*Ali 5 pdf excel screen-scraping
我正在做一些数据抓取,我从 3 种类型的文件中抓取数据。
1- HTML
2- PDF
3- Excel(xls)
对于 HTML 我很舒服,我为此使用 HTML Agility。
对于 PDF 和 excel,我需要任何人的建议。
提前致谢。
关于Excel。如果您在 MS 环境中,您可以执行办公自动化或使用 OLEDB。在 Java 环境中查看 Apache POI。
编辑:关于 Java 中的 PDF 尝试Apache PDFBox。也可以使用 IKVM 在 .NET 中工作