是否将数据从PDF转换为CSV?Python与PHP?

tr3*_*ine 5 php python pdf screen-scraping

我有很多报告每天都要手工编写,并且要花很多时间,所以我一直在考虑使整个过程自动化。我将从以下位置抓取数据:(1)HTML,(2)CSV / XLS,(3)PDF。我主要只使用PHP从CSV / HTML抓取数据,并且想知道是否存在任何可靠的库或以PHP方式从PDF捕获表数据的方法?

我也刚刚开始学习Python,并且发现尝试将PDFMiner与Scrapy结合使用可能是个好主意。这样会更好吗?还是还有其他选择?

请告诉我。谢谢!

Ste*_*edy 3

Beautiful Soup是另一个不错的抓取替代品,PDFminer 是我发现的最好的 Python PDF 解析器。我主要使用 pdf2txt.py,然后根据需要从那里重新格式化。