是否将数据从PDF转换为CSV？Python与PHP？

Question

我有很多报告每天都要手工编写，并且要花很多时间，所以我一直在考虑使整个过程自动化。我将从以下位置抓取数据：（1）HTML，（2）CSV / XLS，（3）PDF。我主要只使用PHP从CSV / HTML抓取数据，并且想知道是否存在任何可靠的库或以PHP方式从PDF捕获表数据的方法？

我也刚刚开始学习Python，并且发现尝试将PDFMiner与Scrapy结合使用可能是个好主意。这样会更好吗？还是还有其他选择？

请告诉我。谢谢！

Answer 1

Beautiful Soup是另一个不错的抓取替代品，PDFminer 是我发现的最好的 Python PDF 解析器。我主要使用 pdf2txt.py，然后根据需要从那里重新格式化。