使用R进行PDF抓取

Question

我一直在成功地使用XML包来提取HTML表,但是想扩展到PDF.从以前的问题来看,似乎没有一个简单的R解决方案但是想知道是否有最近的发展

如果失败了,在Python(我是一个完整的新手)中有一些方法来获取和操作pdf,这样我就可以用R XML包完成这项工作

Answer 1

从PDF中提取文本很难,而且几乎总是需要非常小心.

我将从命令行工具(如pdftotext)开始,看看它们吐出的是什么.问题是PDF可以按任何顺序存储文本,可以使用笨拙的字体编码,并且可以执行诸如使用连字字符(在正确排版中看到的联合'ff'和'ij')来抛弃你.

pdftotext可以在任何Linux系统上安装......

Answer 2

您可能想查看文本挖掘包tm.我记得他们实现了所谓的读者,还有一个用于PDF.