pss*_*guy 10 python pdf screen-scraping r
我一直在成功地使用XML包来提取HTML表,但是想扩展到PDF.从以前的问题来看,似乎没有一个简单的R解决方案但是想知道是否有最近的发展
如果失败了,在Python(我是一个完整的新手)中有一些方法来获取和操作pdf,这样我就可以用R XML包完成这项工作
Spa*_*man 10
从PDF中提取文本很难,而且几乎总是需要非常小心.
我将从命令行工具(如pdftotext)开始,看看它们吐出的是什么.问题是PDF可以按任何顺序存储文本,可以使用笨拙的字体编码,并且可以执行诸如使用连字字符(在正确排版中看到的联合'ff'和'ij')来抛弃你.
pdftotext可以在任何Linux系统上安装......
| 归档时间: |
|
| 查看次数: |
3619 次 |
| 最近记录: |