相关疑难解决方法(0)

从PDF文件中提取文本数据

是否可以从R中解析PDF文件中的文本数据？有没有出现是一个相关包这样的提取,但有没有人尝试或见于读该怎么办？

在Python中有PDFMiner,但我想在可能的情况下将此分析保留在R中.

有什么建议？

pdf r parser-generator

Dre*_*way

2017 05-23

41
推荐指数

6
解决办法

4万
查看次数

刮掉跨越多个页面的大型pdf表

我试图刮掉跨越多个页面的PDF表格.我试过很多东西,但最好的似乎是 pdftotext -layout为这里建议.问题是生成的文本文件不易使用,因为表格布局在页面之间不同,因此列不对齐.另请注意以"Solsonès"开头的行中缺少的值:

                                                                        TEMPERATURA MITJANA MENSUAL ( ºC ) - 2012

COMARCA          CODI i NOM EMA                    GEN    FEB    MAR         ABR       MAI      JUN      JUL          AGO        SET        OCT        N

Alt Camp         VY   Nulles                        7,5    5,5   10,9         12,3     16,7     21,6     22,3         24,4       20,1        15,9
Alt Camp         DQ   Vila-rodona                   7,9    5,6   11,0         12,0     16,6     21,6     22,0         24,3       19,9        15,8
Alt Empordà      U1   Cabanes                       8,2    6,5   11,7         12,6     17,5     22,0     23,1         24,4       20,4        16,6
Alt Empordà      W1   Castelló d'Empúries           8,1 …

Run Code Online (Sandbox Code Playgroud)

perl ms-access r pdf-scraping

TMS*_*TMS

2017 05-23

15
推荐指数

3
解决办法

3288
查看次数