是否可以从R中解析PDF文件中的文本数据?有没有出现是一个相关包这样的提取,但有没有人尝试或见于读该怎么办?
在Python中有PDFMiner,但我想在可能的情况下将此分析保留在R中.
有什么建议?
我试图刮掉跨越多个页面的PDF表格.我试过很多东西,但最好的似乎是 pdftotext -layout为这里建议.问题是生成的文本文件不易使用,因为表格布局在页面之间不同,因此列不对齐.另请注意以"Solsonès"开头的行中缺少的值:
TEMPERATURA MITJANA MENSUAL ( ºC ) - 2012
COMARCA CODI i NOM EMA GEN FEB MAR ABR MAI JUN JUL AGO SET OCT N
Alt Camp VY Nulles 7,5 5,5 10,9 12,3 16,7 21,6 22,3 24,4 20,1 15,9
Alt Camp DQ Vila-rodona 7,9 5,6 11,0 12,0 16,6 21,6 22,0 24,3 19,9 15,8
Alt Empordà U1 Cabanes 8,2 6,5 11,7 12,6 17,5 22,0 23,1 24,4 20,4 16,6
Alt Empordà W1 Castelló d'Empúries 8,1 …Run Code Online (Sandbox Code Playgroud)