小编Som*_*toe的帖子

从 PDF 中提取文本会在 R 中返回奇怪的结果

我试图从一堆 PDF 中挖掘文本，但是当我pdf_text从pdftools包中使用 R 将它们读入时，它产生的文本很奇怪，与 PDF 文件中的实际内容完全不同。Onedrive 链接：https ://1drv.ms/b/s!AlTtlgN0WIa3s2qeq4yrv9fUu-Z6 。这是我使用的示例代码：

library(pdftools)
pdf1 <- pdf_text("https://dl.dropboxusercontent.com/s/308gpdijvnw18mf/2018REQ118030709.pdf?dl=0")
pdf1   

     ## c("(’-*)&&$(&’-’’’’)*,&’$)’&/.\r\n     itiCHMON&\\     4Q\\a WN BQKPUWVL
     ##FQZOQVQI                                          )’(/ 7QZ[\\ 9ITN BMIT
     ##6[\\I\\M DI‘ 3QTT\r\n                    5Q^Q[QWV WN 4WTTMK\\QWV[\r\n                   
     ##FE 8_h -10+0\r\n                    HYSX]_^T’ L7 -.-1,(10+0                                                 
     ##3QTT >]UJMZ (/’*’.’0\r\n   IBKHHO F7L;HI ?D9                                                        
     ##@TMI[M ZMKWZL 3QTT >]UJMZ QV UMUW [MK\\QWV WN KPMKS\r\n   ,0+, L7BB;O H:\r\n  
     ##H?9>CED: L7 -.---(0/+1                                                         
     ##IVL QVKT]LM QV ITT WVTQVM JIVSQVO \\ZIV[IK\\QWV[\r\n                                
     ##@ZWXMZ\\a :VNWZUI\\QWV                                                          
     ##DI‘ :VNWZUI\\QWV\r\n     JQh OUQb5                                                          
     ##-+,3 J_dQ\\ 7TZecdUT …

Run Code Online (Sandbox Code Playgroud)

pdf r text-mining

Som*_*toe

2018 03-04

3
推荐指数

1
解决办法

1250
查看次数

标签统计

pdf ×1

r ×1

text-mining ×1

从 PDF 中提取文本会在 R 中返回奇怪的结果

标签 统计

小编Som_toe的帖子

标签统计