从PDF文件中提取文本数据

library('tm')
file <- 'namefile.pdf'
Rpdf <- readPDF(control = list(text = "-layout"))
corpus <- VCorpus(URISource(file), 
      readerControl = list(reader = Rpdf))
corpus.array <- content(content(corpus)[[1]])

Run Code Online (Sandbox Code Playgroud)

然后你将在一个数组中有pdf行.

Answer 5

psy*_*dia 5

该塔布拉 PDF表格提取程序是根据各地基于一个Java的JAR文件包,命令行应用程序塔布拉解压.

所述řtabulizer包提供的R包装,可以很容易地在该路径传递到PDF文件,并从数据表中提炼出来的数据.

Tabula可以很好地猜测表格的位置,但您也可以通过指定页面的目标区域来判断页面的哪个部分.

可以从多个页面提取数据,并且如果需要,可以为每个页面指定不同的区域.

有关示例用例,请参阅:当文档成为数据库时 - Tabulizer R Wrapper for Tabula PDF Table Extractor.

Answer 6

小智 5

install.packages("pdftools")
library(pdftools)


download.file("http://www.nfl.com/liveupdate/gamecenter/56901/DEN_Gamebook.pdf", 
              "56901.DEN.Gamebook", mode = "wb")

txt <- pdf_text("56901.DEN.Gamebook")
cat(txt[1])

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，4 月前
查看次数：	39769 次
最近记录：	6 年，6 月前