如何在R中阅读pdf文件

許曉雯*_*許曉雯 6 pdf r

有人可以帮助我让我知道如何阅读包含一些表格的 pdf 文件。我想提取表中的数据,并安排到csv文件。

非常感谢

Big*_*ist 8

我意识到这个问题比较老,但我认为可重复的例子可能不会有什么坏处:

library(pdftools)
pdftools::pdf_text(pdf = "http://arxiv.org/pdf/1403.2805.pdf")
Run Code Online (Sandbox Code Playgroud)

离线版本:

pdf(file = "tmp.pdf")
plot(1, main = "mytext")
dev.off()
pdftools::pdf_text(pdf = "tmp.pdf")
Run Code Online (Sandbox Code Playgroud)

我不时回到这个问题,即使当前的答案很好,我总是希望找到可重现的代码。所以我想我添加它。如果不需要,可以将其删除。


hel*_*.de 6

您可以在将PDF 文件读入 R 进行文本挖掘 中找到弗吉尼亚大学详细描述的分步说明。我在下面提取了一些信息。

请按照上面链接中描述的安装说明进行操作。

完成后,您就可以使用 readPDF 来创建读取 PDF 文件的函数了。您可以随意命名该函数,例如 Rpdf。

Rpdf <- readPDF(control = list(text = "-layout"))
Run Code Online (Sandbox Code Playgroud)

readPDF 函数有一个控制参数,我们用它来将选项传递给我们的 PDF 提取引擎。这必须采用列表的形式,因此我们将选项包装在列表函数中。xpdf 引擎有两个控制参数:info 和 text。info 将参数传递给 pdfinfo.exe,而 text 将参数传递给 pdftotext.exe。我们只向 pdftotext 传递一个参数设置:“-layout”。这告诉 pdftptext.exe 保持(尽可能好)文本的原始物理布局。

使用 Rpdf 函数,我们可以继续阅读意见的文本。我们要做的是将 PDF 文件转换为文本并存储在语料库中,语料库基本上是文本数据库。我们可以使用以下代码完成所有这些:

opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))
Run Code Online (Sandbox Code Playgroud)

  • 仅供参考“readPDF”位于“tm”包中 (2认同)