小编jfk*_*ler的帖子

我正在尝试将一个包含 pdf 文件的文件夹读入 R 中的数据帧。我能够使用pdftools库和pdf_text(filepath).

理想情况下，我可以获取一系列 pdf 的作者和标题，然后将它们推送到一个数据框中，该数据框中有一列包含这些内容，以便我可以tidytext在文本上使用基本功能。

对于现在的单个文件，我可以使用：

library(pdftools)
library(tidytext)
library(dplyr)
txt <- pdf_text("filpath")
txt <- data_frame(txt)
txt %>%
     unnest_tokens(word, txt)

在这里，我有一个带有单个单词的数据框。我想进入一个数据框，在那里我解压了文章，包括标题和作者列。

4
推荐指数

1
解决办法

1634
查看次数

nlp ×1

r ×1

小编jfk_ler的帖子