小编jfk*_*ler的帖子

tidytext 从文件夹中读取文件

我正在尝试将一个包含 pdf 文件的文件夹读入 R 中的数据帧。我能够使用pdftools库和pdf_text(filepath).

理想情况下,我可以获取一系列 pdf 的作者和标题,然后将它们推送到一个数据框中,该数据框中有一列包含这些内容,以便我可以tidytext在文本上使用基本功能。

对于现在的单个文件,我可以使用:

library(pdftools)
library(tidytext)
library(dplyr)
txt <- pdf_text("filpath")
txt <- data_frame(txt)
txt %>%
     unnest_tokens(word, txt)
Run Code Online (Sandbox Code Playgroud)

在这里,我有一个带有单个单词的数据框。我想进入一个数据框,在那里我解压了文章,包括标题和作者列。

nlp r tidytext

4
推荐指数
1
解决办法
1634
查看次数

标签 统计

nlp ×1

r ×1

tidytext ×1