在R中使用TM软件包的VCorpus时遇到错误

Question

在R中使用TM软件包的VCorpus时遇到错误

Sah*_*dhi 8 r text-analysis text-mining tm

使用R处理TM软件包时遇到以下错误

library("tm")
Loading required package: NLP
Warning messages:
1: package ‘tm’ was built under R version 3.4.2 
2: package ‘NLP’ was built under R version 3.4.1

Run Code Online (Sandbox Code Playgroud)

corpus <- VCorpus(DataframeSource(data))

错误:全部(!is.na(匹配(c("doc_id","text"),名称(x))))不是TRUE

已尝试过各种方法,如重新安装软件包,使用新版本的R进行更新,但错误仍然存在.对于相同的数据文件,相同的代码在具有相同版本的R的另一个系统上运行.

Answer 1

Eva*_*Eva 15

当我将tm软件包更新为0.7-2版本时,我遇到了同样的问题.我查找了DataframeSource()细节,它提到:第一列必须命名为"doc_id",并包含每个文档的唯一字符串标识符.第二列必须命名为"text".

详细信息数据框源将数据帧x的每一行解释为文档.第一列必须命名为"doc_id",并包含每个文档的唯一字符串标识符.第二列必须命名为"text",并包含表示文档内容的"UTF-8"编码字符串.可选的附加列用作文档级元数据.

我为你展示我的代码

df_cmp<- read.csv("test_file.csv",stringsAsFactors = F)

df_title <- data.frame(doc_id=row.names(df_cmp),
                       text=df_cmp$English.title)

Run Code Online (Sandbox Code Playgroud)

您可以尝试将列名更改为doc_id和文本.

归档时间：	7 年，11 月前
查看次数：	5963 次
最近记录：	6 年，5 月前