Sah*_*dhi 8 r text-analysis text-mining tm
使用R处理TM软件包时遇到以下错误
library("tm")
Loading required package: NLP
Warning messages:
1: package ‘tm’ was built under R version 3.4.2
2: package ‘NLP’ was built under R version 3.4.1
Run Code Online (Sandbox Code Playgroud)
corpus <- VCorpus(DataframeSource(data))
错误:全部(!is.na(匹配(c("doc_id","text"),名称(x))))不是TRUE
已尝试过各种方法,如重新安装软件包,使用新版本的R进行更新,但错误仍然存在.对于相同的数据文件,相同的代码在具有相同版本的R的另一个系统上运行.
Eva*_*Eva 15
当我将tm软件包更新为0.7-2版本时,我遇到了同样的问题.我查找了DataframeSource()细节,它提到:第一列必须命名为"doc_id",并包含每个文档的唯一字符串标识符.第二列必须命名为"text".
详细信息数据框源将数据帧x的每一行解释为文档.第一列必须命名为"doc_id",并包含每个文档的唯一字符串标识符.第二列必须命名为"text",并包含表示文档内容的"UTF-8"编码字符串.可选的附加列用作文档级元数据.
我为你展示我的代码
df_cmp<- read.csv("test_file.csv",stringsAsFactors = F)
df_title <- data.frame(doc_id=row.names(df_cmp),
text=df_cmp$English.title)
Run Code Online (Sandbox Code Playgroud)
您可以尝试将列名更改为doc_id和文本.
| 归档时间: |
|
| 查看次数: |
5963 次 |
| 最近记录: |