小编ron*_*ith的帖子

读取txt中文时出错：corpus()仅适用于字符、语料库、语料库、data.frame、kwic对象

我尝试使用R、jiebaR和语料库生成一个词云并获取中文语音的词频，但无法制作语料库。这是我的代码：

library(jiebaR)
library(stringr)
library(corpus)

cutter <- worker()

v36 <- readLines('v36.txt', encoding = 'UTF-8')

seg_x <- function(x) {str_c(cutter[x], collapse = '')}

x.out <- sapply(v36, seg_x, USE.NAMES = FALSE)

v36.seg <- x.out
v36.seg

library(quanteda)

corpus <- corpus(v36.seg)  #Error begins here.
summary(corpus, showmeta = TRUE, 1)
texts(corpus)[1]

tokens(corpus, what = 'fasterword')[1]

tokens <- tokens(v36.seg, what = 'fasterword')
dfm <- dfm(tokens)
dfm

Run Code Online (Sandbox Code Playgroud)

我的文本文件包含以下段落：

当我创建语料库时出现错误。R 返回：

Error in corpus.default(v36.seg) : 
  corpus() only works on character, corpus, Corpus, data.frame, kwic objects.

Run Code Online (Sandbox Code Playgroud)

我不明白为什么文本有问题。如果您能帮我解决问题，我将不胜感激。谢谢。

r corpus text-mining stringr quanteda

ron*_*ith

2020 01-28

5
推荐指数

1
解决办法

811
查看次数

标签统计

corpus ×1

quanteda ×1

r ×1

stringr ×1

text-mining ×1

读取txt中文时出错：corpus()仅适用于字符、语料库、语料库、data.frame、kwic对象

标签 统计

小编ron_ith的帖子

标签统计