如何从R中的tm包将DocumentTermMatrix函数的字符向量转换为语料库输入？

Question

如何从R中的tm包将DocumentTermMatrix函数的字符向量转换为语料库输入？

我是新来的tm包装.我想使用DocumentTermMatrix函数来创建DT-Matrix以进行进一步的文本挖掘分析,但我能够为该函数创建propoer输入.

到目前为止,我的数据输入是以这样的字符向量的格式,并尝试使用as.VCorpus函数,但它看起来像它不起作用.代码如下:

> x <- as.VCorpus(sekcja_link$slowa_kluczowe_2)
Error in UseMethod("as.VCorpus") : 
  no applicable method for 'as.VCorpus' applied to an object of class "character"
> head(sekcja_link$slowa_kluczowe_2)
[1] "mandat policja zima kara"                                                                                 
[2] "sprzeda? samochodów w 2014 rok wzrost sprzeda?y utrata prawa jazda wyprzedzaÄ‡ trzeci poduszka powietrzny"
[3] "kobieta 40stce powinien rusza? walczyÄ‡ ?ycie ewa minge kasia czaplejewicz fitness"                       
[4] "e booki ksi??ka elektroniczny papierowy czytnik amazon kindle ksi??ki rynek booków handel i us?ugi"       
[5] "gra monopoly warszawa miasto plebiscyt samorz?d i administracja"                                          
[6] "rachunek za ogrzewaÄ‡ ni?sze koszt ogrzewaÄ‡ ciep?o wiek dom mieszkaÄ‡ nieruchomo?ci"                     
>

Run Code Online (Sandbox Code Playgroud)

Answer 1

luk*_*keA 12

如果你有一个字符向量,你可以VectorSource像这样使用:

txt <- c("Hello to you.", "Blah me, too.")
library(tm)
corp <- Corpus(VectorSource(txt))
dtm <- DocumentTermMatrix(corp)
# inspect(dtm)
# <<DocumentTermMatrix (documents: 2, terms: 5)>>
#   Non-/sparse entries: 5/5
# Sparsity           : 50%
# Maximal term length: 5
# Weighting          : term frequency (tf)
# 
# Terms
# Docs blah hello me, too. you.
# 1    0     1   0    0    1
# 2    1     0   1    1    0

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，7 月前
查看次数：	8645 次
最近记录：	10 年，7 月前