相关疑难解决方法(0)

R tm包创建了几乎常用术语的矩阵

我在R中termDocumentMatrix创建了一个tm包.

我正在尝试创建一个具有50个最常出现的术语的矩阵/数据帧.

当我尝试转换为矩阵时,我收到此错误:

> ap.m <- as.matrix(mydata.dtm)
Error: cannot allocate vector of size 2.0 Gb
Run Code Online (Sandbox Code Playgroud)

所以我尝试使用Matrix包转换为稀疏矩阵:

> A <- as(mydata.dtm, "sparseMatrix") 
Error in as(from, "CsparseMatrix") : 
  no method or default for coercing "TermDocumentMatrix" to "CsparseMatrix"
> B <- Matrix(mydata.dtm, sparse = TRUE)
Error in asMethod(object) : invalid class 'NA' to dup_mMatrix_as_geMatrix
Run Code Online (Sandbox Code Playgroud)

我尝试使用以下方法访问tdm的不同部分:

> freqy1 <- data.frame(term1 = findFreqTerms(mydata.dtm, lowfreq=165))
> mydata.dtm[mydata.dtm$ Terms %in% freqy1$term1,]
Error in seq_len(nr) : argument must be coercible to non-negative integer
Run Code Online (Sandbox Code Playgroud)

这是其他一些信息: …

r text-mining tm term-document-matrix

7
推荐指数
1
解决办法
5285
查看次数

如何在绘图点标签的文本中包含下标

嗨,我是R的新手,所以如果这是一个非常基本的问题,我道歉.我正在尝试将文本添加到x轴上的点11处的绘图中,并且将在y轴上指向将以t0= -4.02800作为下标读取的点.在哪里t0 <- -4.0280 这样做我试过:

text(11,900,paste("t[0]=",t0),cex=0.8) 
# which gives 
't[0]= -4.0280'

text(11,900,expression(paste("t[0]=",t0)),cex=0.8) 
# which gives 
't[0]=t0'

# the closest I've gotten is:    
text(11,900,expression(paste(t[0]==t0)),cex=0.8)
Run Code Online (Sandbox Code Playgroud)

这将使用下标但返回t0而不是我的值-4.0280.

谁能告诉我哪里出了问题?

干杯.

plot text r subscript

7
推荐指数
2
解决办法
1万
查看次数

从R中的语料库创建单词的子集

我有一个使用XML包从Twitter搜索创建的1,500行向量.然后我将它转换为语料库以与tm包一起使用.我想最终用这些单词的一些(最常见的)创建一个wordcloud,所以我将它转换为TermDocumentMatrix,以便能够找到具有最小频率的术语.我创建了对象"a",这是这些术语的列表.

a <- findFreqTerms(mydata.dtm, 10)
Run Code Online (Sandbox Code Playgroud)

wordcloud包不适用于文档矩阵.所以现在,我想过滤原始向量,只包括"a"对象中包含的单词(如果我使用对象本身,当然,我只有每个常用单词的一个实例).

任何建议都非常感谢.

r corpus word-cloud

4
推荐指数
1
解决办法
4046
查看次数

标签 统计

r ×3

corpus ×1

plot ×1

subscript ×1

term-document-matrix ×1

text ×1

text-mining ×1

tm ×1

word-cloud ×1