小编app*_*ree的帖子

使用R TM包找到2和3个单词的短语

我试图找到一个实际上可以找到R文本挖掘包中最常用的两个和三个单词短语的代码(也许还有另一个我不知道的包).我一直在尝试使用标记器,但似乎没有运气.

如果您过去曾处理过类似情况,您是否可以发布经过测试且实际有效的代码？非常感谢!

r data-mining text-mining

app*_*ree

lucky-day

24
推荐指数

3
解决办法

3万
查看次数

R文本挖掘 - 将段落一个接一个地组合而不会混淆句子

R和文本挖掘的初学者.目前使用tm包.

我试图将两个不同文档的文本一起添加到语料库中.当我使用像

 c(corpus.doc[[1]],corpus.doc[[2]])

Run Code Online (Sandbox Code Playgroud)

或粘贴声明

  paste(corpus.doc[[1]],corpus.doc[[2]])

Run Code Online (Sandbox Code Playgroud)

我得到了每行合并的文本结果.

例如:if

> corpus.doc[[1]] 

He visits very often 
and 
sometimes more

> corpus.doc[[2]]) 

She also 
stays

Run Code Online (Sandbox Code Playgroud)

我对这些陈述的看法是这样的

He visits very often She also
and stays
sometimes more

Run Code Online (Sandbox Code Playgroud)

我怎样才能防止这种情况发生

He visits very often
and 
sometimes more
She also 
stays

Run Code Online (Sandbox Code Playgroud)

或者是否有一种简单的方法来组合R tm包中的文档？先感谢您!

附加信息

当我使用
< - c(corpus.doc [[1]],corpus.doc [[2]]时,recursive = TRUE)

我认为a成为一个包含两个文档的语料库,因此每个文档的文本仍未合并.我希望如此

a[[1]]

Run Code Online (Sandbox Code Playgroud)

给了我corpus.doc [[1]]和corpus.doc [[2]]的组合文本.

str(corpus.doc)

Run Code Online (Sandbox Code Playgroud)

显示这样的事情

 List of 4270
 $ CREC-2011-01-05-pt1-PgE1-2.htm   :Classes     'PlainTextDocument',   'TextDocument', 
      'character'  atomic [1:74] html head titlecongression record volume  issue  
 head  ... …

Run Code Online (Sandbox Code Playgroud)

string text r

app*_*ree

2012 01-28

5
推荐指数

1
解决办法

2763
查看次数

R文本挖掘:计算特定单词在语料库中出现的次数？

我已经看到这个问题用其他语言回答但在R.

[特别是对于R文本挖掘]我有一组从语料库中获得的常用短语.现在我想搜索这些短语出现在另一个语料库中的次数.

有没有办法在TM包中做到这一点？(或另一个相关的包)

例如,假设我有一系列短语,"标签"从CorpusA获得.而另一个语料库,CorpusB,有几千个子文本.我想知道在CorpusB中标签中的每个短语出现了多少次.

一如既往,感谢您的帮助!

r count text-mining phrase

app*_*ree

2012 01-25

4
推荐指数

1
解决办法

1万
查看次数

标签统计

r ×3

text-mining ×2

count ×1

data-mining ×1

phrase ×1

string ×1

text ×1

使用R TM包找到2和3个单词的短语

R文本挖掘 - 将段落一个接一个地组合而不会混淆句子

R文本挖掘:计算特定单词在语料库中出现的次数？

标签 统计

小编app_ree的帖子

标签统计