我试图找到一个实际上可以找到R文本挖掘包中最常用的两个和三个单词短语的代码(也许还有另一个我不知道的包).我一直在尝试使用标记器,但似乎没有运气.
如果您过去曾处理过类似情况,您是否可以发布经过测试且实际有效的代码?非常感谢!
R和文本挖掘的初学者.目前使用tm包.
我试图将两个不同文档的文本一起添加到语料库中.当我使用像
c(corpus.doc[[1]],corpus.doc[[2]])
Run Code Online (Sandbox Code Playgroud)
或粘贴声明
paste(corpus.doc[[1]],corpus.doc[[2]])
Run Code Online (Sandbox Code Playgroud)
我得到了每行合并的文本结果.
例如:if
> corpus.doc[[1]]
He visits very often
and
sometimes more
> corpus.doc[[2]])
She also
stays
Run Code Online (Sandbox Code Playgroud)
我对这些陈述的看法是这样的
He visits very often She also
and stays
sometimes more
Run Code Online (Sandbox Code Playgroud)
我怎样才能防止这种情况发生
He visits very often
and
sometimes more
She also
stays
Run Code Online (Sandbox Code Playgroud)
或者是否有一种简单的方法来组合R tm包中的文档?先感谢您!
附加信息
当我使用
< - c(corpus.doc [[1]],corpus.doc [[2]]时,recursive = TRUE)
我认为a成为一个包含两个文档的语料库,因此每个文档的文本仍未合并.我希望如此
a[[1]]
Run Code Online (Sandbox Code Playgroud)
给了我corpus.doc [[1]]和corpus.doc [[2]]的组合文本.
str(corpus.doc)
Run Code Online (Sandbox Code Playgroud)
显示这样的事情
List of 4270
$ CREC-2011-01-05-pt1-PgE1-2.htm :Classes 'PlainTextDocument', 'TextDocument',
'character' atomic [1:74] html head titlecongression record volume issue
head ... …Run Code Online (Sandbox Code Playgroud) 我已经看到这个问题用其他语言回答但在R.
[特别是对于R文本挖掘]我有一组从语料库中获得的常用短语.现在我想搜索这些短语出现在另一个语料库中的次数.
有没有办法在TM包中做到这一点?(或另一个相关的包)
例如,假设我有一系列短语,"标签"从CorpusA获得.而另一个语料库,CorpusB,有几千个子文本.我想知道在CorpusB中标签中的每个短语出现了多少次.
一如既往,感谢您的帮助!