小编elf*_*lfs的帖子

使用R中的tm包为多个语料库制作前N个频繁术语的数据帧

TermDocumentMatrixtmR中的包创建了几个.

我想在每组文档中找到10个最常用的术语,最终得到一个输出表,如:

corpus1   corpus2
"beach"   "city"
"sand"    "sidewalk"
...        ...
[10th most frequent word]
Run Code Online (Sandbox Code Playgroud)

根据定义,findFreqTerms(corpus1,N)返回出现N次或更多次的所有术语.要手动执行此操作,我可以更改N,直到我返回10个左右的术语,但输出为findFreqTerms按字母顺序排列,因此除非我选择正确的N,否则我实际上不知道哪个是前10个.我怀疑这个涉及操纵您可以看到的TDM的内部结构,str(corpus1)如在R tm包中创建最常用术语的矩阵,但这里的答案对我来说非常不透明所以我想重新解释这个问题.

谢谢!

r corpus text-mining tm

15
推荐指数
1
解决办法
2万
查看次数

标签 统计

corpus ×1

r ×1

text-mining ×1

tm ×1