我TermDocumentMatrix用tmR中的包创建了几个.
我想在每组文档中找到10个最常用的术语,最终得到一个输出表,如:
corpus1 corpus2
"beach" "city"
"sand" "sidewalk"
... ...
[10th most frequent word]
Run Code Online (Sandbox Code Playgroud)
根据定义,findFreqTerms(corpus1,N)返回出现N次或更多次的所有术语.要手动执行此操作,我可以更改N,直到我返回10个左右的术语,但输出为findFreqTerms按字母顺序排列,因此除非我选择正确的N,否则我实际上不知道哪个是前10个.我怀疑这个涉及操纵您可以看到的TDM的内部结构,str(corpus1)如在R tm包中创建最常用术语的矩阵,但这里的答案对我来说非常不透明所以我想重新解释这个问题.
谢谢!