什么算法用于查找ngrams?
假设我的输入数据是一个单词数组和我想要找到的ngram的大小,我应该使用什么算法?
我要求代码,优先选择R.数据存储在数据库中,因此也可以是plgpsql函数.Java是我更熟悉的语言,因此我可以将其"翻译"为另一种语言.
我不是懒惰,我只是要求代码,因为我不想重新发明轮子试图做一个已经完成的算法.
编辑:重要的是知道每个n-gram出现多少次.
编辑2:N-GRAMS有一个R包吗?
r n-gram
n-gram ×1
r ×1