n-gram(n> 3)何时重要,而不仅仅是bigrams或trigrams?

Leg*_*end 9 nlp data-mining nltk n-gram

我只是想知道在考虑计算它们时的计算开销时n-gram(n> 3)(及其出现频率)的用途是什么.是否有任何应用程序,其中bigrams或trigrams是不够的?

如果是这样,那么n-gram提取的最新技术是什么?有什么建议?我知道以下内容:

Kag*_*nar 3

我对这里列出的很多标签并不熟悉,但是 n 元语法(抽象概念)对于统计模型通常很有用。因此,这里的一些应用不仅限于二元组和三元组:

  • 压缩算法(尤其是 PPM 类型),其中克的长度取决于可用于提供特定上下文的数据量。
  • 近似字符串匹配(例如用于基因序列匹配的BLAST)
  • 预测模型(例如名称生成器)
  • 语音识别(音素克用于帮助评估当前音素进行识别的可能性)

这些是我脑子里想不到的,但维基百科上还列出了更多。

至于“最先进的”n 元语法提取,我不知道。N-gram“提取”是一种临时尝试,旨在加速某些过程,同时仍然保持 n-gram 样式建模的优点。简而言之,“最先进的”取决于您想要做什么。如果您正在考虑模糊匹配或模糊分组,这取决于您要匹配/分组的数据类型。(例如,模糊匹配的街道地址与名字有很大不同。)