n-gram(n> 3)何时重要,而不仅仅是bigrams或trigrams？

Question

我只是想知道在考虑计算它们时的计算开销时n-gram(n> 3)(及其出现频率)的用途是什么.是否有任何应用程序,其中bigrams或trigrams是不够的？

如果是这样,那么n-gram提取的最新技术是什么？有什么建议？我知道以下内容:

Answer 1

我对这里列出的很多标签并不熟悉，但是 n 元语法（抽象概念）对于统计模型通常很有用。因此，这里的一些应用不仅限于二元组和三元组：

这些是我脑子里想不到的，但维基百科上还列出了更多。

至于“最先进的”n 元语法提取，我不知道。N-gram“提取”是一种临时尝试，旨在加速某些过程，同时仍然保持 n-gram 样式建模的优点。简而言之，“最先进的”取决于您想要做什么。如果您正在考虑模糊匹配或模糊分组，这取决于您要匹配/分组的数据类型。（例如，模糊匹配的街道地址与名字有很大不同。）