Leg*_*end 9 nlp data-mining nltk n-gram
我只是想知道在考虑计算它们时的计算开销时n-gram(n> 3)(及其出现频率)的用途是什么.是否有任何应用程序,其中bigrams或trigrams是不够的?
如果是这样,那么n-gram提取的最新技术是什么?有什么建议?我知道以下内容:
我对这里列出的很多标签并不熟悉,但是 n 元语法(抽象概念)对于统计模型通常很有用。因此,这里的一些应用不仅限于二元组和三元组:
这些是我脑子里想不到的,但维基百科上还列出了更多。
至于“最先进的”n 元语法提取,我不知道。N-gram“提取”是一种临时尝试,旨在加速某些过程,同时仍然保持 n-gram 样式建模的优点。简而言之,“最先进的”取决于您想要做什么。如果您正在考虑模糊匹配或模糊分组,这取决于您要匹配/分组的数据类型。(例如,模糊匹配的街道地址与名字有很大不同。)
归档时间: |
|
查看次数: |
2987 次 |
最近记录: |