在unigram语言模型中计算单字组概率时,"字数统计"是指什么?

vik*_*for 5 nlp

我正在使用unigram语言模型.我想计算每个unigram的概率.我应该将unigram的出现次数除以不同的unigrams数,还是除以所有unigrams的数量?

Fre*_*Foo 10

除以训练集中的令牌总数,即单词出现次数.原因很容易看出:如果你除以不同单词的数量,所有单词的概率不一定总和为1,因此它们不会形成概率分布.