HMM中的起始和结束状态是否在实施用于POS标记的维特比算法时是必需的?

Mic*_*ael 5 nlp viterbi hidden-markov-models

我不完全了解如何在隐马尔可夫模型中使用开始和结束状态.为了设计和实现过渡和发射矩阵,这些是否必要?

dhg*_*dhg 9

开始/结束状态对于建模标签是否可能出现在句子的开头或结尾是必要的.

例如,如果你有五个单词的句子而你正在考虑两个标签

  1. Det Noun Verb Det Noun
  2. Det Noun Verb Det Adj

这两个在转换方面看起来都很好,因为Det-> Noun和Det-> Adj都非常可能.但是,一个句子在一个Adj中结束比一个名词要少得多,这是你没有一个结束标记就得不到的东西.所以你真正想要比较的是

  1. START Det Noun Verb Det Noun END
  2. START Det Noun Verb Det Adj END

然后你将计算P(END | Noun)和P(END | Adj).


如果您正在进行有监督的训练,那么使用START/END获得概率与其他标记没有什么不同,您只需在计数之前将特殊标记附加到每个句子.因此,如果您的培训语料库有:

Det Noun Verb
Det Noun Verb Det Noun
Run Code Online (Sandbox Code Playgroud)

然后你会修改它

START Det Noun Verb END
START Det Noun Verb Det Noun END
Run Code Online (Sandbox Code Playgroud)

并计算,例如:

  • P(Det | START)= 2/2
  • P(结束|动词)= 1/2
  • P(结束|名词)= 1/3

此外,排放是微不足道的:P(START | START)= 1且P(END | END)= 1