隐马尔可夫模型：精度是否可能随着状态数量的增加而降低？

Question

隐马尔可夫模型：精度是否可能随着状态数量的增加而降低？

Tho*_*tyn 4 machine-learning markov markov-models hidden-markov-models unsupervised-learning

我使用Baum-Welch算法构造了两个隐马尔可夫模型，以处理越来越多的状态。我注意到在8个州之后，验证得分下降了8个以上州。所以我想知道，由于某种过度拟合，隐马尔可夫模型的准确性是否可能随着状态数量的增加而降低？

提前致谢！

Answer 1

为了清楚起见，我在这里提出一种非常简化的现象说明。

假设您使用数据序列（ABAB）训练HMM。假设您使用的是2状态HMM。自然地，状态1将优化自身以表示A，状态2将表示B（或相反）。然后，您有一个新序列（ABAB）。您想知道此序列相对于HMM的可能性。维特比（Viterbi）算法将发现最可能的状态序列是（1-2-1-2），而鲍姆·韦尔奇（Baum-Welch）算法将使该序列具有很高的可能性，因为状态序列和新序列的“值”（（如果要处理连续数据），显然要与您的训练顺序匹配。

现在说，您以相同的训练序列（ABAB）训练了3状态HMM。数据的初始聚类很可能会为符号A的表示分配HMM的前两个状态，而为符号B的最后一个分配状态（或再次相反）。

所以现在查询序列（ABAB）可以表示为状态序列（1-3-1-3）或（2-3-2-3）或（1-3-2-3）或（2-3 -1-3）！这意味着对于该三态HMM，两个相同的序列（ABAB）对于HMM可能具有较低的相似性。这就是为什么对于任何HMM和任何数据集（超过一定数量的状态），性能都会下降的原因。

您可以使用贝叶斯信息准则，赤池信息准则，最小消息长度准则等标准来估计最佳状态数，或者，如果您只是想获得模糊概念，则可以使用k均值聚类结合方差百分比解释。前三个标准很有趣，因为它们包括与模型参数数量一起增加的惩罚项。

希望能帮助到你！:)

归档时间：	10 年，5 月前
查看次数：	1788 次
最近记录：	9 年，3 月前