训练没有标记语料库数据的隐马尔可夫模型

Cla*_*diu 4 nlp artificial-intelligence machine-learning linguistics markov-models

对于语言学课程,我们使用隐马尔可夫模型实现了词性(POS)标记,其中隐藏变量是词性.我们在一些标记数据上训练系统,然后对其进行测试并将我们的结果与黄金数据进行比较.

是否有可能在没有标记训练集的情况下训练HMM?

bay*_*yer 6

理论上你可以做到这一点.在这种情况下,您将使用Baum-Welch算法.它在Rabiner的HMM教程中得到了很好的描述.

但是,将HMM应用于词性,您使用标准表单得到的错误将不会令人满意.它是期望最大化的一种形式,它只收敛于局部最大值.iirc,基于规则的方法击败了HMM.

我相信python的自然语言工具包NLTK具有用于该确切目的的HMM实现.