Dav*_*vid 3 nlp machine-learning pos-tagger hidden-markov-models
每个人。我正在使用 Baum-Welch 算法来训练一个 pos 标记器,它完全是在无监督的方式下。问题来了:当我得到标签结果时,我只得到一个数字序列。我不知道哪个标签代表 VV、NN、DT。我怎么解决这个问题?
一般来说,没有办法做到这一点。Baum-Welch 将找到具有相似分布的词类使用,但没有特别的理由假设这些类会以任何直接的方式映射到任何特定语言理论假设的类别。因此,无监督 POS 标注器主要适用于您关心单词或短语的等价类但不关心被分配的特定标签的应用程序。
但是,如果您真的需要人类可读的标签(例如,在开发过程中,要评估您获得的结果是否可信),我会手动标记几十个句子。然后,您可以将 BW 派生的标记器应用于该标记的迷你语料库,以在类号和 POS 标签之间建立映射。