use*_*135 5 tagging nlp part-of-speech
Brill Tagger的弱点和优势是什么?你能为tagger建议一些可能的改进吗?
Brill标记器的最大弱点是训练阶段所需的时间(在这里查看ACOPOST的时间戳或尝试用NLTK实现一个以获得一个想法).请记住,您应该始终将Brill标记器视为标记系统序列中使用的最后一个标记器(对于简单标记,我通常在HMM标记器的输出上使用和训练Brill标记器).除了使训练阶段更长时,使用Brill标记器本身通常会导致非常大的,通常重叠且有时"不正确"的规则集(即,在"真实"标记上下文中制造许多正确标记的规则).
Brill标记器的最大优点是它的模型有意义,特别是当您以通常的方式将规则存储为人类可读的格式时.手动检查统计标记器的模型是繁琐的,容易出错并且不是很有用,而一组转换规则不仅可以手动理解和调整,而且甚至可以由以前没有NLP经验的人来完成(事实上,几年前,当一些语言课程的本科生评估了巴西葡萄牙语语料库中产生的规则时,我就做了多年.实际上,您甚至可以完全自己编写规则集.
简而言之,虽然Brill标记器可用作强大的级联标记系统的最后一步,但通常它不是单独使用的最佳替代方法(如果您想使用单个标记器,我建议使用一个HMM一个).我的建议是在另一个标记器的标记输出上训练和使用Brill标记器,最好是组合系统,例如投票一个(即,当您设置三个或四个不同的标记器时,使用投票系统为每个标记选择最佳标记然后才将这些结果提供给Brill标记器,这有助于纠正以前系统中最常见的错误).
| 归档时间: |
|
| 查看次数: |
1686 次 |
| 最近记录: |