使用上下文来改进词性标注

Chr*_*ars 5 nlp

是否有一些常用或推荐的技术来使用单词上下文来提高词性标注的准确性?

例如,如果我有句子:

我在链接上打高尔夫球.

"链接"一词可以是单数(高尔夫球场)或复数.我在几个语法检查器中尝试了这个句子,他们都正确地认出了这句话是有效的.

问题是他们还认为这句话是有效的:

我点击了一个链接.

是否有一种很好的方式来使用上下文(点击vs打高尔夫球)来推断正确的词性?

谢谢!

cyb*_*org 2

确定“链接”是“高尔夫球场”还是“参考”是一项称为词义消歧的任务。以下是维基百科关于词义消歧的文章关于与词性标记的关系的描述:

在任何实际测试中,词性标记和语义标记都非常密切相关,彼此之间可能存在限制。这些任务是否应该保持在一起或分离的问题仍然没有得到一致解决,但最近科学家倾向于单独测试这些东西(例如,在 Senseval/SemEval 竞赛中,提供词性作为文本的输入以消除歧义)。将词义消歧问题与词性标注问题进行比较是有启发性的。两者都涉及用单词消除歧义或标记,无论是用意义还是词性。然而,用于一种的算法往往不适用于另一种,主要是因为一个单词的词性主要由紧邻的一到三个单词决定,而一个单词的含义可能由更远的单词决定。目前,词性标注算法的成功率远高于 WSD,最先进的准确率约为 95% 或更高,而监督学习的词义消歧准确率低于 75% 。这些数字是英语的典型数字,可能与其他语言的数字有很大不同。

我不知道有哪些作品使用 WSD 来通知 POS 标记(但是,使用 POS 标记来通知 WSD 是标准。)这对我来说听起来是个好主意,即使对准确性的好处很小,因为准确性已经很高了。高的。它可以作为 Toutanova 的 CRF 标记器中的一项功能来实现。