nsi*_*ngh 5 python nlp stanford-nlp python-3.x coreference-resolution
我想用代词替换句子中的名词。我将使用它为 NLP 任务创建数据集。例如,如果我的句子是 -->
“杰克和瑞恩是朋友。杰克也是米歇尔的朋友。”
然后我想用“他”替换第二个杰克(斜体和粗体)。我已经完成了词性标注以在我的句子中找到名词。但我不知道如何从这里开始。如果我有一个可以使用的所有可能代词的列表,是否有一个语料库或系统可以告诉我最适合这个词的代词?
您几乎可以使用斯坦福 CoreNLP 中的工具来做到这一点。如果您运行“coref”注释器,那么它将尝试确定代词对文本中提及的其他实体的引用。还有一个“性别”注释器,它可以为英文名字分配(二进制)性别(仅基于整体频率统计)。(此性别注释器目前只能通过编程方式访问;其输出不会出现在我们的标准输出格式中。)
然而,共指消解和自动性别分配都是准确度一般的任务,而第二个任务的进一步假设使其普遍受到质疑。我很难相信自动执行此操作将成为自动为 NLP 任务生成数据的有用策略。