在NLP任务中区别性重新排名有什么作用?

Dav*_*vid 4 nlp machine-learning

最近,我读到柯林斯的"自然语言处理的歧视性重新排列".我很困惑重新排名实际上是做什么的?为rerank模型添加更多全局功能?或者是其他东西?

Fre*_*Foo 8

如果您的意思是本文,那么所做的是以下内容:

  1. 使用生成模型训练解析器,即计算P(术语|树)并使用贝叶斯规则来反转并得到P(树|项)的解析器,
  2. 应用它来从模型中获得树的初始k -best排名,
  3. 训练关于所需树木特征的第二个模型,
  4. 应用它来重新排列2的输出.

第二个模型有用的原因是在生成模型(如朴素贝叶斯,HMM,PCFG)中,添加除了单词标识之外的其他功能可能很难,因为模型会尝试预测精确特征向量的概率而不是在训练数据中可能没有出现的单独特征,并且P(向量|树)= 0,因此P(树|向量)= 0(+平滑,但问题仍然存在).这是数据稀疏性的永恒NLP问题:您无法构建包含您想要处理的每一个话语的训练语料库.

诸如MaxEnt之类的判别模型在处理特征向量方面要好得多,但需要更长时间才能适应并且处理起来可能更复杂(尽管CRF和神经网络已被用于构造解析器作为判别模型).柯林斯等人.试图找到完全生成和完全辨别方法之间的中间立场.