Dav*_*vid 4 nlp machine-learning
最近,我读到柯林斯的"自然语言处理的歧视性重新排列".我很困惑重新排名实际上是做什么的?为rerank模型添加更多全局功能?或者是其他东西?
如果您的意思是本文,那么所做的是以下内容:
第二个模型有用的原因是在生成模型(如朴素贝叶斯,HMM,PCFG)中,添加除了单词标识之外的其他功能可能很难,因为模型会尝试预测精确特征向量的概率而不是在训练数据中可能没有出现的单独特征,并且P(向量|树)= 0,因此P(树|向量)= 0(+平滑,但问题仍然存在).这是数据稀疏性的永恒NLP问题:您无法构建包含您想要处理的每一个话语的训练语料库.
诸如MaxEnt之类的判别模型在处理特征向量方面要好得多,但需要更长时间才能适应并且处理起来可能更复杂(尽管CRF和神经网络已被用于构造解析器作为判别模型).柯林斯等人.试图找到完全生成和完全辨别方法之间的中间立场.