And*_*ess 3 algorithm nlp machine-learning
如何预测句子中缺少的单词?
我已经看过许多关于使用n-gram语言模型来预测句子中下一个单词的论文,该模型具有来自一组训练数据的频率分布.但相反,我想预测一个不一定在句子末尾的遗漏词.例如:
我带着___散步.
我似乎无法找到任何利用空白后的单词的算法; 我想我可以忽略它们,但它们必须增加一些价值.当然,bi/trigram模型不能用于预测前两个单词.
我应该使用什么算法/模式?或者在空白后使用单词没有优势吗?
因此,当我使用二元组/三元组时,示例查询通常看起来像“预测'Would ____'中缺少的单词”。然后,我将遍历训练数据并收集与该模式匹配的三个单词的所有集合,然后计算空白。因此,如果我的训练数据如下所示:
would you not do that
would you kindly pull that lever
would you kindly push that button
could you kindly pull that lever
Run Code Online (Sandbox Code Playgroud)
我会得到两个“善意”的计数,一个代表“不”的计数,并且我预测“善意”。您为问题所要做的全部事情就是在另一个地方考虑空格:“ ____您好”将得到两个“ would”数和一个“可能”数,因此您可以预测“ would”。就计算机而言,“命令”一词没有什么特别的-您可以从训练数据中描述所需的任何模式。那有意义吗?