预测句子中的遗失词

Question

预测句子中的遗失词

And*_*ess 3 algorithm nlp machine-learning

如何预测句子中缺少的单词？

我已经看过许多关于使用n-gram语言模型来预测句子中下一个单词的论文,该模型具有来自一组训练数据的频率分布.但相反,我想预测一个不一定在句子末尾的遗漏词.例如:

我带着___散步.

我似乎无法找到任何利用空白后的单词的算法; 我想我可以忽略它们,但它们必须增加一些价值.当然,bi/trigram模型不能用于预测前两个单词.

我应该使用什么算法/模式？或者在空白后使用单词没有优势吗？

Answer 1

Sor*_*rin 7

Tensorflow有一个教程:https://www.tensorflow.org/versions/r0.9/tutorials/word2vec/index.html

顺便提一下,它会做更多并生成字嵌入,但为了到达那里,他们训练模型来预测(下一个/缺失)单词.它们也只显示前面的单词,但您可以应用相同的想法并添加后面的单词.

他们还有一些关于如何提高精度的建议(跳过ngrams).

在本教程底部的某处,您可以找到工作源代码的链接.

唯一需要担心的是获得足够的培训数据.

Answer 2

Edw*_*ers 5

因此，当我使用二元组/三元组时，示例查询通常看起来像“预测'Would ____'中缺少的单词”。然后，我将遍历训练数据并收集与该模式匹配的三个单词的所有集合，然后计算空白。因此，如果我的训练数据如下所示：

would you not do that
would you kindly pull that lever
would you kindly push that button
could you kindly pull that lever

Run Code Online (Sandbox Code Playgroud)

我会得到两个“善意”的计数，一个代表“不”的计数，并且我预测“善意”。您为问题所要做的全部事情就是在另一个地方考虑空格：“ ____您好”将得到两个“ would”数和一个“可能”数，因此您可以预测“ would”。就计算机而言，“命令”一词没有什么特别的-您可以从训练数据中描述所需的任何模式。那有意义吗？

归档时间：	9 年，6 月前
查看次数：	1902 次
最近记录：	6 年，5 月前