如何计算两个单词之间的相似度以检测它们是否重复?

Kle*_*tra 7 python nlp similarity deep-learning

我有两个单词,我想计算它们之间的相似度,以便对它们是否重复进行排名。

如何使用深度学习/NLP 方法实现这一目标?

alv*_*vas 11

这里有一些解决文本相似性的方法

基于字符串的方法

基于神经的方法

基于机器翻译的方法


但在考虑使用哪个库来衡量相似性之前,您应该尝试定义在相似性方面您想要衡量什么,

您是否试图找到语义相似性和句法差异?

  • The dog ate the biscuit
  • The biscuit was eaten by the dog

您是否想找到词汇语义相似性?

  • This problem is driving me mad!
  • This problem is making me angry!

您是否试图寻找蕴涵而不是相似性?

  • I ate Chinese food for dinner
  • I ate kungpao chicken for dinner

当在没有上下文的情况下比较各个单词时,“相似性”的歧义变得更加复杂,例如

  • plantfactory

    • plant如果指的是工业厂房,它们可以是相似的
    • plant但如果指的是生物植物,它们就不相似了
  • bankfinancial institute

    • bank如果指的是我们存入或提取现金的地方,它们可能是相似的
    • bank但如果指的是河岸,它们就不相似了。

人们可以根据您想要使用相似性分数执行的最终任务来定义相似性的许多其他方面。