输入:短语1,短语2
输出:语义相似度值(介于0和1之间),或这两个短语谈论同一事物的概率
我试图找到与单个单词相关的单词(特别是物理对象).例如:
网球:网球拍,网球,网球鞋
斯诺克:斯诺克球杆,斯诺克球,粉笔
国际象棋:棋盘,棋子
书柜:书
我曾尝试使用WordNet,特别是meronym语义关系; 但是,这种方法并不一致,如下面的结果所示:
网球:发球,凌空,脚故障,定位,回归,优势
斯诺克:什么都没有
国际象棋:象棋移动,棋盘(其自己的缩写关系显示'方形'和'对角线')
书柜:搁置
最终将需要对术语进行加权,但现在这并不是真正的问题.
有人对如何做到这一点有任何建议吗?
只是一个更新:使用Jeff和StompChicken的答案结合起来.
从维基百科中检索到的信息质量非常好,特别是(不出所料)有如此多的相关信息(与某些语料库相比,如"博客"和"ipod"这样的术语不存在).
维基百科的结果范围是最好的部分.该软件能够匹配诸如(为简洁起见而切割的列表)等术语:
最大的问题是将某些词分类为物质文物; 默认WordNet不是一个可靠的资源,因为它中不存在许多术语(例如'ipod',甚至'trampolining').
我有两个单词,我想计算它们之间的相似度,以便对它们是否重复进行排名。
如何使用深度学习/NLP 方法实现这一目标?