Dra*_*ric 14
该spotsigs纸由提到joyceschan地址内容重复检测,它含有大量的深思.
如果您正在寻找关键术语的快速比较,nltk标准功能可能就足够了.
随着nltk您可以通过查找拉你的项的同义词同义词集所包含共发现
>>> from nltk.corpus import wordnet
>>> wordnet.synsets('donation')
[Synset('contribution.n.02'), Synset('contribution.n.03')]
>>> wordnet.synsets('donations')
[Synset('contribution.n.02'), Synset('contribution.n.03')]
Run Code Online (Sandbox Code Playgroud)
它理解复数,它还告诉你同义词对应的词性
同步存储在树中,在树叶处具有更具体的术语,在根处具有更一般的术语.根术语称为上位词
您可以通过术语与普通上位词的接近程度来衡量相似度
注意不同的词性,根据NLTK食谱,它们没有重叠路径,所以你不应该试着测量它们之间的相似性.
说,你有两个术语捐赠和礼物,你可以从他们那里获得,synsets但在这个例子中我直接初始化它们:
>>> d = wordnet.synset('donation.n.01')
>>> g = wordnet.synset('gift.n.01')
Run Code Online (Sandbox Code Playgroud)
该手册推荐使用Wu-Palmer相似性方法
>>> d.wup_similarity(g)
0.93333333333333335
Run Code Online (Sandbox Code Playgroud)
此方法为您提供了一种快速方法,可以确定所使用的术语是否与相关概念相对应.看一下使用Python进行自然语言处理,看看你还能做些什么来帮助你分析文本.
| 归档时间: |
|
| 查看次数: |
5985 次 |
| 最近记录: |