一种特殊的自然语言实践是使用WordNet计算两个单词之间的相似性.我用以下python代码开始我的问题:
from nltk.corpus import wordnet
sport = wordnet.synsets("sport")[0]
badminton = wordnet.synsets("badminton")[0]
print(sport.wup_similarity(badminton))
Run Code Online (Sandbox Code Playgroud)
我们将得到0.8421
现在如果我寻找"haha"和"lol"如下:
haha = wordnet.synsets("haha")
lol = wordnet.synsets("lol")
print(haha)
print(lol)
Run Code Online (Sandbox Code Playgroud)
我们将得到
[]
[]
Run Code Online (Sandbox Code Playgroud)
然后我们不能考虑它们之间的相似性.在这种情况下我们能做些什么?
假设我们有 X 矩阵如下:
[[9 0]
[1 4]
[2 3]
[8 5]]
Run Code Online (Sandbox Code Playgroud)
然后,
from scipy.cluster.hierarchy import linkage
Z = linkage(X, method="ward")
print(Z)
Run Code Online (Sandbox Code Playgroud)
返回矩阵如下:
[[ 1. 2. 1.41421356 2. ]
[ 0. 3. 5.09901951 2. ]
[ 4. 5. 10. 4. ]]
Run Code Online (Sandbox Code Playgroud)
返回值的含义是什么?