我试图了解Spacy中的相似性是如何工作的。我尝试使用梅拉尼娅·特朗普的讲话和米歇尔·奥巴马的讲话来看看它们有多相似。
这是我的代码。
import spacy
nlp = spacy.load('en_core_web_lg')
file1 = open("melania.txt").read().decode('ascii', 'ignore')
file2 = open("michelle.txt").read().decode('ascii', 'ignore')
doc1 = nlp(unicode(file1))
doc2 = nlp(unicode(file2))
print doc1.similarity(doc2)
Run Code Online (Sandbox Code Playgroud)
我得到的相似分数是0.9951584208511974。在我看来,这个相似度分数非常高。它是否正确?难道我做错了什么?