Brown Corpus在测量基于WordNet的语义相似度方面有什么用?

nis*_*ish 4 nlp similarity corpus wordnet semantic-analysis

我遇到了几种使用WordNet结构和层次结构测量语义相似性的方法,例如Jiang和Conrath measure(JNC),Resnik measure(RES),Lin measure(LIN)等.

使用NLTK测量它们的方式是:

sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)
Run Code Online (Sandbox Code Playgroud)

如果WordNet是计算语义相似度的基础,那么Brown Corpus的用途是什么?

art*_*omp 10

看看NLTK howto for wordnet的解释.

具体而言,*_ic表示法是信息内容.

synset1.res_similarity(synset2,ic):Resnik相似性:根据最小公共Subsumer(最具体的祖先节点)的信息内容(IC),返回表示两个单词意义有多相似的分数.请注意,对于使用信息内容的任何相似性度量,结果取决于用于生成信息内容的语料库以及如何创建信息内容的细节.

在多一点信息的信息内容这里:

测量单词意义IC的传统方法是将来自WordNet等本体的层次结构知识与从大型语料库中导出的文本实际使用情况的统计结合起来.