斯坦福NER prop文件含义DistSim

tit*_*usn 4 nlp named-entity-recognition stanford-nlp

在斯坦福NER软件附带的一个示例.prop文件中有两个我不明白的选项:

useDistSim = true
distSimLexicon = /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters
Run Code Online (Sandbox Code Playgroud)

有没有人提示DistSim代表什么,我在哪里可以找到有关如何使用这些选项的更多文档?

更新:我刚刚发现DistSim意味着分布相似性.我仍然想知道在这种情况下这意味着什么.

Chr*_*ing 9

"DistSim"指的是使用基于词类/聚类的特征,使用分布相似性聚类方法(例如,布朗聚类,交换聚类)构建.词类组合相似,语义和/或语法上的词,并允许NER系统更好地概括,包括更好地处理不在NER系统的训练数据中的词.我们的许多分布式模型使用分布相似性聚类特征以及单词识别特征,并且从中获得显着的收益.在斯坦福大学NER,有标志/影响性能的一大堆相似度如何分配解释/使用:useDistSim,distSimLexicon,distSimFileFormat,distSimMaxBits,casedDistSim,numberEquivalenceDistSim,unknownWordDistSimClass,你需要看看代码中NERFeatureFactory.java的细节进行解码,但在简单的情况下,你只需要前两个,它们需要在训练模型时以及在测试时使用.词典的默认格式只是一个文本文件,其中包含一系列带有两个制表符分隔列的行word clusterName.群集名称是任意的.