如何在crf ++中表示地名词典或词典作为特征?

Deh*_*gYe 4 nlp named-entity-recognition crf++ crf

如何使用地名词典或词典作为CRF ++中的功能

详细说明:假设我想在人名上做NER,并且我有一个包含常见人名的地名词典(或词典),我想用这个地名词典作为crf ++的输入,我该怎么做?

我正在使用条件随机字段包crf ++来执行命名实体识别任务.我知道如何在crf ++中表示一些常用的功能.例如,如果我们想使用Capitalization作为特征,我们可以在crf的特征模板中添加一个单独的列,指示单词是否大写.

Hug*_*hot 6

您可以创建一个新功能,指示令牌是否在词典/ gazeteer中.只需检查设置成员资格并将Gazeteer功能设置为1或0.

  • 在训练和标记过程中,特征提取必须相同,否则您无法为模型提供预期的功能.与在要素模板中添加单独列以指示单词是否大写的方式相同,您可以添加另一列来说明您的gazeeter /字典中是否存在给定单词.让我们假设一个仅包含'john'和'mary'的gazeeter.使用具有"John loves mary"序列的两个特征(Capitalized,InGazeeter),您将获得(1,0),(0,0),(0,1).当然,真实模型会使用更多种功能. (2认同)