使用条件随机场进行命名实体识别

use*_*135 8 metadata named-entity-recognition information-extraction crf

什么是条件随机场?精确的条件随机字段如何在结构化或非结构化文本中将专有名称标识为人员,组织或地点?

例如:本产品由StackOverFlow Inc.订购.

条件随机字段如何将StackOverFlow Inc.识别为一个组织?

bma*_*ies 16

CRF是一种判别性,批量,标记模型,与最大熵马尔可夫模型在同一系列中.

完整的解释是书的长度.

简短说明如下:

  1. 人类注释200-500K的文字,标记实体.
  2. 人类选择一组他们希望指示实体的特征.像大写一样的东西,或者是否在带有标签的训练集中看到了这个词.
  3. 训练过程会计算所有特征的出现次数.
  4. CRF算法的核心搜索适合计数的所有可能模型的空间以找到相当好的模型.
  5. 在运行时,解码器(可能是维特比解码器)查看一个句子并决定分配给每个单词的标签.

其中最难的部分是特征选择和步骤4中的搜索算法.