命名实体识别(NER)功能

Mr.*_*hil 7 nlp classification machine-learning named-entity-recognition feature-selection

我是命名实体识别的新手,我在理解用于此任务的功能/功能方面遇到了一些麻烦.

到目前为止我读过的一些论文提到了使用的功能,但没有真正解释它们,例如在 CoNLL-2003共享任务简介:与语言无关的命名实体识别中,提到了以下功能:

参与CoNLL-2003共享任务的16个系统使用的主要功能按英语测试数据的性能排序.Aff:附加信息(n-gram); 包:一袋字; cas:全球案例信息; chu:chunk标签; doc:全球文件信息; gaz:地名录; lex:词汇特征; ort:正交信息; pat:正交模式(如Aa0); pos:词性标签; pre:先前预测的NE标签; quo:标记该单词在引号之间; 三:触发词.

不过,我对其中一些人感到有些困惑.例如:

  • 是不是应该是一种生成功能的方法(每个单词一个)?BOW本身如何成为一种功能?或者这仅仅意味着除了提到的所有其他功能外,我们还有BOW中的每个单词的功能?
  • 地名录如何成为一个特征?
  • 如何将POS标签完全用作功能?我们不是每个单词都有一个POS标签吗?是不是每个对象/实例都是"文本"?
  • 什么是全球文件信息?
  • 什么是功能触发词?

我认为我在这里需要的只是查看一个示例表,其中每个功能都作为列,并查看它们的值以了解它们是如何工作的,但到目前为止,我找不到易于阅读的数据集.

有人可以澄清或指出我使用这些功能的一些解释或示例吗?

mar*_*nia 5

这是一些答案(顺便说一句,所有这些东西的术语都超载)。

词袋不应该是一种生成特征的方法(每个单词一个)?BOW本身怎么能成为一个功能呢?或者这只是意味着除了提到的所有其他功能之外,我们每个单词都有一个功能,就像 BOW 中那样?

地名词典怎么能成为一个特征呢?

根据我的经验,BOW 特征提取用于从句子中生成单词特征。因此,IMO BOW 不是一个特征,而是一种从句子(或您正在使用的文本块)生成特征的方法。Uning NGrams 可以帮助解释序列,但 BOW 功能相当于无序的字符串包。

POS标签究竟如何作为特征使用?我们不是每个单词都有一个 POS 标签吗?

词性标签被用作特征,因为它们可以帮助“词义消歧”(至少在理论层面上)。例如,单词“May”可以是人名、一年中的月份或大写的共轭动词,但 POS 标签可以是区分该事实的特征。是的,您可以为每个单词获取一个 POS 标签,但是除非您在“特征空间”中明确使用这些标签,否则单词本身不知道它们的 POS 是什么。

每个对象/实例不是一个“文本”吗?

如果你的意思是我认为你的意思,那么只有当你提取了对象实例“对”并将它们存储为特征(从一串标记派生的数组)时,这才是正确的。

什么是全局文档信息?

我认为这句话的意思是这样的:大多数 NLP 任务都在句子上起作用。全局文档信息是整个文档中所有周围文本的数据。例如,如果您尝试提取地理地名并消除它们的歧义,并且您找到了“Paris”一词,那么它是哪一个?好吧,如果上面 5 句话提到了法国,那就可能会增加法国巴黎而不是德克萨斯州巴黎的可能性,或者最坏的情况是帕丽斯·希尔顿。这在所谓的“共指解析”中也非常重要,即当您将名称与代词引用相关联时(将名称提及映射到“他”或“她”等)。

特征触发词是什么?

触发词是特定的标记或序​​列,作为独立的事物具有高可靠性,具有特定的含义。例如,在情感分析中,带有感叹号的脏话通常表示消极情绪。这可以有很多排列。

无论如何,我在这里的答案并不完美,并且容易出现人类认识论和主体间性方面的各种问题,但这些是我多年来一直在尝试解决问题的方式。自然语言处理。