命名实体识别(NER)功能

Question

命名实体识别(NER)功能

Mr.*_*hil 7 nlp classification machine-learning named-entity-recognition feature-selection

我是命名实体识别的新手,我在理解用于此任务的功能/功能方面遇到了一些麻烦.

到目前为止我读过的一些论文提到了使用的功能,但没有真正解释它们,例如在 CoNLL-2003共享任务简介:与语言无关的命名实体识别中,提到了以下功能:

参与CoNLL-2003共享任务的16个系统使用的主要功能按英语测试数据的性能排序.Aff:附加信息(n-gram); 包:一袋字; cas:全球案例信息; chu:chunk标签; doc:全球文件信息; gaz:地名录; lex:词汇特征; ort:正交信息; pat:正交模式(如Aa0); pos:词性标签; pre:先前预测的NE标签; quo:标记该单词在引号之间; 三:触发词.

不过,我对其中一些人感到有些困惑.例如:

是不是应该是一种生成功能的方法(每个单词一个)？BOW本身如何成为一种功能？或者这仅仅意味着除了提到的所有其他功能外,我们还有BOW中的每个单词的功能？
地名录如何成为一个特征？
如何将POS标签完全用作功能？我们不是每个单词都有一个POS标签吗？是不是每个对象/实例都是"文本"？
什么是全球文件信息？
什么是功能触发词？

我认为我在这里需要的只是查看一个示例表,其中每个功能都作为列,并查看它们的值以了解它们是如何工作的,但到目前为止,我找不到易于阅读的数据集.

有人可以澄清或指出我使用这些功能的一些解释或示例吗？

Answer 1

mar*_*nia 5

这是一些答案（顺便说一句，所有这些东西的术语都超载）。

词袋不应该是一种生成特征的方法（每个单词一个）？BOW本身怎么能成为一个功能呢？或者这只是意味着除了提到的所有其他功能之外，我们每个单词都有一个功能，就像 BOW 中那样？

地名词典怎么能成为一个特征呢？

根据我的经验，BOW 特征提取用于从句子中生成单词特征。因此，IMO BOW 不是一个特征，而是一种从句子（或您正在使用的文本块）生成特征的方法。Uning NGrams 可以帮助解释序列，但 BOW 功能相当于无序的字符串包。

POS标签究竟如何作为特征使用？我们不是每个单词都有一个 POS 标签吗？

词性标签被用作特征，因为它们可以帮助“词义消歧”（至少在理论层面上）。例如，单词“May”可以是人名、一年中的月份或大写的共轭动词，但 POS 标签可以是区分该事实的特征。是的，您可以为每个单词获取一个 POS 标签，但是除非您在“特征空间”中明确使用这些标签，否则单词本身不知道它们的 POS 是什么。

每个对象/实例不是一个“文本”吗？

如果你的意思是我认为你的意思，那么只有当你提取了对象实例“对”并将它们存储为特征（从一串标记派生的数组）时，这才是正确的。

什么是全局文档信息？

我认为这句话的意思是这样的：大多数 NLP 任务都在句子上起作用。全局文档信息是整个文档中所有周围文本的数据。例如，如果您尝试提取地理地名并消除它们的歧义，并且您找到了“Paris”一词，那么它是哪一个？好吧，如果上面 5 句话提到了法国，那就可能会增加法国巴黎而不是德克萨斯州巴黎的可能性，或者最坏的情况是帕丽斯·希尔顿。这在所谓的“共指解析”中也非常重要，即当您将名称与代词引用相关联时（将名称提及映射到“他”或“她”等）。

特征触发词是什么？

触发词是特定的标记或序列，作为独立的事物具有高可靠性，具有特定的含义。例如，在情感分析中，带有感叹号的脏话通常表示消极情绪。这可以有很多排列。

无论如何，我在这里的答案并不完美，并且容易出现人类认识论和主体间性方面的各种问题，但这些是我多年来一直在尝试解决问题的方式。自然语言处理。

归档时间：	8 年，10 月前
查看次数：	3377 次
最近记录：	8 年，1 月前