Mr.*_*hil 7 nlp classification machine-learning named-entity-recognition feature-selection
我是命名实体识别的新手,我在理解用于此任务的功能/功能方面遇到了一些麻烦.
到目前为止我读过的一些论文提到了使用的功能,但没有真正解释它们,例如在 CoNLL-2003共享任务简介:与语言无关的命名实体识别中,提到了以下功能:
参与CoNLL-2003共享任务的16个系统使用的主要功能按英语测试数据的性能排序.Aff:附加信息(n-gram); 包:一袋字; cas:全球案例信息; chu:chunk标签; doc:全球文件信息; gaz:地名录; lex:词汇特征; ort:正交信息; pat:正交模式(如Aa0); pos:词性标签; pre:先前预测的NE标签; quo:标记该单词在引号之间; 三:触发词.
不过,我对其中一些人感到有些困惑.例如:
我认为我在这里需要的只是查看一个示例表,其中每个功能都作为列,并查看它们的值以了解它们是如何工作的,但到目前为止,我找不到易于阅读的数据集.
有人可以澄清或指出我使用这些功能的一些解释或示例吗?
这是一些答案(顺便说一句,所有这些东西的术语都超载)。
词袋不应该是一种生成特征的方法(每个单词一个)?BOW本身怎么能成为一个功能呢?或者这只是意味着除了提到的所有其他功能之外,我们每个单词都有一个功能,就像 BOW 中那样?
地名词典怎么能成为一个特征呢?
根据我的经验,BOW 特征提取用于从句子中生成单词特征。因此,IMO BOW 不是一个特征,而是一种从句子(或您正在使用的文本块)生成特征的方法。Uning NGrams 可以帮助解释序列,但 BOW 功能相当于无序的字符串包。
POS标签究竟如何作为特征使用?我们不是每个单词都有一个 POS 标签吗?
词性标签被用作特征,因为它们可以帮助“词义消歧”(至少在理论层面上)。例如,单词“May”可以是人名、一年中的月份或大写的共轭动词,但 POS 标签可以是区分该事实的特征。是的,您可以为每个单词获取一个 POS 标签,但是除非您在“特征空间”中明确使用这些标签,否则单词本身不知道它们的 POS 是什么。
每个对象/实例不是一个“文本”吗?
如果你的意思是我认为你的意思,那么只有当你提取了对象实例“对”并将它们存储为特征(从一串标记派生的数组)时,这才是正确的。
什么是全局文档信息?
我认为这句话的意思是这样的:大多数 NLP 任务都在句子上起作用。全局文档信息是整个文档中所有周围文本的数据。例如,如果您尝试提取地理地名并消除它们的歧义,并且您找到了“Paris”一词,那么它是哪一个?好吧,如果上面 5 句话提到了法国,那就可能会增加法国巴黎而不是德克萨斯州巴黎的可能性,或者最坏的情况是帕丽斯·希尔顿。这在所谓的“共指解析”中也非常重要,即当您将名称与代词引用相关联时(将名称提及映射到“他”或“她”等)。
特征触发词是什么?
触发词是特定的标记或序列,作为独立的事物具有高可靠性,具有特定的含义。例如,在情感分析中,带有感叹号的脏话通常表示消极情绪。这可以有很多排列。
无论如何,我在这里的答案并不完美,并且容易出现人类认识论和主体间性方面的各种问题,但这些是我多年来一直在尝试解决问题的方式。自然语言处理。