POS标记和浅析析之间有什么区别?

ber*_*zie 45 nlp pos-tagger

我目前正在我的大学学习自然语言处理课程,但仍然对一些基本概念感到困惑.我从统计自然语言处理基础书中得到了POS标记的定义:

标记是用一个适当的词性标记(或标记)句子中每个单词的任务.我们决定每个单词是名词,动词,形容词还是其他.

但是我在书中找不到浅层解析的定义,因为它还将浅层解析描述为POS标记的一个实用程序.所以我开始在网上搜索,没有发现浅层解析的直接解释,但在维基百科:

浅解析(也是分块,"轻解析")是对句子的分析,其标识成分(名词组,动词,动词组等),但没有指定它们的内部结构,也没有指定它们在主句中的作用.

我坦率地看不出差别,但可能是因为我的英语或者只是我不理解简单的基本概念.任何人都可以解释浅层解析和POS标记之间的区别吗?浅层解析通常也称为浅层语义解析吗?

谢谢你.

Adi*_*rji 54

POS标记会为输入句子中的每个单词提供一个POS标记.

解析句子(例如使用stanford pcfg)会将句子转换为树,其树叶将保留POS标签(对应于句子中的单词),但树的其余部分会告诉您这些单词的加入方式一起做出整体句子.例如,形容词和名词可以合并为"名词短语",其可以与另一个形容词组合以形成另一个名词短语(例如快速棕色狐狸)(这些组合的确切方式取决于所讨论的解析器).
您可以在http://nlp.stanford.edu:8080/parser/index.jsp中看到解析器输出的样子.

一个浅的解析器或'chunker'介于这两者之间.一个简单的POS标记器真的很快但是没有给你足够的信息,而且一个完整的解析器很慢并且给你太多了.POS标记器可以被认为是一个解析器,它只返回解析树的最底层.一个chunker可能被认为是一个解析器,它会向你返回一些解析树的其他层.有时你只需要知道一堆单词一起构成一个名词短语,但不关心那些单词中的树的子结构(即哪些单词是形容词,决定者,名词等等,以及它们如何组合) .在这种情况下,您可以使用chunker获取您需要的信息,而不是浪费时间为句子生成完整的解析树.


Kha*_*rul 42

POS标记是决定文本中每个标记的类型的过程,例如NOUN,VERB,DETERMINER等.标记可以是单词或标点符号.
同时浅层解析或分块是将文本划分为语法相关组的过程.

Pos标记输出

我/ PRP $ dog/NN喜欢/ VBZ他/ PRP $ food/NN ./.

分块输出

[NP My Dog] [副总裁喜欢] [NP他的食物]