WordNetLemmatizer:wn.ADJ 和 wn.ADJ_SAT 的不同处理?

Sim*_*n H 5 python nlp nltk wordnet lemmatization

我需要使用 nltk 对文本进行词形还原。为了做到这一点,我应用nltk.pos_tag到每个句子,然后将生成的 Penn Treebank 标签 ( http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html ) 转换为 WordNet 标签。我需要这样做,因为WordNetLemmatizer.lemmatize()期望单词及其正确的 pos_tag 作为参数,否则它只会假设一切都是动词。

我刚刚发现 WordNet 中定义了五个不同的标签:

  • 动词
  • Wn.ADV
  • wn.NOUN
  • wn.ADJ
  • wn.ADJ_SAT

但是,我在 Internet 上找到的每个示例在将 Treebank标签转换为 WordNet 标签时都忽略了 wn.ADJ_SAT。它们都只是将 Penn 标签映射到 WordNet 标签,如下所示:

  • 如果 Penn 标签以 J 开头:转换为 wn.ADJ
  • 如果 Penn 标签以 V 开头:转换为 wn.VERB
  • 如果 Penn 标签以 N 开头:转换为 wn.NOUN
  • 如果 Penn 标签以 R 开头:转换为 wn.ADV

所以 wn.ADJ_SAT 从来没有被使用过。

现在的问题是,是否存在词形还原器为 ADJ_SAT 返回与 ADJ 不同的结果的情况。什么是卫星形容词 (ADJ_SAT) 和非正常形容词 (ADJ) 的单词示例?

mat*_*734 2

in并不区分附属形容词和普通形容词WordNetLemmatizerNLTK

\n\n

nltk.stem.WordNetLemmatizer.lemmatize是使用“WordNet\xe2\x80\x99s 内置 morphy 函数。如果在 WordNet 中找不到输入单词,则返回原样”。

\n\n

在 WordNet 中,卫星形容词(更广泛地称为卫星同义词集)更多地是 WordNet 中其他地方使用的语义标签,而不是 nltk 中的特殊词性。

\n\n

来自 wordnet术语表

\n\n
\n

卫星同义词集:\n 形容词簇中的同义词集表示一个概念,该概念的含义与其中心同义词集表示的概念相似。

\n
\n\n

用户在这个问题中指出tripleee以下几点:

\n\n
\n

形容词在形容词杂乱中被细分为“head”和“satellite”同义词集

\n
\n\n

此外,除非另有说明,否则文档假定nltknltk.stem.WordNetLemmatizer.lemmatize默认词性是名词而不是动词。

\n