NLTK Lemmatizer，提取有意义的词

Question

NLTK Lemmatizer，提取有意义的词

sus*_*sim 0 nlp nltk lemmatization python-3.x

目前，我将创建一个基于机器学习的自动映射类别的代码。

在那之前我会做自然语言处理。

有几个单词列表。

      sent ='The laughs you two heard were triggered 
             by memories of his own high j-flying 
             moist moisture moisturize moisturizing '.lower().split()

Run Code Online (Sandbox Code Playgroud)

我做了以下代码。我参考了这个网址。NLTK：词形还原器和 pos_tag

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
def lemmatize_all(sentence):
    wnl = WordNetLemmatizer()
    for word, tag in pos_tag(word_tokenize(sentence)):
        if tag.startswith("NN"):
            yield wnl.lemmatize(word, pos='n')
        elif tag.startswith('VB'):
            yield wnl.lemmatize(word, pos='v')
        elif tag.startswith('JJ'):
            yield wnl.lemmatize(word, pos='a')



words = ' '.join(lemmatize_all(' '.join(sent)))

Run Code Online (Sandbox Code Playgroud)

结果值如下所示。

laugh heard be trigger memory own high j-flying moist moisture moisturize moisturizing

Run Code Online (Sandbox Code Playgroud)

我对以下结果感到满意。

laughs -> laugh 
were -> be
triggered -> trigger 
memories -> memory 
moist -> moist

Run Code Online (Sandbox Code Playgroud)

但是，不满足以下值。

heard -> heard 
j-flying -> j-flying 
moisture -> moisture 
moisturize -> moisturize 
moisturizing -> moisturizing

Run Code Online (Sandbox Code Playgroud)

虽然它比初始值好，但我想要以下结果。

heard -> hear
j-flying -> fly
moisture -> moist
moisturize -> moist
moisturizing -> moist

Run Code Online (Sandbox Code Playgroud)

如果您有任何其他提取有意义单词的好方法，请告诉我。谢谢

Answer 1

alv*_*vas 7

TL; 博士

当您使用的词形还原器解决不同的问题时，这是一个词形还原器未能满足您的期望的 XY 问题。

在龙

问：什么是引理？

语言学中的词形还原（或词形还原）是将单词的屈折形式组合在一起的过程，以便它们可以作为单个项目进行分析，通过单词的引理或字典形式进行识别。-维基百科

问：什么是“字典形式”？

NLTK 使用的morphy算法是使用 WordNet 作为“字典形式”的基础

另请参阅spacy lemmatizer 如何工作？. 注意 SpaCy 有额外的技巧来处理更不规则的单词。

问：为什么moisture -> moisture和moisturizing -> moisturizing？

因为“保湿”和“保湿”有同义词集（类似于“字典形式”）

>>> from nltk.corpus import wordnet as wn

>>> wn.synsets('moisture')
[Synset('moisture.n.01')]
>>> wn.synsets('moisture')[0].definition()
'wetness caused by water'

>>> wn.synsets('moisturizing')
[Synset('humidify.v.01')]
>>> wn.synsets('moisturizing')[0].definition()
'make (more) humid'

Run Code Online (Sandbox Code Playgroud)

问：我怎样才能得到moisture -> moist？

不是很实用。但也许可以尝试一个词干分析器（但不要期望太多）

>>> from nltk.stem import PorterStemmer

>>> porter = PorterStemmer()
>>> porter.stem("moisture")
'moistur'

>>> porter.stem("moisturizing")
'moistur'

Run Code Online (Sandbox Code Playgroud)

问：那我怎么获得moisuturizing/moisuture -> moist？！！

没有充分的方法来做到这一点。但在尝试这样做之前，这样做的最终目的是什么moisuturizing/moisuture -> moist。

真的有必要这样做吗？

如果你真的想要，你可以尝试词向量并尝试寻找最相似的词，但词向量还有另一个警告世界。

问：等一下，但heard -> heard很可笑？！

是的，POS 标记器没有正确标记所听到的。很可能是因为这个句子不是一个正确的句子，所以句子中单词的 POS 标签是错误的：

>>> from nltk import word_tokenize, pos_tag
>>> sent
'The laughs you two heard were triggered by memories of his own high j-flying moist moisture moisturize moisturizing.'

>>> pos_tag(word_tokenize(sent))
[('The', 'DT'), ('laughs', 'NNS'), ('you', 'PRP'), ('two', 'CD'), ('heard', 'NNS'), ('were', 'VBD'), ('triggered', 'VBN'), ('by', 'IN'), ('memories', 'NNS'), ('of', 'IN'), ('his', 'PRP$'), ('own', 'JJ'), ('high', 'JJ'), ('j-flying', 'NN'), ('moist', 'NN'), ('moisture', 'NN'), ('moisturize', 'VB'), ('moisturizing', 'NN'), ('.', '.')]

Run Code Online (Sandbox Code Playgroud)

我们看到它heard被标记为NNS（名词）。如果我们将其词形还原为动词：

>>> from nltk.stem import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('heard', pos='v')
'hear'

Run Code Online (Sandbox Code Playgroud)

问：那我如何获得正确的 POS 标签？！

可能使用 SpaCy，你会得到('heard', 'VERB')：

>>> import spacy
>>> nlp = spacy.load('en_core_web_sm')
>>> sent
'The laughs you two heard were triggered by memories of his own high j-flying moist moisture moisturize moisturizing.'
>>> doc = nlp(sent)
>>> [(word.text, word.pos_) for word in doc]
[('The', 'DET'), ('laughs', 'VERB'), ('you', 'PRON'), ('two', 'NUM'), ('heard', 'VERB'), ('were', 'VERB'), ('triggered', 'VERB'), ('by', 'ADP'), ('memories', 'NOUN'), ('of', 'ADP'), ('his', 'ADJ'), ('own', 'ADJ'), ('high', 'ADJ'), ('j', 'NOUN'), ('-', 'PUNCT'), ('flying', 'VERB'), ('moist', 'NOUN'), ('moisture', 'NOUN'), ('moisturize', 'NOUN'), ('moisturizing', 'NOUN'), ('.', 'PUNCT')]

Run Code Online (Sandbox Code Playgroud)

但请注意，在这种情况下， SpaCy got('moisturize', 'NOUN')和 NLTK got ('moisturize', 'VB')。

问：但是我不能moisturize -> moist使用 SpaCy 吗？

让我们不要回到我们定义什么是引理的开始。简而言之：

>>> import spacy
>>> nlp = spacy.load('en_core_web_sm')
>>> sent
'The laughs you two heard were triggered by memories of his own high j-flying moist moisture moisturize moisturizing.'
>>> doc = nlp(sent)
>>> [word.lemma_ for word in doc]
['the', 'laugh', '-PRON-', 'two', 'hear', 'be', 'trigger', 'by', 'memory', 'of', '-PRON-', 'own', 'high', 'j', '-', 'fly', 'moist', 'moisture', 'moisturize', 'moisturizing', '.']

Run Code Online (Sandbox Code Playgroud)

另请参阅spacy lemmatizer 如何工作？（再次）

问：好的，好的。我无法理解moisturize -> moist......而且 POS 标签并不适合heard -> hear. 但为什么我不能得到j-flying -> fly？

回到为什么需要转换的问题j-flying -> fly，有一些反例说明为什么不想分离看起来像化合物的东西。

例如：

应该Classical-sounding去sound吗？
应该X-fitting去fit吗？
应该crash-landing去landing吗？

取决于您的应用程序的最终目的是什么，可能需要也可能不需要将令牌转换为您想要的形式。

问：那有什么好办法提取有意义的词呢？

我听起来像是破唱片，但这取决于您的最终目标是什么？

如果你的目标真的是理解单词的含义，那么你必须问自己这个问题：“含义的含义是什么？”

单个单词是否具有脱离上下文的含义？或者它是否具有它可能出现的所有可能上下文的含义总和。

Au currant，最先进的技术基本上将所有含义视为一组浮点数，而浮点数数组之间的比较是赋予意义的意义。但这真的是意义还是只是达到目的的一种手段？（双关语意）。

问：为什么我得到的问题多于答案？

欢迎来到源于哲学（如计算机科学）的计算语言学世界。自然语言处理俗称计算语言学的应用

深思熟虑

问：词形还原器比词干分析器更好吗？

答：没有确定的答案。（参见Stemmers 与 Lemmatizers）

归档时间：	7 年，3 月前
查看次数：	2313 次
最近记录：	7 年，3 月前