解析文本以获得专有名词(名称和组织) - python nltk

Bri*_*SFT 10 python nltk

我试图从像sms这样非常小的文本块中提取名称和组织名称中的专有名词,nltk 使用NLTK WordNet查找专有名词的基本解析器能够获得名词但问题是当我们得到专有名词时不是以大写字母开头,对于像这样的文本,像sumit这样的名字不会被认为是专有名词

>>> sentence = "i spoke with sumit and rajesh and Samit about the gridlock situation last night @ around 8 pm last nite"
>>> tagged_sent = pos_tag(sentence.split())
>>> print tagged_sent
[('i', 'PRP'), ('spoke', 'VBP'), ('with', 'IN'), **('sumit', 'NN')**, ('and', 'CC'), ('rajesh', 'JJ'), ('and', 'CC'), **('Samit', 'NNP'),** ('about', 'IN'), ('the', 'DT'), ('gridlock', 'NN'), ('situation', 'NN'), ('last', 'JJ'), ('night', 'NN'), ('@', 'IN'), ('around', 'IN'), ('8', 'CD'), ('pm', 'NN'), ('last', 'JJ'), ('nite', 'NN')]
Run Code Online (Sandbox Code Playgroud)

use*_*064 8

有一种更好的方法来提取人员和组织的名称

from nltk import pos_tag, ne_chunk
from nltk.tokenize import SpaceTokenizer

tokenizer = SpaceTokenizer()
toks = tokenizer.tokenize(sentence)
pos = pos_tag(toks)
chunked_nes = ne_chunk(pos) 

nes = [' '.join(map(lambda x: x[0], ne.leaves())) for ne in chunked_nes if isinstance(ne, nltk.tree.Tree)]
Run Code Online (Sandbox Code Playgroud)

但是,所有命名实体识别器都会提交错误.如果你真的不想错过任何正确的名字,你可以使用专有名称的词典,并检查名称是否包含在词典中.


Sah*_*ane 2

您可能想看看python-nameparser。它还尝试猜测名称的大小写。抱歉,答案不完整,但我没有太多使用 python-nameparser 的经验。

祝你好运!