如何使用Python-NLTK基于词汇内容(短语)解析句子

Question

如何使用Python-NLTK基于词汇内容(短语)解析句子

use*_*299 10 python nltk lexical

Python-NLTK可以识别输入字符串并解析它不仅基于空格而且还基于内容？说,"计算机系统"成为这种情况下的一个短语.任何人都可以提供示例代码吗？

输入字符串:"用户对计算机系统响应时间的意见调查"

预期输出:["A","调查","of","用户","意见","of","计算机系统","响应","时间"]

Answer 1

alv*_*vas 18

您正在寻找的技术称为来自多个子领域的多个名称或语言学和计算的子子领域.

关键词提取
- 来自信息检索,主要用于改进索引的索引/查询
- 阅读最近的调查报告:http://www.hlt.utdallas.edu/~saidul/acl14.pdf
- (我个人)强烈建议:https://code.google.com/p/jatetoolkit/,当然还有着名的https://code.google.com/p/kea-algorithm/(来自给你带来WEKA的人,http://www.cs.waikato.ac.nz/ml/weka/)
- 对于python,可能是https://github.com/aneesha/RAKE

分块
- 从自然语言处理,它也称为浅层解析,
- 阅读Steve Abney关于它如何发生的工作:http://www.vinartus.net/spa/90e.pdf
- 主要的NLP框架和工具包应该有它们(例如OpenNLP,GATE,NLTK*(请注意,NLTK的默认chunker仅适用于名称实体))
- 斯坦福大学NLP也有一个:http://nlp.stanford.edu/projects/shallow-parsing.shtml

我将举例说明NLTK中的NE chunker:

>>> from nltk import word_tokenize, ne_chunk, pos_tag
>>> sent = "A survey of user opinion of computer system response time"
>>> chunked = ne_chunk(pos_tag(word_tokenize(sent)))
>>> for i in chunked:
...     print i
... 
('A', 'DT')
('survey', 'NN')
('of', 'IN')
('user', 'NN')
('opinion', 'NN')
('of', 'IN')
('computer', 'NN')
('system', 'NN')
('response', 'NN')
('time', 'NN')

Run Code Online (Sandbox Code Playgroud)

使用命名实体:

>>> sent2 = "Barack Obama meets Michael Jackson in Nihonbashi"
>>> chunked = ne_chunk(pos_tag(word_tokenize(sent2)))
>>> for i in chunked:
...     print i
... 
(PERSON Barack/NNP)
(ORGANIZATION Obama/NNP)
('meets', 'NNS')
(PERSON Michael/NNP Jackson/NNP)
('in', 'IN')
(GPE Nihonbashi/NNP)

Run Code Online (Sandbox Code Playgroud)

我猜你可以看到它有很多缺陷,更好的东西比什么都没有.

多字表达提取
- NLP中的热门话题,每个人都想出于某种原因提取它们
- Ivan Sag最值得注意的工作:http://lingo.stanford.edu/pubs/WP-2001-03.pdf以及各种提取算法的m气和ACL论文的提取用法
- 尽管这个MWE非常神秘,我们不知道如何自动分类或正确提取它们,但没有适当的工具(奇怪的是MWE的输出研究人员通常可以通过Keyphrase Extraction或chunking获得... )

术语提取
- 这来自翻译研究,他们希望翻译人员在翻译文档时使用正确的技术词汇.
- 请注意,术语附带ISO标准的玉米种,应该遵循,因为翻译行业复杂,产生了数十亿的收入......
- 单语言,我不知道是什么使它们与术语提取器,相同的算法,不同的接口有所不同...我想一些术语提取器的唯一的事情是能够双语做并自动生成字典.
这是一些工具
- https://github.com/srijiths/jtopia和
- http://fivefilters.org/term-extraction/
- https://github.com/turian/topia.termextract
- https://www.airpair.com/nlp/keyword-extraction-tutorial
- http://termcoord.wordpress.com/about/testing-of-term-extraction-tools/free-term-extractors/
- 关于工具的注意事项:尽管如此,仍然没有一种工具可以用于术语提取.由于当时涉及大笔资金,它总是有一些API调用,而且大多数代码都是"半开放"的......大部分都是关闭的.再说一次,搜索引擎优化也是一笔巨款,可能只是翻译行业的文化事物才是超级秘密.

现在回到OP的问题.

问:NLTK可以提取"计算机系统"作为短语吗？

答:不是

如上所示,NLTK具有预先训练的chunker,但它适用于名称实体,即便如此,并非所有命名实体都能被很好地识别.

可能OP可以尝试更激进的想法,让我们假设一个名词序列总是形成一个短语:

>>> from nltk import word_tokenize, pos_tag
>>> sent = "A survey of user opinion of computer system response time"
>>> tagged = pos_tag(word_tokenize(sent))
>>> chunks = []
>>> current_chunk = []
>>> for word, pos in tagged:
...     if pos.startswith('N'):
...             current_chunk.append((word,pos))
...     else:
...             if current_chunk:
...                     chunks.append(current_chunk)
...             current_chunk = []
... 
>>> chunks
[[('computer', 'NN'), ('system', 'NN'), ('response', 'NN'), ('time', 'NN')], [('survey', 'NN')], [('user', 'NN'), ('opinion', 'NN')]]
>>> for i in chunks:
...     print i
... 
[('computer', 'NN'), ('system', 'NN'), ('response', 'NN'), ('time', 'NN')]
[('survey', 'NN')]
[('user', 'NN'), ('opinion', 'NN')]

Run Code Online (Sandbox Code Playgroud)

因此,即使使用该解决方案,似乎只是试图让"计算机系统"变得困难.但是,如果你认为有点像"计算机系统响应时间"是一个比"计算机系统"更有效的短语.

难道并非所有对计算机系统响应时间的解释都是有效的:

[计算机系统响应时间]
[computer [system [response [time]]]]
[计算机系统] [响应时间]
[电脑[系统响应时间]]

还有许多可能的解释.所以你必须问,你在使用提取的短语是什么,然后看看如何继续削减像"计算机系统响应时间"这样的长短语.

归档时间：	11 年，1 月前
查看次数：	3312 次
最近记录：	11 年，1 月前