如何从我的文本中删除动词,介词,连词等？

Question

如何从我的文本中删除动词,介词,连词等？

use*_*832 11 python r text-mining

基本上在我的文字中我只想保留名词并删除其他部分的词性.

我认为没有任何自动化的方法.如果有请建议.

如果没有自动化的方法,我也可以手动完成,但为此我需要所有可能的说法,动词或介词或连词或形容词等的列表.有人可以建议一个可能的来源,我可以得到这些特定的列表.

Answer 1

Wan*_*uta 29

您可以使用NLTK词性标注器标记每个单词,然后只保留名词.以下是NLTK标记器的示例,取自NLTK主页:

>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]
[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'), ('on', 'IN'),
('Thursday', 'NNP'), ('morning', 'NN')]

Run Code Online (Sandbox Code Playgroud)

在您的情况下,您将保留tagged列表中包含以N开头的所有名词的所有元素,即所有名词,并将其余部分抛弃.查看完整的标签列表 ; 例如,您可能还想包含外来词(FW).

NLTK是免费使用的,它带有自己的数据集,也是免费的.您不必自己构建介词列表等.

如果你是第一次这样做，你需要使用 `nltk.download('punkt')` 来让 `word_tokenize` 工作，使用 `nltk.download('averaged_perceptron_tagger')` 来让 `pos_tag` 工作。 (5认同)

归档时间：	11 年，8 月前
查看次数：	16208 次
最近记录：	11 年，8 月前