use*_*832 11 python r text-mining
基本上在我的文字中我只想保留名词并删除其他部分的词性.
我认为没有任何自动化的方法.如果有请建议.
如果没有自动化的方法,我也可以手动完成,但为此我需要所有可能的说法,动词或介词或连词或形容词等的列表.有人可以建议一个可能的来源,我可以得到这些特定的列表.
Wan*_*uta 29
您可以使用NLTK词性标注器标记每个单词,然后只保留名词.以下是NLTK标记器的示例,取自NLTK主页:
>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]
[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'), ('on', 'IN'),
('Thursday', 'NNP'), ('morning', 'NN')]
Run Code Online (Sandbox Code Playgroud)
在您的情况下,您将保留tagged列表中包含以N开头的所有名词的所有元素,即所有名词,并将其余部分抛弃.查看完整的标签列表 ; 例如,您可能还想包含外来词(FW).
NLTK是免费使用的,它带有自己的数据集,也是免费的.您不必自己构建介词列表等.
| 归档时间: |
|
| 查看次数: |
16208 次 |
| 最近记录: |