尝试加载punkt令牌化程序时...
import nltk.data
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')
Run Code Online (Sandbox Code Playgroud)
...... a LookupError被提出:
> LookupError:
> *********************************************************************
> Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in:
> - 'C:\\Users\\Martinos/nltk_data'
> - 'C:\\nltk_data'
> - 'D:\\nltk_data'
> - 'E:\\nltk_data'
> - 'E:\\Python26\\nltk_data'
> - 'E:\\Python26\\lib\\nltk_data'
> - 'C:\\Users\\Martinos\\AppData\\Roaming\\nltk_data'
> **********************************************************************
Run Code Online (Sandbox Code Playgroud) 如何找到包含Natural Language Toolkit(nltk)使用的所有可能pos标记的列表?
我想检查一个Python程序,如果一个单词在英语词典中.
我相信nltk wordnet界面可能是要走的路,但我不知道如何将它用于这么简单的任务.
def is_english_word(word):
pass # how to I implement is_english_word?
is_english_word(token.lower())
Run Code Online (Sandbox Code Playgroud)
在将来,我可能想检查一个单词的单数形式是否在字典中(例如,属性 - >属性 - >英语单词).我怎么做到这一点?
我正在寻找一种将文本分成n-gram的方法.通常我会做类似的事情:
import nltk
from nltk import bigrams
string = "I really like python, it's pretty awesome."
string_bigrams = bigrams(string)
print string_bigrams
Run Code Online (Sandbox Code Playgroud)
我知道nltk只提供bigrams和trigrams,但有没有办法将我的文本分成4克,5克甚至100克?
谢谢!
我刚刚开始使用NLTK,我不太明白如何从文本中获取单词列表.如果我使用nltk.word_tokenize(),我会得到一个单词和标点符号列表.我只需要单词代替.我怎样才能摆脱标点符号?也word_tokenize没有多话来:点加到硬道理.
我什么时候使用?
另外...... NLTK的词形还原取决于词性?如果它是不是更准确?
所以我有一个数据集,我想删除使用的停止词
stopwords.words('english')
Run Code Online (Sandbox Code Playgroud)
我正在努力如何在我的代码中使用它只是简单地取出这些单词.我已经有了这个数据集中的单词列表,我正在努力的部分是与此列表进行比较并删除停用词.任何帮助表示赞赏.
我很难用pip安装几乎任何东西.我是编码的新手,所以我想也许这是我一直做错的事情,并选择了easy_install以获得我需要做的大部分工作,这通常都有效.但是,现在我正在尝试下载nltk库,并且都没有完成工作.
我试过进去
sudo pip install nltk
Run Code Online (Sandbox Code Playgroud)
但得到了以下回应:
/Library/Frameworks/Python.framework/Versions/2.7/bin/pip run on Sat May 4 00:15:38 2013
Downloading/unpacking nltk
Getting page https://pypi.python.org/simple/nltk/
Could not fetch URL [need more reputation to post link]: There was a problem confirming the ssl certificate: <urlopen error [Errno 1] _ssl.c:504: error:0D0890A1:asn1 encoding routines:ASN1_verify:unknown message digest algorithm>
Will skip URL [need more reputation to post link]/simple/nltk/ when looking for download links for nltk
Getting page [need more reputation to post link]/simple/
Could not fetch URL https://pypi.python. org/simple/: There …Run Code Online (Sandbox Code Playgroud) 我的代码:
import nltk.data
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')
Run Code Online (Sandbox Code Playgroud)
错误信息:
[ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py
Traceback (most recent call last):
File "mapper_local_v1.0.py", line 16, in <module>
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')
File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load
opened_resource = _open(resource_url)
File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open
return find(path_, path + ['']).open()
File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in find
raise LookupError(resource_not_found)
LookupError:
Resource u'tokenizers/punkt/english.pickle' not found. Please
use the NLTK Downloader to obtain the resource:
>>>nltk.download()
Searched in:
- '/home/ec2-user/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data' …Run Code Online (Sandbox Code Playgroud) nltk ×10
python ×9
nlp ×2
easy-install ×1
jenkins ×1
math ×1
n-gram ×1
pip ×1
stop-words ×1
string ×1
text ×1
text-mining ×1
tokenize ×1
unix ×1
wordnet ×1