标签: nltk

什么是"熵和信息增益"?

我正在读这本书(NLTK),这令人困惑. 定义为:

熵是每个标签乘以同一标签的对数概率的概率之和

如何在文本挖掘方面应用最大熵?有人可以给我一个简单,简单的例子(视觉)吗?

math text computer-science text-mining nltk

330
推荐指数
6
解决办法
20万
查看次数

使用nltk.data.load加载english.pickle失败

尝试加载punkt令牌化程序时...

import nltk.data
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')
Run Code Online (Sandbox Code Playgroud)

...... a LookupError被提出:

> LookupError: 
>     *********************************************************************   
> Resource 'tokenizers/punkt/english.pickle' not found.  Please use the NLTK Downloader to obtain the resource: nltk.download().   Searched in:
>         - 'C:\\Users\\Martinos/nltk_data'
>         - 'C:\\nltk_data'
>         - 'D:\\nltk_data'
>         - 'E:\\nltk_data'
>         - 'E:\\Python26\\nltk_data'
>         - 'E:\\Python26\\lib\\nltk_data'
>         - 'C:\\Users\\Martinos\\AppData\\Roaming\\nltk_data'
>     **********************************************************************
Run Code Online (Sandbox Code Playgroud)

python nltk jenkins

134
推荐指数
10
解决办法
13万
查看次数

NLTK的所有可能的pos标签是什么?

如何找到包含Natural Language Toolkit(nltk)使用的所有可能pos标记的列表?

python nltk

130
推荐指数
5
解决办法
8万
查看次数

如何用Python检查单词是否是英文单词?

我想检查一个Python程序,如果一个单词在英语词典中.

我相信nltk wordnet界面可能是要走的路,但我不知道如何将它用于这么简单的任务.

def is_english_word(word):
    pass # how to I implement is_english_word?

is_english_word(token.lower())
Run Code Online (Sandbox Code Playgroud)

在将来,我可能想检查一个单词的单数形式是否在字典中(例如,属性 - >属性 - >英语单词).我怎么做到这一点?

python nltk wordnet

124
推荐指数
7
解决办法
15万
查看次数

蟒蛇n克,四,五,六克?

我正在寻找一种将文本分成n-gram的方法.通常我会做类似的事情:

import nltk
from nltk import bigrams
string = "I really like python, it's pretty awesome."
string_bigrams = bigrams(string)
print string_bigrams
Run Code Online (Sandbox Code Playgroud)

我知道nltk只提供bigrams和trigrams,但有没有办法将我的文本分成4克,5克甚至100克?

谢谢!

python string nltk n-gram

115
推荐指数
7
解决办法
12万
查看次数

如何使用NLTK tokenizer摆脱标点符号?

我刚刚开始使用NLTK,我不太明白如何从文本中获取单词列表.如果我使用nltk.word_tokenize(),我会得到一个单词和标点符号列表.我只需要单词代替.我怎样才能摆脱标点符号?也word_tokenize没有多话来:点加到硬道理.

python nlp tokenize nltk

111
推荐指数
8
解决办法
15万
查看次数

词汇化与词干化之间的真正区别是什么?

我什么时候使用?

另外...... NLTK的词形还原取决于词性?如果它是不是更准确?

python nlp nltk lemmatization

108
推荐指数
8
解决办法
6万
查看次数

如何使用nltk或python删除停用词

所以我有一个数据集,我想删除使用的停止词

stopwords.words('english')
Run Code Online (Sandbox Code Playgroud)

我正在努力如何在我的代码中使用它只是简单地取出这些单词.我已经有了这个数据集中的单词列表,我正在努力的部分是与此列表进行比较并删除停用词.任何帮助表示赞赏.

python nltk stop-words

98
推荐指数
7
解决办法
16万
查看次数

pip问题几乎安装任何库

我很难用pip安装几乎任何东西.我是编码的新手,所以我想也许这是我一直做错的事情,并选择了easy_install以获得我需要做的大部分工作,这通常都有效.但是,现在我正在尝试下载nltk库,并且都没有完成工作.

我试过进去

sudo pip install nltk
Run Code Online (Sandbox Code Playgroud)

但得到了以下回应:

/Library/Frameworks/Python.framework/Versions/2.7/bin/pip run on Sat May  4 00:15:38 2013
Downloading/unpacking nltk

  Getting page https://pypi.python.org/simple/nltk/
  Could not fetch URL [need more reputation to post link]: There was a problem confirming the ssl certificate: <urlopen error [Errno 1] _ssl.c:504: error:0D0890A1:asn1 encoding routines:ASN1_verify:unknown message digest algorithm>

  Will skip URL [need more reputation to post link]/simple/nltk/ when looking for download links for nltk

  Getting page [need more reputation to post link]/simple/
  Could not fetch URL https://pypi.python. org/simple/: There …
Run Code Online (Sandbox Code Playgroud)

python pip nltk easy-install

93
推荐指数
12
解决办法
18万
查看次数

资源u'tokenizers/punkt/english.pickle'找不到

我的代码:

import nltk.data
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')
Run Code Online (Sandbox Code Playgroud)

错误信息:

[ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py
Traceback (most recent call last):
File "mapper_local_v1.0.py", line 16, in <module>

    tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')

File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load

    opened_resource = _open(resource_url)

File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open

    return find(path_, path + ['']).open()

File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in find

    raise LookupError(resource_not_found)

LookupError:

Resource u'tokenizers/punkt/english.pickle' not found.  Please
use the NLTK Downloader to obtain the resource:

    >>>nltk.download()

Searched in:
- '/home/ec2-user/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data' …
Run Code Online (Sandbox Code Playgroud)

python unix nltk

90
推荐指数
10
解决办法
9万
查看次数