标签: nltk

什么是"熵和信息增益"？

我正在读这本书(NLTK),这令人困惑. 熵被定义为:

熵是每个标签乘以同一标签的对数概率的概率之和

如何在文本挖掘方面应用熵和最大熵？有人可以给我一个简单,简单的例子(视觉)吗？

math text computer-science text-mining nltk

TIM*_*MEX

2016 09-02

330
推荐指数

6
解决办法

20万
查看次数

使用nltk.data.load加载english.pickle失败

尝试加载punkt令牌化程序时...

import nltk.data
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')

Run Code Online (Sandbox Code Playgroud)

...... a LookupError被提出:

> LookupError: 
>     *********************************************************************   
> Resource 'tokenizers/punkt/english.pickle' not found.  Please use the NLTK Downloader to obtain the resource: nltk.download().   Searched in:
>         - 'C:\\Users\\Martinos/nltk_data'
>         - 'C:\\nltk_data'
>         - 'D:\\nltk_data'
>         - 'E:\\nltk_data'
>         - 'E:\\Python26\\nltk_data'
>         - 'E:\\Python26\\lib\\nltk_data'
>         - 'C:\\Users\\Martinos\\AppData\\Roaming\\nltk_data'
>     **********************************************************************

Run Code Online (Sandbox Code Playgroud)

python nltk jenkins

Mar*_*tin

2018 01-29

134
推荐指数

10
解决办法

13万
查看次数

NLTK的所有可能的pos标签是什么？

如何找到包含Natural Language Toolkit(nltk)使用的所有可能pos标记的列表？

python nltk

Ora*_*Tux

lucky-day

130
推荐指数

5
解决办法

8万
查看次数

如何用Python检查单词是否是英文单词？

我想检查一个Python程序,如果一个单词在英语词典中.

我相信nltk wordnet界面可能是要走的路,但我不知道如何将它用于这么简单的任务.

def is_english_word(word):
    pass # how to I implement is_english_word?

is_english_word(token.lower())

Run Code Online (Sandbox Code Playgroud)

在将来,我可能想检查一个单词的单数形式是否在字典中(例如,属性 - >属性 - >英语单词).我怎么做到这一点？

python nltk wordnet

Bar*_*emy

2015 09-21

124
推荐指数

7
解决办法

15万
查看次数

蟒蛇n克,四,五,六克？

我正在寻找一种将文本分成n-gram的方法.通常我会做类似的事情:

import nltk
from nltk import bigrams
string = "I really like python, it's pretty awesome."
string_bigrams = bigrams(string)
print string_bigrams

Run Code Online (Sandbox Code Playgroud)

我知道nltk只提供bigrams和trigrams,但有没有办法将我的文本分成4克,5克甚至100克？

谢谢!

python string nltk n-gram

Shi*_*ifu

2015 11-09

115
推荐指数

7
解决办法

12万
查看次数

如何使用NLTK tokenizer摆脱标点符号？

我刚刚开始使用NLTK,我不太明白如何从文本中获取单词列表.如果我使用nltk.word_tokenize(),我会得到一个单词和标点符号列表.我只需要单词代替.我怎样才能摆脱标点符号？也word_tokenize没有多话来:点加到硬道理.

python nlp tokenize nltk

liz*_*isk

2013 03-21

111
推荐指数

8
解决办法

15万
查看次数

词汇化与词干化之间的真正区别是什么？

我什么时候使用？

另外...... NLTK的词形还原取决于词性？如果它是不是更准确？

python nlp nltk lemmatization

TIM*_*MEX

lucky-day

108
推荐指数

8
解决办法

6万
查看次数

如何使用nltk或python删除停用词

所以我有一个数据集,我想删除使用的停止词

stopwords.words('english')

Run Code Online (Sandbox Code Playgroud)

我正在努力如何在我的代码中使用它只是简单地取出这些单词.我已经有了这个数据集中的单词列表,我正在努力的部分是与此列表进行比较并删除停用词.任何帮助表示赞赏.

python nltk stop-words

Ale*_*lex

2013 03-06

98
推荐指数

7
解决办法

16万
查看次数

pip问题几乎安装任何库

我很难用pip安装几乎任何东西.我是编码的新手,所以我想也许这是我一直做错的事情,并选择了easy_install以获得我需要做的大部分工作,这通常都有效.但是,现在我正在尝试下载nltk库,并且都没有完成工作.

我试过进去

sudo pip install nltk

Run Code Online (Sandbox Code Playgroud)

但得到了以下回应:

/Library/Frameworks/Python.framework/Versions/2.7/bin/pip run on Sat May  4 00:15:38 2013
Downloading/unpacking nltk

  Getting page https://pypi.python.org/simple/nltk/
  Could not fetch URL [need more reputation to post link]: There was a problem confirming the ssl certificate: <urlopen error [Errno 1] _ssl.c:504: error:0D0890A1:asn1 encoding routines:ASN1_verify:unknown message digest algorithm>

  Will skip URL [need more reputation to post link]/simple/nltk/ when looking for download links for nltk

  Getting page [need more reputation to post link]/simple/
  Could not fetch URL https://pypi.python. org/simple/: There …

Run Code Online (Sandbox Code Playgroud)

python pip nltk easy-install

con*_*own

2017 08-09

93
推荐指数

12
解决办法

18万
查看次数

资源u'tokenizers/punkt/english.pickle'找不到

我的代码:

import nltk.data
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')

Run Code Online (Sandbox Code Playgroud)

错误信息:

[ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py
Traceback (most recent call last):
File "mapper_local_v1.0.py", line 16, in <module>

    tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')

File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load

    opened_resource = _open(resource_url)

File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open

    return find(path_, path + ['']).open()

File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in find

    raise LookupError(resource_not_found)

LookupError:

Resource u'tokenizers/punkt/english.pickle' not found.  Please
use the NLTK Downloader to obtain the resource:

    >>>nltk.download()

Searched in:
- '/home/ec2-user/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data' …

Run Code Online (Sandbox Code Playgroud)

python unix nltk

Sup*_*eka

2014 12-09

90
推荐指数

10
解决办法

9万
查看次数