我已经使用 apt-get 在 Ubuntu Server 12.04 上安装了 python-nltk。
但是当我尝试下载语料库时,出现以下错误:
$ python
Python 2.7.3 (default, Feb 27 2014, 19:58:35)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download('brown')
[nltk_data] Error loading brown: HTTP Error 401: Authorization
[nltk_data] Required
False
Run Code Online (Sandbox Code Playgroud)
我是否缺少一些配置或附加包?
Syl*_*eau 12
该DEFAULT_URL所使用downloader.py的Ubuntu的打包版本仍然使用:
DEFAULT_URL = 'http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml'
Run Code Online (Sandbox Code Playgroud)
但是目前的数据服务器是:
DEFAULT_URL = "http://nltk.github.com/nltk_data/"
Run Code Online (Sandbox Code Playgroud)
您当然可以从源代码安装或...修改您已安装的版本以指向新服务器,如下所示:
sudo perl -pi -e 's#DEFAULT_URL = .*#DEFAULT_URL = "http://nltk.github.com/nltk_data/"#' /usr/lib/python2.7/dist-packages/nltk/downloader.py
Run Code Online (Sandbox Code Playgroud)
然后,您可以安装“棕色”语料库:
$ python
Python 2.7.6 (default, Mar 22 2014, 22:59:56)
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download('brown')
[nltk_data] Downloading package 'brown' to /home/sylvain/nltk_data...
[nltk_data] Unzipping corpora/brown.zip.
True
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
>>>
Run Code Online (Sandbox Code Playgroud)
小智 12
可以在不更改源代码的情况下解决此问题。在 python 中创建一个自定义下载器:
>>> dl = nltk.downloader.Downloader("http://nltk.github.com/nltk_data/")
Run Code Online (Sandbox Code Playgroud)
然后打开一个 GUI 对话框:
>>> dl.download()
Run Code Online (Sandbox Code Playgroud)
检查您对下载目录有写访问权限并下载您需要的内容。
| 归档时间: |
|
| 查看次数: |
9145 次 |
| 最近记录: |