一次性下载 google colaboratory 中的所有 nltk 包

Asi*_*sim 7 python package nltk google-colaboratory

我想在我的 google colab 代码中使用停用词,当我导入有关 nltk 的内容时没有错误,但是当我在我的代码中使用停用词时,google colab 给出了这个错误:-

Resource 'corpora/stopwords.zip/stopwords/' not found.  Please
use the NLTK Downloader to obtain the resource:  >>>
nltk.download()
Run Code Online (Sandbox Code Playgroud)

但是当我这样做时:-

 import nltk
 nltk.download()
Run Code Online (Sandbox Code Playgroud)

它为我提供了所有软件包列表,因此我必须选择 1 进行下载,在终端中我可以执行“全部”来下载所有软件包,但是我如何在 google colab 中执行此操作?我不想每次都添加一个名字来下载东西。这就是 colab 在我执行“nltk.download()”时向我展示的内容:-

NLTK 下载器

d) 下载 l) 列表 u) 更新 c) 配置 h) 帮助 q) 退出

 Downloader> d

 Download which package (l=list; x=cancel)?
Run Code Online (Sandbox Code Playgroud)

有什么办法可以一次将所有 nltk 包下载到我在 google colab 中的项目中?

小智 14

当我遇到同样的问题时,我到达了这个页面。
我可以在 google colab 中使用“流行”与此代码。

import nltk
nltk.download("popular")
Run Code Online (Sandbox Code Playgroud)


小智 7

使用:

import nltk

nltk.download('all')
Run Code Online (Sandbox Code Playgroud)

这对我有用。


kri*_*hna 5

您还有其他几种选择:

all-corpora......... All the corpora
all-nltk............ All packages available on nltk_data gh-pages
                           branch
all................. All packages
book................ Everything used in the NLTK Book
popular............. Popular packages
tests............... Packages for running tests
Run Code Online (Sandbox Code Playgroud)

您可以将它们用作:

import nltk
nltk.download('book')
#or
nltk.download('tests')
#or
nltk.download('all-corpora')# not recommended as it download huge amount of data.
Run Code Online (Sandbox Code Playgroud)