Asi*_*sim 7 python package nltk google-colaboratory
我想在我的 google colab 代码中使用停用词,当我导入有关 nltk 的内容时没有错误,但是当我在我的代码中使用停用词时,google colab 给出了这个错误:-
Resource 'corpora/stopwords.zip/stopwords/' not found. Please
use the NLTK Downloader to obtain the resource: >>>
nltk.download()
Run Code Online (Sandbox Code Playgroud)
但是当我这样做时:-
import nltk
nltk.download()
Run Code Online (Sandbox Code Playgroud)
它为我提供了所有软件包列表,因此我必须选择 1 进行下载,在终端中我可以执行“全部”来下载所有软件包,但是我如何在 google colab 中执行此操作?我不想每次都添加一个名字来下载东西。这就是 colab 在我执行“nltk.download()”时向我展示的内容:-
Downloader> d
Download which package (l=list; x=cancel)?
Run Code Online (Sandbox Code Playgroud)
有什么办法可以一次将所有 nltk 包下载到我在 google colab 中的项目中?
小智 14
当我遇到同样的问题时,我到达了这个页面。
我可以在 google colab 中使用“流行”与此代码。
import nltk
nltk.download("popular")
Run Code Online (Sandbox Code Playgroud)
您还有其他几种选择:
all-corpora......... All the corpora
all-nltk............ All packages available on nltk_data gh-pages
branch
all................. All packages
book................ Everything used in the NLTK Book
popular............. Popular packages
tests............... Packages for running tests
Run Code Online (Sandbox Code Playgroud)
您可以将它们用作:
import nltk
nltk.download('book')
#or
nltk.download('tests')
#or
nltk.download('all-corpora')# not recommended as it download huge amount of data.
Run Code Online (Sandbox Code Playgroud)