小编use*_*565的帖子

语料库的TfidfVectorizer无法适应内存

我想基于一个无法适应内存的语料库来构建一个tf-idf模型.我阅读了教程但是语料库似乎立即被加载:

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["doc1", "doc2", "doc3"]
vectorizer = TfidfVectorizer(min_df=1)
vectorizer.fit(corpus)
Run Code Online (Sandbox Code Playgroud)

我想知道我是否可以逐个将文档加载到内存中而不是加载所有文档.

scikit-learn

7
推荐指数
1
解决办法
3030
查看次数

标签 统计

scikit-learn ×1