小编Dar*_*ter的帖子

scikit-learn:将数据拟合成块然后立即拟合它们

我正在使用scikit-learn来构建一个分类器,它可以处理(有点大)文本文件.我现在需要一个简单的词袋功能,因此我尝试使用TfidfVectorizer/HashingVectorizer/CountVectorizer来获取特征向量.

然而,一次处理整个列车数据以获得特征向量导致numpy/scipy中的存储器错误(取决于我使用哪个矢量化器).所以我的问题是:

从原始文本中提取文本特征时:如果我将数据以块的形式拟合到矢量化器,那么它是否与一次拟合整个数据相同?

用代码说明这一点,如下:

vectoriser = CountVectorizer() # or TfidfVectorizer/HashingVectorizer
train_vectors = vectoriser.fit_transform(train_data)
Run Code Online (Sandbox Code Playgroud)

与以下内容不同:

vectoriser = CountVectorizer() # or TfidfVectorizer/HashingVectorizer


start = 0
while start < len(train_data):
    vectoriser.fit(train_data[start:(start+500)])
    start += 500

train_vectors = vectoriser.transform(train_data)
Run Code Online (Sandbox Code Playgroud)

如果这个问题完全被推迟,请提前致谢并对不起.

python python-2.7 scikit-learn

6
推荐指数
1
解决办法
2782
查看次数

标签 统计

python ×1

python-2.7 ×1

scikit-learn ×1