我正在使用scikit-learn来构建一个分类器,它可以处理(有点大)文本文件.我现在需要一个简单的词袋功能,因此我尝试使用TfidfVectorizer/HashingVectorizer/CountVectorizer来获取特征向量.
然而,一次处理整个列车数据以获得特征向量导致numpy/scipy中的存储器错误(取决于我使用哪个矢量化器).所以我的问题是:
从原始文本中提取文本特征时:如果我将数据以块的形式拟合到矢量化器,那么它是否与一次拟合整个数据相同?
用代码说明这一点,如下:
vectoriser = CountVectorizer() # or TfidfVectorizer/HashingVectorizer
train_vectors = vectoriser.fit_transform(train_data)
Run Code Online (Sandbox Code Playgroud)
与以下内容不同:
vectoriser = CountVectorizer() # or TfidfVectorizer/HashingVectorizer
start = 0
while start < len(train_data):
vectoriser.fit(train_data[start:(start+500)])
start += 500
train_vectors = vectoriser.transform(train_data)
Run Code Online (Sandbox Code Playgroud)
如果这个问题完全被推迟,请提前致谢并对不起.