小编Ton*_*cia的帖子

不明白sklearn的HashingVectorizer

我正在使用 sklearn.feature_extraction.text 中的 HashingVectorizer 函数,但我不明白它是如何工作的。

我的代码

from sklearn.feature_extraction.text import HashingVectorizer
corpus = [ 'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?']
vectorizer = HashingVectorizer(n_features=2**3)
X = vectorizer.fit_transform(corpus)
print(X)
Run Code Online (Sandbox Code Playgroud)

我的结果

(0, 0)        -0.8944271909999159
(0, 5)        0.4472135954999579
(0, 6)        0.0
(1, 0)        -0.8164965809277261
(1, 3)        0.4082482904638631
(1, 5)        0.4082482904638631
(1, 6)        0.0
(2, 4)        -0.7071067811865475
(2, 5)        0.7071067811865475
(2, 6)        0.0
(3, 0)        -0.8944271909999159
(3, 5)        0.4472135954999579
(3, …
Run Code Online (Sandbox Code Playgroud)

nlp vectorization python-3.x scikit-learn text-classification

5
推荐指数
1
解决办法
2838
查看次数