仅从 sklearn CountVectorizer 稀疏矩阵中过滤某些单词

Kat*_*mar 3 python sparse-matrix pandas scikit-learn

我有一个熊猫系列,里面有很多文字。使用包中的CountVectorizer函数 sklearn,我计算了稀疏矩阵。我也确定了最重要的词。现在我只想过滤那些最重要的词的稀疏矩阵。

原始数据包含多个7000行并且包含多个75000单词。因此我在这里创建了一个示例数据

from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
words = pd.Series(['This is first row of the text column',
                   'This is second row of the text column',
                   'This is third row of the text column',
                   'This is fourth row of the text column',
                   'This is fifth row of the text column'])
count_vec = CountVectorizer(stop_words='english')
sparse_matrix = count_vec.fit_transform(words)
Run Code Online (Sandbox Code Playgroud)

我已经为该列中的所有单词创建了稀疏矩阵。这里只是为了打印我的稀疏矩阵,我正在使用.toarray()函数将其转换为数组。

print count_vec.get_feature_names()
print sparse_matrix.toarray()
[u'column', u'fifth', u'fourth', u'row', u'second', u'text']
[[1 0 0 1 0 1]
 [1 0 0 1 1 1]
 [1 0 0 1 0 1]
 [1 0 1 1 0 1]
 [1 1 0 1 0 1]]
Run Code Online (Sandbox Code Playgroud)

现在我正在使用以下内容寻找经常出现的词

# Get frequency count of all features
features_count = sparse_matrix.sum(axis=0).tolist()[0]
features_names = count_vec.get_feature_names()
features = pd.DataFrame(zip(features_names, features_count), 
                                columns=['features', 'count']
                               ).sort_values(by=['count'], ascending=False)

  features  count
0   column      5
3      row      5
5     text      5
1    fifth      1
2   fourth      1
4   second      1
Run Code Online (Sandbox Code Playgroud)

从上面的结果我们知道,出现频率最高的词是column, row& text。现在我只想为这些词过滤我的稀疏矩阵。我不将我的稀疏矩阵转换为数组然后过滤。因为我的原始数据出现内存错误,因为字数相当多。

我能够获得稀疏矩阵的唯一方法是使用vocabulary属性再次重复这些特定单词的步骤,就像这样

countvec_subset = CountVectorizer(vocabulary= ['column', 'text', 'row'])
Run Code Online (Sandbox Code Playgroud)

相反,我正在寻找一个更好的解决方案,我可以直接为这些词过滤稀疏矩阵,而不是从头开始重新创建它。

Zer*_*ero 5

您可以对稀疏矩阵进行切片。您需要派生列进行切片。sparse_matrix[:, columns]

In [56]: feature_count = sparse_matrix.sum(axis=0)

In [57]: columns = tuple(np.where(feature_count == feature_count.max())[1])

In [58]: columns
Out[58]: (0, 3, 5)

In [59]: sparse_matrix[:, columns].toarray()
Out[59]:
array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]], dtype=int64)

In [60]: type(sparse_matrix[:, columns])
Out[60]: scipy.sparse.csr.csr_matrix

In [71]: np.array(features_names)[list(columns)]
Out[71]:
array([u'column', u'row', u'text'],
      dtype='<U6')
Run Code Online (Sandbox Code Playgroud)

切片子集仍然是一个 scipy.sparse.csr.csr_matrix