如何在Python中使用HashingVectorizer时获取特征名称？

Question

我想制作一个二维二进制数组（n_samples，n_features），其中每个样本都是一个文本字符串，每个特征都是一个单词（unigram）。

问题是样本数量是 350000，特征数量是 40000，但我的 RAM 大小只有 4GB。

使用 CountVectorizer 后出现内存错误。那么，还有其他方法（比如小批量）来做到这一点吗？
如果我使用 HashingVectorizer 那么如何获取 feature_names？即哪一列对应于哪一个特征？，因为 HashingVectorizer 中没有 get_feature_names() 方法。

Answer 1