SKLearn TF-IDF丢弃数字？

Question

SKLearn TF-IDF丢弃数字？

我正在进行文本分析,我想忽略那些只是数字的"单词".例如.从文本"这是000斯巴达!" 只应使用'this','is'和'Sparta'这两个词.有没有办法做到这一点？怎么样？

Answer 1

默认令牌模式TfidfVectorizer是u'(?u)\\b\\w\\w+\\b'与具有至少两个单词字符的单词匹配,即[a-zA-Z0-9_]; 您可以根据token_pattern需要修改,例如,regex (?ui)\\b\\w*[a-z]+\\w*\\b确保它匹配一个单词但至少包含一个字母:

from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer(token_pattern=u'(?ui)\\b\\w*[a-z]+\\w*\\b')
?
text = ["This is 000 Sparta!"]
tfidf_matrix =  tf.fit_transform(text)
feature_names = tf.get_feature_names() 
?
print(feature_names)
[u'is', u'sparta', u'this']

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，8 月前
查看次数：	2608 次
最近记录：	8 年，3 月前