我试图删除在我的词汇中出现一次的单词以减少我的词汇量.我正在使用sklearn TfidfVectorizer(),然后在我的数据框上使用fit_transform函数.
tfidf = TfidfVectorizer()
tfs = tfidf.fit_transform(df['original_post'].values.astype('U'))
Run Code Online (Sandbox Code Playgroud)
我首先想到的是tfidf矢量化器中的预处理器字段,或者在机器学习之前使用预处理包.
任何进一步实施的提示或链接?