如何在Scikit-Learn文本CountVectorizer或TfidfVectorizer中保留标点符号?

Suh*_*min 5 nltk scikit-learn

有没有办法让我在Scikit-Learn中使用文本CountVectorizer或TfidfVectorizer参数从我的文本文档中保留!,?,"和'的标点符号?

提前致谢.

ely*_*ase 9

您应该token_pattern在实例化矢量化器时自定义参数.例如:

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
Run Code Online (Sandbox Code Playgroud)