有没有办法让我在Scikit-Learn中使用文本CountVectorizer或TfidfVectorizer参数从我的文本文档中保留!,?,"和'的标点符号?
提前致谢.
您应该token_pattern在实例化矢量化器时自定义参数.例如:
vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2752 次 |
| 最近记录: |