如何在Scikit-Learn文本CountVectorizer或TfidfVectorizer中保留标点符号？

Suh*_*min 5 nltk scikit-learn

有没有办法让我在Scikit-Learn中使用文本CountVectorizer或TfidfVectorizer参数从我的文本文档中保留!,？,"和'的标点符号？

提前致谢.

您应该token_pattern在实例化矢量化器时自定义参数.例如:

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，2 月前
查看次数：	2752 次
最近记录：	9 年，2 月前

使用python的NLTK计算动词,名词和其他词性 18

Scikit学习/熊猫的线性回归和梯度下降？ 17

nltk模块中的类似方法在不同的机器上产生不同的结果.为什么？ 15

ModuleNotFoundError：没有名为 sklearn 的模块 15

使用scikit-learn python的线性SVM时的ValueError 7

使用NLTK的Punkt Tokenizer保留空行 7

使用 AWS SageMaker Python SDK 批量转换稀疏矩阵 5

FeatureUnion vs columnTransformer？ 3

cross_val_predict之后对新文档进行分类 1

这个 ROC 曲线图看起来很奇怪（sklearn SVC） 1

将具有默认值的列添加到SQL Server中的现有表 2648

在Git中只提交文件的一部分 2629

当用户将鼠标悬停在列表项上时,将光标置为手 1871

PostgreSQL"DESCRIBE TABLE" 1790

C#中两个问号共同意味着什么？ 1540

你什么时候使用git rebase而不是git merge？ 1461

我在哪里可以找到有关在JavaScript中格式化日期的文档？ 1381

你如何存放未跟踪的文件？ 1287

Django会扩展吗？ 1101

如何初始化静态地图？ 1084