小编Pra*_*rla的帖子

使用 sklearn 计数向量化器获取 n gram 后缀

我正在尝试为一个单词获取 1、2、3 克后缀,并将它们用作我模型中的特征。

例子,

word = "Apple"
 1 gram suffix = 'e'
 2 gram suffix = 'le'
 3 gram suffix = 'ple'
Run Code Online (Sandbox Code Playgroud)

CountVectorizer在 sklearn 中使用过,ngram_range=(1,3)但这给出了所有的 n 克。我只需要 n gram 后缀。

我怎样才能做到这一点?

另外,我是 NLP 的新手,不知道如何在我的 ML 模型中使用这些 n 克作为特征。如何将这些“字符串”n-gram 特征转换为某种数字表示,以便我可以在我的模型中使用它们。

有人可以帮我吗?

python nlp machine-learning n-gram scikit-learn

3
推荐指数
1
解决办法
106
查看次数

标签 统计

machine-learning ×1

n-gram ×1

nlp ×1

python ×1

scikit-learn ×1