小编Pra*_*rla的帖子

我正在尝试为一个单词获取 1、2、3 克后缀，并将它们用作我模型中的特征。

例子，

word = "Apple"
 1 gram suffix = 'e'
 2 gram suffix = 'le'
 3 gram suffix = 'ple'

我CountVectorizer在 sklearn 中使用过，ngram_range=(1,3)但这给出了所有的 n 克。我只需要 n gram 后缀。

我怎样才能做到这一点？

另外，我是 NLP 的新手，不知道如何在我的 ML 模型中使用这些 n 克作为特征。如何将这些“字符串”n-gram 特征转换为某种数字表示，以便我可以在我的模型中使用它们。

有人可以帮我吗？

3
推荐指数

1
解决办法

106
查看次数

nlp ×1

小编Pra_rla的帖子