我正在尝试为一个单词获取 1、2、3 克后缀,并将它们用作我模型中的特征。
例子,
word = "Apple"
1 gram suffix = 'e'
2 gram suffix = 'le'
3 gram suffix = 'ple'
Run Code Online (Sandbox Code Playgroud)
我CountVectorizer在 sklearn 中使用过,ngram_range=(1,3)但这给出了所有的 n 克。我只需要 n gram 后缀。
我怎样才能做到这一点?
另外,我是 NLP 的新手,不知道如何在我的 ML 模型中使用这些 n 克作为特征。如何将这些“字符串”n-gram 特征转换为某种数字表示,以便我可以在我的模型中使用它们。
有人可以帮我吗?