小编Aar*_*Sun的帖子

一个用于在python中表示语料库句子的热编码

我是Python和Scikit-learn库的先驱.我目前需要处理一个NLP项目,该项目首先需要通过One-Hot Encoding来表示大型语料库.我已经阅读了关于预处理的Scikit-learn的文档.但是,看起来它似乎不是我的术语的理解.

基本上,这个想法类似如下:

  • 周日1000000; 0100000星期一; 周二0010000; ... 0000001星期六;

如果语料库只有7个不同的单词,那么我只需要一个7位数的向量来表示每个单词.然后,完成的句子可以由所有向量的连接表示,这是一个句子矩阵.但是,我在Python中试过,似乎没有用......

我该如何解决这个问题?我的语料库有很多不同的词.

顺便说一句,似乎如果向量大部分用零填充,我们可以使用Scipy.Sparse来使存储变小,例如CSR.

因此,我的整个问题将是:

语料库中的句子如何由OneHotEncoder表示,并存储在SparseMatrix中?

感谢你们.

python nlp machine-learning scikit-learn one-hot-encoding

2
推荐指数
1
解决办法
6029
查看次数