我是Python和Scikit-learn库的先驱.我目前需要处理一个NLP项目,该项目首先需要通过One-Hot Encoding来表示大型语料库.我已经阅读了关于预处理的Scikit-learn的文档.但是,看起来它似乎不是我的术语的理解.
基本上,这个想法类似如下:
如果语料库只有7个不同的单词,那么我只需要一个7位数的向量来表示每个单词.然后,完成的句子可以由所有向量的连接表示,这是一个句子矩阵.但是,我在Python中试过,似乎没有用......
我该如何解决这个问题?我的语料库有很多不同的词.
顺便说一句,似乎如果向量大部分用零填充,我们可以使用Scipy.Sparse来使存储变小,例如CSR.
因此,我的整个问题将是:
语料库中的句子如何由OneHotEncoder表示,并存储在SparseMatrix中?
感谢你们.