词汇处理器功能

ngo*_*yvu 8 python text-classification tensorflow

我正在研究有关卷积神经网络的嵌入输入,我理解Word2vec.但是,在CNN文本分类中.dennybritz使用了函数learn.preprocessing.VocabularyProcessor.在文件中.他们说它将文档映射到单词id的序列.我不太清楚这个功能是如何工作的.它是否会创建一个Ids列表然后用单词映射Ids或它有一个单词及其ID的字典,当运行函数时它只给出ID?

Kas*_*yap 19

比方说,你只有两个文件I like pizzaI like Pasta.你的整个词汇由这些单词组成.(I, like, pizza, pasta)对于词汇表中的每个单词,都有一个与之相关的索引(1,2,3,4).现在给出一个类似I like pasta它的文档可以转换成向量[1,2,4].这就是它的learn.preprocessing.VocabularyProcessor作用.该参数max_document_length确保所有文档都由长度向量表示,max_document_length如果长度短于填充数字,如果max_document_length长度大于max_document_length希望则剪切它们这会帮助你