我正在使用keras在非常大的文本数据集上创建神经网络.为了构建模型并确保一切正常,我将一小部分数据读入内存,并使用内置的keras'Tokenizer'来执行必要的预处理工作,包括将每个单词映射到令牌.然后,我使用model.fit().
现在,我想扩展到完整的数据集,并没有空间将所有数据读入内存.所以,我想创建一个生成器函数来顺序从磁盘读取数据,并使用model.fit_generator().但是,如果我这样做,那么我会在每批数据上单独调整Tokenizer对象,为每个批次提供不同的单词到令牌映射.有没有办法解决?有什么办法可以用keras连续构建一个令牌字典吗?