小编lit_ JJ的帖子

如何将大数据集加载到gensim word2vec模型

所以我有多个文本文件（大约 40 个）。每个文件大约有 2000 篇文章（平均每篇 500 字）。每个文档都是文本文件中的一行。

因此，由于内存限制，我想使用这些文本文件的动态加载来进行训练。（也许是一个迭代器类？）

那么我该如何进行呢？

训练每个文本文件 -> 保存模型 -> 加载模型并在新数据上重新运行？
迭代器类有没有办法自动执行此操作？
我应该逐句、逐篇文章或逐个文本文件作为模型训练的输入吗？

python iterator gensim word2vec

6
推荐指数

1
解决办法

2723
查看次数

标签统计