小编lit*_* JJ的帖子

如何将大数据集加载到gensim word2vec模型

所以我有多个文本文件(大约 40 个)。每个文件大约有 2000 篇文章(平均每篇 500 字)。每个文档都是文本文件中的一行。

因此,由于内存限制,我想使用这些文本文件的动态加载来进行训练。(也许是一个迭代器类?)

那么我该如何进行呢?

  • 训练每个文本文件 -> 保存模型 -> 加载模型并在新数据上重新运行?
  • 迭代器类有没有办法自动执行此操作?
  • 我应该逐句、逐篇文章或逐个文本文件作为模型训练的输入吗?

python iterator gensim word2vec

6
推荐指数
1
解决办法
2723
查看次数

标签 统计

gensim ×1

iterator ×1

python ×1

word2vec ×1