Ris*_*sia 2 nlp gensim word2vec
当我使用GoogleNews-vectors-negative300.bin或尝试使用带有维基百科数据集语料库(1 GB)的 Gensim 训练模型时,出现内存错误。我的系统中有 4GB RAM。有没有办法绕过这个。
我们可以将它托管在像 AWS 这样的云服务上以获得更好的速度吗?
4GB 对于该向量集来说非常紧张;你应该有 8GB 或更多的空间来加载全套。或者,您可以使用可选limit
参数来load_word2vec_format()
加载一些向量。例如,limit=500000
将仅加载前 500,000 个(而不是完整的 300 万个)。由于文件似乎将出现频率更高的标记放在首位,因此这对于许多用途来说可能就足够了。
归档时间: |
|
查看次数: |
1688 次 |
最近记录: |