使用多核 CPU 用 gensim 训练 Doc2vec 效率不高

Question

使用多核 CPU 用 gensim 训练 Doc2vec 效率不高

我使用 24 核虚拟 CPU 和 100G 内存来训练 Doc2Vec 与 Gensim，但 CPU 的使用率始终在 200% 左右，无论修改核数。

top

Run Code Online (Sandbox Code Playgroud)

htop

Run Code Online (Sandbox Code Playgroud)

上面两张图显示了cpu使用率，这说明cpu没有被有效使用。

cores = multiprocessing.cpu_count()
assert gensim.models.doc2vec.FAST_VERSION > -1, "This will be painfully slow otherwise"

simple_models = [
    # PV-DBOW plain
    Doc2Vec(dm=0, vector_size=100, negative=5, hs=0, min_count=2, sample=0, 
            epochs=20, workers=cores),
    # PV-DM w/ default averaging; a higher starting alpha may improve CBOW/PV-DM modes
    Doc2Vec(dm=1, vector_size=100, window=10, negative=5, hs=0, min_count=2, sample=0, 
            epochs=20, workers=cores, alpha=0.05, comment='alpha=0.05'),
    # PV-DM w/ concatenation - big, slow, experimental mode
    # window=5 (both sides) approximates paper's apparent 10-word total window size
    Doc2Vec(dm=1, dm_concat=1, vector_size=100, window=5, negative=5, hs=0, min_count=2, sample=0, 
            epochs=20, workers=cores),
]

for model in simple_models:
    model.build_vocab(all_x_w2v)
    print("%s vocabulary scanned & state initialized" % model)

models_by_name = OrderedDict((str(model), model) for model in simple_models)

Run Code Online (Sandbox Code Playgroud)

编辑：

我尝试使用参数 corpus_file 而不是文档，并解决了上述问题。但是，我需要调整代码并将 all_x_w2v 转换为文件，而 all_x_w2v 并没有直接这样做。

Answer 1

goj*_*omo 5

Python 全局解释器锁（“GIL”）和其他线程间瓶颈可防止其代码使用经典的 gensim Word2Vec/ Doc2Vec/etc 灵活的语料库迭代器使所有 CPU 内核饱和——您可以在其中提供任何可重复迭代的文本序列。

您可以通过以下步骤稍微提高吞吐量：

negative, size, & 的较大值window
避免迭代器中的任何复杂步骤（如标记化）——理想情况下，它只是从简单的磁盘格式流式传输
尝试不同的worker数量——最佳数量会根据您的其他参数和系统详细信息而有所不同，但通常在 3-12 个范围内（无论您拥有多少个内核）

此外，最近版本的gensim提供了另一种语料库规范方法：corpus_file指向已用空格分隔的文本每行文件的指针。如果您以这种方式提供文本，多个线程将分别读取优化代码中的原始文件 - 并且可以实现更高的 CPU 利用率。但是，在此模式下，您无法指定自己的文档tags，或tag每个文档指定多个文档。（这些文档将根据它们在文件中的行号获得唯一的 ID。）

请参阅Doc2Vec, 及其参数的文档corpus_file：

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec

归档时间：	6 年，3 月前
查看次数：	1133 次
最近记录：	6 年，3 月前