小编dls*_*lsf的帖子

Pytorch Lightning 在 ddp 模式下复制主脚本

当我使用 ddp 模式(2 个 GPU)在集群上启动主脚本时,Pytorch Lightning 会复制主脚本中执行的任何内容,例如打印或其他逻辑。我需要一些扩展的训练逻辑,我想自己处理。例如,在之后做某事(一次!)Trainer.fit()。但随着主脚本的重复,这并不能按我的预期工作。我也尝试将其包装在 中if __name__ == "__main__",但它不会改变行为。如何解决这个问题呢?或者,如何在 Trainer 对象周围使用一些逻辑,而无需重复?

multi-gpu ddp pytorch pytorch-lightning

11
推荐指数
1
解决办法
2964
查看次数

标签 统计

ddp ×1

multi-gpu ×1

pytorch ×1

pytorch-lightning ×1