小编Cog*_*tor的帖子

我来自一种HPC背景,我刚刚开始学习机器学习,尤其是TensorFlow.我最初惊讶地发现,分布式TensorFlow默认是为了与TCP/IP进行通信,尽管考虑到谷歌是什么以及它最常用的硬件类型,事后才有意义.

我有兴趣在集群上以MPI并行方式试验TensorFlow.从我的角度来看,这应该是有利的,因为MPI在没有共享内存的机器上使用远程直接内存访问(RDMA),因此延迟应该低得多.

所以我的问题是,鉴于TensorFlow和机器学习越来越受欢迎,为什么这种方法似乎不常见？延迟不是瓶颈吗？是否有一些典型问题得到解决,这使得这种解决方案不切实际？在并行方式调用TensorFlow函数与在TensorFlow库中实现MPI调用之间是否存在任何有意义的差异？

谢谢

7
推荐指数

1
解决办法

6582
查看次数

mpi ×1

小编Cog_tor的帖子