有没有办法在GPU上使用tensorflow map_fn?

frx*_*bst 14 python python-3.x tensorflow tensorflow-gpu

我有一个形状[a,n] 的张量A,我需要my_op用另一个形状[b,n]的张量B执行一个op ,使得得到的张量C具有形状[a,b].

换句话说:对于A中的每个子指标(A [0],A 1,... A [n]),我需要对B中的每个子指标执行元素操作.

因此产生的张量将包含以下内容:

[ [ A[0] op B[0] , A[0] op B[1], ... , A[0] op B[b] ],
  [ A[1] op B[0] , A[1] op B[1], ... , A[1] op B[b] ],
  [ ...                                             ],
  [ A[a] op B[0] , A[a] op B[1], ... , A[a] op B[b] ] ]
Run Code Online (Sandbox Code Playgroud)

我能够找到的唯一方法就是通过嵌套使用tf.map_fn 这样:

import tensorflow as tf
import time
import numpy as np

a_size = 64
b_size = 256*256
n = 256
A = tf.placeholder(tf.float32,[a_size,n])
B = tf.placeholder(tf.float32,[b_size,n])

def elementwise_op(a,b):
    return tf.reduce_sum(tf.multiply(a,b))

def intermediate_op(sub_a,my_b):
    sample_values = tf.map_fn(lambda x: elementwise_op(sub_a,x),my_b)
    return sample_values

my_op = tf.map_fn(lambda x: intermediate_op(x,B),A)

with tf.Session() as sess:
    a = np.random.rand(a_size,n)
    b = np.random.rand(b_size,n)
    start_time = time.time()
    result = sess.run (my_op,feed_dict={A:a,B:b})
    print ("exec time: " ,time.time()-start_time)
    print (result.shape)
Run Code Online (Sandbox Code Playgroud)

上面的代码运行正常,但是它没有很好地使用GPU(根据使用率只有~15%nvidia-smi).事实上,当使用CPU时,它的运行速度提高了一个数量级!(在我的12核机器上)当使用GPU运行时,我看到我的一个 CPU内核的GPU利用率非常低(~15%)和100%.仅在CPU上运行时,我看到所有CPU内核的利用率为100%.

仅运行5个CPU的平均时间:11.33秒

5 GPU运行的平均时间:111.88s

上述测试使用官方Tensorflow docker镜像运行:( tensorflow/tensorflow:latest-py3对于CPU)和tensorflow/tensorflow:latest-gpu-py3(对于GPU)

我的猜测是map_fn,通过python lambda,强制数据在每次迭代时在CPU和GPU之间来回复制,而op的嵌套特性使它变得更糟.在未回答的太问题的意见在这里表明,这是如此.

本文声称:

lambda表达式是GPU利用率低的主要原因.

-

所以我的问题是:有没有办法强制map_fn使用GPU?还是要避免Python lambda?

或者,是否有其他(可能更多tensorflow-y)方法来实现上述结果,以便获取图形在GPU上运行?

编辑: 运行探查器之后(我必须大幅减少数组的大小才能让探测器完全运行,因为它像疯了一样占用RAM),以下几行引起了我的注意:

node name     |     output bytes     |      total execution time     | accelerator execution time     |     cpu execution time

Mul                    1.02KB (22.23%, 0.29%),      195.07ms (85.00%, 13.06%),       5.29ms (100.00%, 25.79%),      189.78ms (84.79%, 12.89%)

Sum                      256B (21.41%, 0.07%),      241.48ms (69.08%, 16.17%),        6.01ms (74.21%, 29.29%),      235.47ms (69.01%, 15.99%)

TensorArrayScatterV3      512B (0.64%, 0.15%),      658.31ms (46.87%, 44.09%),        9.19ms (44.80%, 44.80%),      649.12ms (46.90%, 44.08%)
Run Code Online (Sandbox Code Playgroud)

看起来某些操作主要在CPU上进行,并且只在一个线程上完成!

mrr*_*rry 4

tf.map_fn()构造可以与在 GPU 上运行操作的函数一起使用。默认情况下,TensorFlow 将尝试在 GPU 上运行尽可能多的函数,任何与 GPU 不兼容的操作都将在 CPU 上运行。在您的程序中,整个elementwise_op()函数是由 GPU 兼容的操作构建的,因此每次迭代时 CPU 和 GPU 之间不应该有额外的复制。

GPU利用率低的原因很难从程序片段中确定。例如,如果AB相对较小,并且您从 Python 提供它们并立即取回结果,则将初始数据复制到 GPU 或从 GPU 复制初始数据的开销可能会占主导地位。追踪此问题的最佳方法是使用 GPU 分析器,您可以使用tfprof该分析器或NVIDIA Visual Profiler

  • 我已经使用重现该问题的完整程序更新了该问题,并且分析器似乎突出显示了主要使用 CPU 的三个操作(请参阅更新的问题)。在 GPU 上运行时只使用一个 CPU 核心是否有原因?您对如何优化我的图表以更好地利用 GPU 有什么想法吗? (3认同)