在OpenCL中以编程方式选择最佳GPU的最佳方法是什么？

Question

在OpenCL中以编程方式选择最佳GPU的最佳方法是什么？

在我的笔记本电脑上,我有两张显卡 - 英特尔Iris和Nvidia GeForce GT 750M.我正在尝试使用简单的向量添加OpenCL.我知道,Nvidia卡更快,可以更好地完成工作.原则上,我可以if在将NVIDIA在VENDOR属性中查找的代码中放置一个语句.但我想要有一些优雅的东西.以编程方式选择更好(更快)GPU的最佳方法是什么OpenCL C/C++？

Answer 1

Z b*_*son 6

我开发了一个实时光线跟踪器(不仅仅是一个光线连接器),它以编程方式选择了两个GPU和一个CPU,并实时渲染和平衡所有三个上的负载.我就是这样做的.

比方说,有三个设备,d1,d2,和d3.分配给每个装置的重量:w1,w2,和w3.调用要渲染的像素数n.假设一个名为的自由参数alpha.

为每台设备分配1/3的重量.
我们alpha = 0.5.
渲染的第一个n1=w1*n上的像素d1,接下来 n2=w2*n的像素d2,而最后n3=w3*n像素上d3并记录时间来呈现每个deivce t1,t2和t3.
计算一个值vsum = n1/t1 + n2/t2 + n3/t3.
重新计算重量w_i = alpha*w_i + (1-alpha)*n_i/t_i/vsum.
回到第3步.

值的关键alpha是允许平滑过渡.而不是根据它在某些旧重量中混合的时间重新分配所有重量.没有使用alpha我有不稳定性.alpha可以调整该值.在实践中,它可能设置在1%左右但不是0%.

我们来选一个例子吧.

我有一个GTX 590,这是一个带有两个欠频GTX580的双GPU卡.我还有一台Sandy Bridge 2600K处理器.GPU比CPU快得多.我们假设它们的速度提高了大约10倍.我们还说有900像素.

使用GPU1渲染前300个像素,使用GPU2渲染下300个像素,使用CPU1渲染最后300个像素并10 s, 10 s, and 100 s分别记录时间.因此,整个图像的一个GPU需要30秒,而单独的CPU需要300秒.GPUS合二为一15 s.

计算vsum = 30 + 30 + 3 = 63.再次重新计算重量: w1,w2 = 0.5*(1/3) + 0.5*300/10/63 = 0.4和w3 = 0.5*(1/3) + 0.5*300/100/63 = 0.2.

渲染下一帧:GPU1为360像素,GPU2为360像素,CPU1为180像素,时间变得更加平衡11 s, 11 s, and 55 s.

在多个帧之后,该(1-alpha)术语占主导地位,直到最终权重都基于该术语.在这种情况下,权重分别变为47%(427像素),47%,6%(46像素),并且时间14 s, 14 s, 14 s分别变为.在这种情况下,CPU仅将GPU的使用时间提高一秒.

我在这个计算中假设了一个均匀的负荷.在实际光线跟踪器中,负载随扫描线和像素而变化,但算法在确定权重时保持不变.

在实践中,一旦发现重量,它们不会发生太大变化,除非场景的负荷发生显着变化,例如,如果场景的一个区域具有高折射和反射,而其余区域是漫反射的,但即使在这种情况下我也限制树深度,所以这没有戏剧性的效果.

通过循环将此方法扩展到多个设备很容易.我曾在四台设备上测试了我的光线跟踪器.两个12核Xeon CPU和两个GPU.在这种情况下,CPU具有更大的影响力,但GPU仍占主导地位.

如果有人想知道.我为每个设备创建了一个上下文,并在一个单独的线程中使用每个上下文(使用pthreads).对于三个设备,我使用了三个线程.

实际上,您可以使用它在不同供应商的同一设备上运行.例如,我在2600K上同时使用了AMD和Intel CPU驱动程序(每个驱动程序产生大约一半的帧),以查看哪个供应商更好.当我第一次这样做(2012年)时,如果我没记错的话,AMD在英特尔CPU上讽刺地击败了英特尔.

如果有人对我如何提出权重公式感兴趣,我会使用物理学的一个想法(我的背景是物理学而不是编程).

速度(v)=距离/时间.在这种情况下,distance(d)是要处理的像素数.那么总距离是

d = v1*t1 + v2*t2 + v3*t3

归档时间：	10 年，1 月前
查看次数：	1099 次
最近记录：	9 年，7 月前