我正在尝试优化 pyOpenCL 程序。出于这个原因,我想知道是否有办法分析程序并查看大部分时间需要在哪里。
你知道如何解决这个问题吗?
提前 致谢安迪
编辑:例如,用于 CUDA 的 nvidias nvprof 可以用于 pyCuda,但不适用于 pyOpenCL。
python opencl pyopencl
opencl ×1
pyopencl ×1
python ×1