将 ffpmeg OpenCL 过滤器输出传递到 NVenc 而不需要 hwdownload？

Question

将 ffpmeg OpenCL 过滤器输出传递到 NVenc 而不需要 hwdownload？

w1t*_*am3 3 video ffmpeg nvidia opencl nvenc

我正在尝试使用 ffmpeg 对 UHD HDR 视频流进行色调映射（和调整大小）。以下命令：

ffmpeg -vsync 0 -hwaccel cuda -init_hw_device opencl=ocl -filter_hw_device ocl 
    -threads 1 -extra_hw_frames 3 -c:v hevc_cuvid -resize 1920x1080 -i "INPUT.hevc" 
    -vf "hwupload,
         tonemap_opencl=tonemap=mobius:param=0.01:desat=0:r=tv:p=bt709:t=bt709:m=bt709:format=nv12,
         hwdownload,format=nv12,hwupload_cuda" 
    -c:v hevc_nvenc -b:v 8M "OUTPUT.hevc"

Run Code Online (Sandbox Code Playgroud)

似乎有效（RTX 3080 上大约 200 FPS）。然而，我注意到它仍然使用一个 CPU 核心，并且 GPU 使用率据报告仅为 60-70%。当我只在没有任何滤镜的情况下调整大小时，我会在 100% GPU 使用率下获得大约 400FPS 的速度。

我怀疑最后的hwdownload,format=nv12,hwupload_cuda语句有问题，因为这增加了通过主内存的绕道。我尝试只使用hwupload_cuda而不使用hwdownload（就像这里建议的那样： https: //stackoverflow.com/a/55747785/929037在本答案末尾附近的过滤器示例中），但后来出现以下错误：

Impossible to convert between the formats supported by the filter 'Parsed_tonemap_opencl_1' and the filter 'auto_scaler_0'
Error reinitializing filters!
Failed to inject frame into filter network: Function not implemented
Error while processing the decoded data for stream #0:0

Run Code Online (Sandbox Code Playgroud)

尝试使用hwmap导致

Assertion dst->format == AV_PIX_FMT_OPENCL failed at C:/code/ffmpeg/src/libavutil/hwcontext_opencl.c:2814

Run Code Online (Sandbox Code Playgroud)

是否可以避免这种额外的情况hwdownload？

Answer 1

nya*_*aka 7

2022年编辑：

对于使用 Nvidia 卡并想要零复制 HDR 到 SDR 色调映射的用户，您现在可以使用libplaceboFFmpeg 5.0 中引入的功能强大的 Vulkan 过滤器来实现此目的，而无需 OpenCL 过滤器。

libplacebo是 MPV 播放器的下一代视频渲染器，它可以执行高质量视频处理，包括 GPU 上 HDR10 和 DV 内容的色调映射。由于从 CUDA 内存派生到 Vulkan 已经实现，您可以使用libplacebo过滤器与 NVDEC、NVENC 和其他 CUDA 过滤器链接以获得最佳性能。

要获得额外的 Vulkan 和 libplacebo 支持，您必须使用使用--enable-vulkan --enable-libshaderc --enable-libplacebo.

预构建的二进制文件可以从https://github.com/BtbN/FFmpeg-Builds/releases获取

执行此操作的 cmd 片段：

./ffmpeg -threads 1 -hwaccel cuda -hwaccel_output_format cuda -i HDR.mp4 \
-vf "scale_cuda=w=1920:h=1080:interp_algo=bilinear,hwupload=derive_device=vulkan, \
libplacebo=tonemapping=auto:colorspace=bt709:color_primaries=bt709:color_trc=bt709:format=yuv420p:upscaler=none:downscaler=none:peak_detect=0, \
hwupload=derive_device=cuda" \
-c:v h264_nvenc -preset medium -profile:v high -b:v 8M -y SDR.mp4

Run Code Online (Sandbox Code Playgroud)

这是什么意思：

使用 NVDEC 硬件加速器将视频解码到 CUDA 内存
使用 CUDA 过滤器将视频缩放至 1080p（双线性算法）
从 CUDA 派生到 Vulkan 内存hwupload
应用从 HDR 到 SDR 8 位 yuv420p 的自动色调映射，无需使用 libplacebo 的内置缩放器来提高性能
从 Vulkan 派生到 CUDA 内存hwupload
使用 NVENC 编码器编码为 H.264 1080p SDR 8M

请注意，hwupload这里并不意味着复制回内存。相反，在这个特定的 CUDA-Vulkan 管道中，它执行与hwmap. 整个视频过滤管道发生在您的 GPU 和 VRAM 上。

upscaler=none:downscaler=none:peak_detect=0 这三个选项禁用了一些高质量的放大/缩小算法和 HDR 峰值检测功能，以权衡更好的性能。您可以将它们移除以获得最佳质量。

有关 libplacebo 过滤器中的更多微调选项，请参阅 http://ffmpeg.org/ffmpeg-all.html#libplacebo

2021年的原始答案：

至少现在不行。

在 Nvidia 为它们发布互操作方法之前，Cuda 和 OpenCL 设备之间的零拷贝纹理共享（又名hwmap过滤器）在 ffmpeg 中不可用。

https://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__INTEROP.html

Intel和AMD有一些针对D3D11/VAAPI<->OpenCL互操作的OpenCL扩展，并且可以将一个共享图像（例如NV12）分割成不同的平面（例如平面Y和UV）。例如来自 Intel 和AMD 的。cl_intel_va_api_media_sharing cl_intel_d3d11_nv12_media_sharingcl_amd_planar_yuv

至于 Nvidia，他们确实有cl_nv_d3d11_sharingD3D11<->OpenCL 互操作，但我认为它在 Cuda 方面效果不佳。

另一种解决方案是将色调映射算法移植为 Cuda 过滤器，但这需要一些时间。完成后，预计速度将得到巨大提高。您可以轻松使用它，例如scale_cuda或overlay_cuda过滤器等。

我看到英特尔已经tonemap_vaapi在其最新的 iGPU 中支持硬件过滤功能。不确定 Nvidia NVENC 的 ASIC 中是否有类似的产品。

归档时间：	5 年，3 月前
查看次数：	2386 次
最近记录：	3 年，9 月前