FFmpeg输出不准确

Shl*_*omi 0 audio video ffmpeg video-capture video-processing

可能重复:
ffmpeg:转换前后的视频长度不同

最近,我一直试图将FFmpeg用于一个应用程序,当涉及到时间参数(毫秒分辨率)时需要非常精确的操作.不幸的是,我很惊讶地发现FFmpeg的操作功能会返回一些不准确的结果.

这是'ffmpeg'的输出:

ffmpeg version 0.11.1 Copyright (c) 2000-2012 the FFmpeg developers
  built on Jul 25 2012 19:55:05 with gcc 4.2.1 (Apple Inc. build 5664)
  configuration: --enable-gpl --enable-shared --enable-pthreads --enable-libx264 --enable-libmp3lame
  libavutil      51. 54.100 / 51. 54.100
  libavcodec     54. 23.100 / 54. 23.100
  libavformat    54.  6.100 / 54.  6.100
  libavdevice    54.  0.100 / 54.  0.100
  libavfilter     2. 77.100 /  2. 77.100
  libswscale      2.  1.100 /  2.  1.100
  libswresample   0. 15.100 /  0. 15.100
  libpostproc    52.  0.100 / 52.  0.100
Run Code Online (Sandbox Code Playgroud)

现在,让我们假设我想要翻录'foo.mov'的音轨.以下是'ffmpeg -i foo.mov'的相关输出:

Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'foo.mov':
  Metadata:
    major_brand     : qt  
    minor_version   : 0
    compatible_brands: qt  
    creation_time   : 2012-07-24 23:16:08
  Duration: 00:00:40.38, start: 0.000000, bitrate: 805 kb/s
    Stream #0:0(und): Video: h264 (Baseline) (avc1 / 0x31637661), yuv420p, 480x360, 733 kb/s, 24.46 fps, 29.97 tbr, 600 tbn, 1200 tbc
    Metadata:
      rotate          : 90
      creation_time   : 2012-07-24 23:16:08
      handler_name    : Core Media Data Handler
    Stream #0:1(und): Audio: aac (mp4a / 0x6134706D), 44100 Hz, mono, s16, 63 kb/s
    Metadata:
      creation_time   : 2012-07-24 23:16:08
      handler_name    : Core Media Data Handler
Run Code Online (Sandbox Code Playgroud)

您可能已经注意到,视频文件的持续时间为00:00:40.38.使用以下命令,我翻录了它的音轨:

'ffmpeg -i foo.mov foo.wav'

输出:

Output #0, wav, to 'foo.wav':
  Metadata:
    major_brand     : qt  
    minor_version   : 0
    compatible_brands: qt  
    creation_time   : 2012-07-24 23:16:08
    encoder         : Lavf54.6.100
    Stream #0:0(und): Audio: pcm_s16le ([1][0][0][0] / 0x0001), 44100 Hz, mono, s16, 705 kb/s
    Metadata:
      creation_time   : 2012-07-24 23:16:08
      handler_name    : Core Media Data Handler
Stream mapping:
  Stream #0:1 -> #0:0 (aac -> pcm_s16le)
Press [q] to stop, [?] for help
size=3482kB time=00:00:40.42 bitrate= 705.6kbits/s    
video:0kB audio:3482kB global headers:0kB muxing overhead 0.001290%
Run Code Online (Sandbox Code Playgroud)

如您所见,输出文件比输入中的文件长.

另一个例子是音频(和视频)文件修剪:让我们假设我想使用ffmpeg进行音频文件修剪.我用了下一个命令:

'ffmpeg -t 00:00:10.000 -i foo.wav trimmed_foo.wav -ss 00:00:25.000'

输出:

[wav @ 0x10180e800] max_analyze_duration 5000000 reached at 5015510
Guessed Channel Layout for  Input Stream #0.0 : mono
Input #0, wav, from 'foo.wav':
  Duration: 00:00:40.42, bitrate: 705 kb/s
    Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 44100 Hz, mono, s16, 705 kb/s
Output #0, wav, to 'trimmed_foo.wav':
  Metadata:
    encoder         : Lavf54.6.100
    Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 44100 Hz, mono, s16, 705 kb/s
Stream mapping:
  Stream #0:0 -> #0:0 (pcm_s16le -> pcm_s16le)
    Press [q] to stop, [?] for help
size=864kB time=00:00:10.03 bitrate= 705.6kbits/s    
video:0kB audio:864kB global headers:0kB muxing overhead 0.005199%
Run Code Online (Sandbox Code Playgroud)

同样,输出文件比我预期的长30毫秒.

很长一段时间,我试着研究这个问题而没有任何成功.当我使用audacity来实现相同的功能时,它可以非常准确地完成!

有谁知道如何解决这个问题?

bla*_*lah 11

TL; DR:FFmpeg和您的iOS设备是满足您需求的错误工具.

有许多问题需要解决,因此没有特别的顺序:

  • 首先,FFmpeg或您正在使用的底层编解码器都是针对您想要的那种时间分辨率而设计的.40ms是25帧的1帧,这在大多数视频和音频文件的背景下并不多.超精确定时不是常见音频编解码器的设计特征,如源AAC数据,FFmpeg也是如此.

  • 不要做任何转码!如果您想尽可能少地更改数据...请勿更改它.您可以使用ffmpeg -i in.mov -c:a copy out.m4a精确提取音频流,而不是将其转码为wav格式.

  • 使用FFprobe而不是FFmpeg来获取文件信息.FFmpeg只是提供了一些关于输入和输出文件的粗略信息,因为它的默认日志记录过于冗长.FFprobe通常与FFmpeg捆绑在一起,专门用于以方便的形式提取信息.使用ffprobe -show_streams -show_format in.mov获得的信息.

  • 增加你的-analyzeduration!您可能已经注意到max_analyze_duration reached输出中的注释.从该文档这是许多如何微秒将要被实际读取的文件的FFmpeg之前估计的总长度.同样,对于大多数目的而言,知道文件的长度到微秒精度是不可行或不可取的并且它昂贵的.如果您想要超精确,请确保该参数设置得更高,可能比实际输入更长.

  • 您的选项放置要小心一些.这是相当小的,但我认为我应该提出它,以防你不知道.FFmpeg的许多选项的行为都有所不同,具体取决于它们在输入和输出方面的顺序.值得注意的-ss是你正在使用.你在输入之后得到它,这是你想要它的地方,但是你也有-t开头的输出选项......很奇怪.订购该命令的更自然的方式是:

    ffmpeg -i foo.wav -ss 00:00:25.000 -t 00:00:10.000 trimmed_foo.wav
    
    Run Code Online (Sandbox Code Playgroud)
  • 仅供参考,所有的时序命令接受秒(包括小数秒)输入,所以你不必在前面加上一切00:00:.

  • 区分容器长度和实际流长度.我不使用Audacity,但如果它显示出极高的准确性,我不会感到惊讶,因为它对你说它正在做的事情在骗你.实际上,以毫秒级精度修整音频或视频数据不仅需要选择输入中包含哪些帧(在25fps时精确到40ms!),还需要更改帧数据以在末尾插入静音.更容易根据框架包含进行修剪,然后将超精确长度放在容器文件元数据中.某些播放软件实际上可能会根据该数字切断,但同样,大多数AV软件并不是为了达到这种精度而设计的.我很想知道FFmpeg显示的是Audacity修剪的文件的长度.

这就是现在想到的一切,但是一旦你有机会融入上述一些内容,我很乐意提供更多反馈.我的猜测是研究成果需要这种准确性,在这种情况下,快乐的研究!