每次音量为零时,如何使用 ffmpeg 分割 mp4 视频?

Jua*_*dez 2 bash ffmpeg sh

我需要将一个视频分成许多较小的视频。我尝试过 PySceneDetect,它的 2 种场景检测方法不适合我的需要。

这个想法是在每次音量非常低,每次音频电平小于给定参数时触发场景切换/中断。我认为整体 RMS dB 音量水平就是我的意思。

目的是将一个 mp4 视频分成许多短视频,每个较小的视频都带有简短的对话短语。

到目前为止,我有一个命令可以获取整体 RMS 音频音量级别。

ffprobe -f lavfi -i amovie=01x01TheStrongestMan.mp4,astats=metadata=1:reset=1 -show_entries frame=pkt_pts_time:frame_tags=lavfi.astats.Overall.RMS_level,lavfi.astats.1.RMS_level,lavfi.astats.2.RMS_level -of csv=p=0
Run Code Online (Sandbox Code Playgroud)

如何仅获得 RMS 电平及其相应帧或时间的最小值?

然后我如何使用 ffmpeg 在对应于最小 RMS 的每一帧上将视频拆分为多个视频?

谢谢。

Vi.*_*Vi. 6

使用silencedetect音频过滤器并将其调试输出提供给segment输出格式参数。

这是一个现成的脚本:

#!/bin/bash

IN=$1
OUT=$2

true ${SD_PARAMS:="-55dB:d=0.3"};
true ${MIN_FRAGMENT_DURATION:="20"};
export MIN_FRAGMENT_DURATION

if [ -z "$OUT" ]; then
    echo "Usage: split_by_silence.sh input_media.mp4 output_template_%03d.mkv"
    echo "Depends on FFmpeg, Bash, Awk, Perl 5. Not tested on Mac or Windows."
    echo ""
    echo "Environment variables (with their current values):"
    echo "    SD_PARAMS=$SD_PARAMS       Parameters for FFmpeg's silencedetect filter: noise tolerance and minimal silence duration"
    echo "    MIN_FRAGMENT_DURATION=$MIN_FRAGMENT_DURATION    Minimal fragment duration"
    exit 1
fi

echo "Determining split points..." >& 2

SPLITS=$(
    ffmpeg -nostats -v repeat+info -i "${IN}" -af silencedetect="${SD_PARAMS}" -vn -sn  -f s16le  -y /dev/null \
    |& grep '\[silencedetect.*silence_start:' \
    | awk '{print $5}' \
    | perl -ne '
        our $prev;
        INIT { $prev = 0.0; }
        chomp;
        if (($_ - $prev) >= $ENV{MIN_FRAGMENT_DURATION}) {
            print "$_,";
            $prev = $_;
        }
    ' \
    | sed 's!,$!!'
)


echo "Splitting points are $SPLITS"

ffmpeg -v warning -i "$IN" -c copy -map 0 -f segment -segment_times "$SPLITS" "$OUT"
Run Code Online (Sandbox Code Playgroud)

您指定输入文件、输出文件模板、静音检测参数和最小片段大小,它会写入多个文件。

可能需要调整静音检测参数:

  • SD_PARAMS环境变量包含两个参数:噪声容忍度和最小静音持续时间。默认值为-55dB:d=0.3
  • -55dB例如,-70dB如果一些微弱的非静音声音在不应该引发吐痰时触发吐痰,请降低音量。将它增加到例如,-40dB如果它因为有一些噪音而没有在静音时分裂,使其不完全静音。
  • d=0.3是被视为分裂点的最小静默持续时间。如果只有严重的(例如整整 3 秒)沉默应被视为真正的、值得分割的沉默,则增加它。
  • 另一个环境变量MIN_FRAGMENT_DURATION定义了每次拆分后忽略静音事件的时间量。这设置了最小片段持续时间。

如果根本没有检测到静音,脚本就会失败。

Github Gist 上有一个重构版本,但对于一个用户来说存在问题。