每次音量为零时，如何使用 ffmpeg 分割 mp4 视频？

Question

每次音量为零时，如何使用 ffmpeg 分割 mp4 视频？

我需要将一个视频分成许多较小的视频。我尝试过 PySceneDetect，它的 2 种场景检测方法不适合我的需要。

这个想法是在每次音量非常低，每次音频电平小于给定参数时触发场景切换/中断。我认为整体 RMS dB 音量水平就是我的意思。

目的是将一个 mp4 视频分成许多短视频，每个较小的视频都带有简短的对话短语。

到目前为止，我有一个命令可以获取整体 RMS 音频音量级别。

ffprobe -f lavfi -i amovie=01x01TheStrongestMan.mp4,astats=metadata=1:reset=1 -show_entries frame=pkt_pts_time:frame_tags=lavfi.astats.Overall.RMS_level,lavfi.astats.1.RMS_level,lavfi.astats.2.RMS_level -of csv=p=0

Run Code Online (Sandbox Code Playgroud)

如何仅获得 RMS 电平及其相应帧或时间的最小值？

然后我如何使用 ffmpeg 在对应于最小 RMS 的每一帧上将视频拆分为多个视频？

谢谢。

Answer 1

Vi.*_*Vi. 6

使用silencedetect音频过滤器并将其调试输出提供给segment输出格式参数。

这是一个现成的脚本：

#!/bin/bash

IN=$1
OUT=$2

true ${SD_PARAMS:="-55dB:d=0.3"};
true ${MIN_FRAGMENT_DURATION:="20"};
export MIN_FRAGMENT_DURATION

if [ -z "$OUT" ]; then
    echo "Usage: split_by_silence.sh input_media.mp4 output_template_%03d.mkv"
    echo "Depends on FFmpeg, Bash, Awk, Perl 5. Not tested on Mac or Windows."
    echo ""
    echo "Environment variables (with their current values):"
    echo "    SD_PARAMS=$SD_PARAMS       Parameters for FFmpeg's silencedetect filter: noise tolerance and minimal silence duration"
    echo "    MIN_FRAGMENT_DURATION=$MIN_FRAGMENT_DURATION    Minimal fragment duration"
    exit 1
fi

echo "Determining split points..." >& 2

SPLITS=$(
    ffmpeg -nostats -v repeat+info -i "${IN}" -af silencedetect="${SD_PARAMS}" -vn -sn  -f s16le  -y /dev/null \
    |& grep '\[silencedetect.*silence_start:' \
    | awk '{print $5}' \
    | perl -ne '
        our $prev;
        INIT { $prev = 0.0; }
        chomp;
        if (($_ - $prev) >= $ENV{MIN_FRAGMENT_DURATION}) {
            print "$_,";
            $prev = $_;
        }
    ' \
    | sed 's!,$!!'
)


echo "Splitting points are $SPLITS"

ffmpeg -v warning -i "$IN" -c copy -map 0 -f segment -segment_times "$SPLITS" "$OUT"

Run Code Online (Sandbox Code Playgroud)

您指定输入文件、输出文件模板、静音检测参数和最小片段大小，它会写入多个文件。

可能需要调整静音检测参数：

SD_PARAMS环境变量包含两个参数：噪声容忍度和最小静音持续时间。默认值为-55dB:d=0.3。
-55dB例如，-70dB如果一些微弱的非静音声音在不应该引发吐痰时触发吐痰，请降低音量。将它增加到例如，-40dB如果它因为有一些噪音而没有在静音时分裂，使其不完全静音。
d=0.3是被视为分裂点的最小静默持续时间。如果只有严重的（例如整整 3 秒）沉默应被视为真正的、值得分割的沉默，则增加它。
另一个环境变量MIN_FRAGMENT_DURATION定义了每次拆分后忽略静音事件的时间量。这设置了最小片段持续时间。

如果根本没有检测到静音，脚本就会失败。

Github Gist 上有一个重构版本，但对于一个用户来说存在问题。

归档时间：	7 年前
查看次数：	1754 次
最近记录：	6 年，12 月前