我需要将一个视频分成许多较小的视频。我尝试过 PySceneDetect,它的 2 种场景检测方法不适合我的需要。
这个想法是在每次音量非常低,每次音频电平小于给定参数时触发场景切换/中断。我认为整体 RMS dB 音量水平就是我的意思。
目的是将一个 mp4 视频分成许多短视频,每个较小的视频都带有简短的对话短语。
到目前为止,我有一个命令可以获取整体 RMS 音频音量级别。
ffprobe -f lavfi -i amovie=01x01TheStrongestMan.mp4,astats=metadata=1:reset=1 -show_entries frame=pkt_pts_time:frame_tags=lavfi.astats.Overall.RMS_level,lavfi.astats.1.RMS_level,lavfi.astats.2.RMS_level -of csv=p=0
Run Code Online (Sandbox Code Playgroud)
如何仅获得 RMS 电平及其相应帧或时间的最小值?
然后我如何使用 ffmpeg 在对应于最小 RMS 的每一帧上将视频拆分为多个视频?
谢谢。
使用silencedetect音频过滤器并将其调试输出提供给segment输出格式参数。
这是一个现成的脚本:
#!/bin/bash
IN=$1
OUT=$2
true ${SD_PARAMS:="-55dB:d=0.3"};
true ${MIN_FRAGMENT_DURATION:="20"};
export MIN_FRAGMENT_DURATION
if [ -z "$OUT" ]; then
echo "Usage: split_by_silence.sh input_media.mp4 output_template_%03d.mkv"
echo "Depends on FFmpeg, Bash, Awk, Perl 5. Not tested on Mac or Windows."
echo ""
echo "Environment variables (with their current values):"
echo " SD_PARAMS=$SD_PARAMS Parameters for FFmpeg's silencedetect filter: noise tolerance and minimal silence duration"
echo " MIN_FRAGMENT_DURATION=$MIN_FRAGMENT_DURATION Minimal fragment duration"
exit 1
fi
echo "Determining split points..." >& 2
SPLITS=$(
ffmpeg -nostats -v repeat+info -i "${IN}" -af silencedetect="${SD_PARAMS}" -vn -sn -f s16le -y /dev/null \
|& grep '\[silencedetect.*silence_start:' \
| awk '{print $5}' \
| perl -ne '
our $prev;
INIT { $prev = 0.0; }
chomp;
if (($_ - $prev) >= $ENV{MIN_FRAGMENT_DURATION}) {
print "$_,";
$prev = $_;
}
' \
| sed 's!,$!!'
)
echo "Splitting points are $SPLITS"
ffmpeg -v warning -i "$IN" -c copy -map 0 -f segment -segment_times "$SPLITS" "$OUT"
Run Code Online (Sandbox Code Playgroud)
您指定输入文件、输出文件模板、静音检测参数和最小片段大小,它会写入多个文件。
可能需要调整静音检测参数:
SD_PARAMS环境变量包含两个参数:噪声容忍度和最小静音持续时间。默认值为-55dB:d=0.3。-55dB例如,-70dB如果一些微弱的非静音声音在不应该引发吐痰时触发吐痰,请降低音量。将它增加到例如,-40dB如果它因为有一些噪音而没有在静音时分裂,使其不完全静音。d=0.3是被视为分裂点的最小静默持续时间。如果只有严重的(例如整整 3 秒)沉默应被视为真正的、值得分割的沉默,则增加它。MIN_FRAGMENT_DURATION定义了每次拆分后忽略静音事件的时间量。这设置了最小片段持续时间。如果根本没有检测到静音,脚本就会失败。
Github Gist 上有一个重构版本,但对于一个用户来说存在问题。