自动将音轨与配音屏幕录像的时间对齐

5 python audio audio-recording

我们有一些屏幕截图需要配音为各种语言,我们有目标语言的文本脚本,如下所示:

开始时间音频旁白

0:0 废话 nao lorep iposm...

1:20 xao dok dkjv dwv....

..

我们可以单独记录上述每个单元,然后将其对齐在上面脚本中提到的正确开始时间。

例子:

输入:

输入N个计时值:0:0,1:20...然后输入N个录音

输出:

录音与上述时间一致。系统应单独检测上溢,而下溢则通过静默来填充。

是否有任何独立于平台的音频 api \ 软件或代码片段(最好是 python 中的代码片段)允许我们根据提供的时间对齐这些音频单元?

Jro*_*rop 1

如果输入的音频文件是未压缩的(即WAV文件等),我喜欢使用的音频库是libsndfile。这里似乎有一个 python 包装器: https: //code.google.com/p/libsndfile-python/。考虑到这一点,其余的可以这样完成:

使用 libsndfile 打开输出音频流以写入音频数据

对于每个输入音频文件,使用 libsndfile 打开输入流

根据您的文本描述“脚本”提取给定音频文件的元数据信息

将所需的任何静默写入主输出流,然后将数据从输入流写入输出流。注意当前位置/时间。对每个输入音频文件重复此步骤,检查音频剪辑目标开始时间始终 >= 之前记录的当前位置/时间。如果没有,那么就有重叠。

当然,您必须担心采样率匹配等问题,但这应该足以开始。另外,我不确定您是否正在尝试编写一个输出文件,或者为每个输入文件编写一个输出文件,但这个答案应该足够可调整。假设 libsndfile 支持输入文件格式,它将为您提供所需的所有信息(例如剪辑长度等)。