测量两个短音频相似度的最简单算法

For*_*est 5 audio pattern-matching voice-recognition ios

问题是寻找任何开源或简单的实现来衡量 iOS 应用程序上两个音频之间的相似程度。

简单来说,音频可以用一维向量来表示,来计算一维向量之间的距离。但是音频长度会有所不同,因此需要一些预处理等。

期待在这里得到一些线索,谢谢

Nik*_*rev 5

使用 DTW 可以有效计算两个可变长度序列之间的相似性:

http://en.wikipedia.org/wiki/Dynamic_time_warping

这个算法很容易自己实现,维基页面上有很多现有的实现链接。

简单来说,音频可以用一维向量表示,

在帧上分割音频并将其转换为二维特征向量是合理的,其中对于每一帧,您都有一组对应于不同频段的值(特征)。如果你想处理音乐,每帧一个 FFT 是个好主意,对于语音,最好计算mel-frequency 倒谱

同样,您可以使用许多现有的库来获取 mel 频率特征,其中之一是语音识别工具包CMUSphinx