我正在努力实现以下目标:
我如何尝试实现最后一点:
我面临的问题如下:
Skype 音频和参考哔声的 FFT 结果在数字意义上不相同,即它们相似但不相同,尽管哔声是从音频中提取的带有Skype音频录音的文件。下图显示了左侧 Skype 音频的蜂鸣声频谱图和右侧参考蜂鸣声的频谱图。如您所见,它们非常相似,但又不一样...
上传了一张图片 http://img27.imageshack.us/img27/6717/spectrogram.png
我不知道,如何从这里继续。我应该平均它,即将它分成列和行,并按照此处所述比较这些单元格的平均值吗?我不确定这是最好的方法,因为他已经说过,它不适用于短音频样本,并且哔声的长度不到一秒......
有关如何进行的任何提示?