从连续麦克风流中实时识别非语音,非音乐声音

Question

我正在寻找记录与特定声音相对应的事件,例如车门砰击,或者可能是烤面包机吐出的吐司.

系统需要比"响亮的噪声探测器"更复杂; 它需要能够将特定声音与其他大声噪声区分开来.

识别不需要零延迟,但处理器需要跟上来自始终打开的麦克风的连续输入数据流.

这个答案表明匹配的过滤器是合适的,但我对细节很朦胧.由于目标声音的变化,我不相信目标声音样本和麦克风流之间的音频波形数据的简单互相关将是有效的.

我的问题也与此类似,没有引起太多关注.

Answer 1

Cowling (2004)的博士论文《用于自主监控的非语音环境声音分类系统》提供了不同音频特征提取和分类技术的实验结果。他使用环境声音，例如叮当作响的钥匙和脚步声，能够达到 70% 的准确率：

最好的技术是使用动态时间规整的连续小波变换特征提取或使用动态时间规整的梅尔频率倒谱系数。这两种技术都达到了 70% 的识别率。

如果你限制自己只听一种声音，或许你能达到更高的识别率？

作者还提到，在语音识别（学习矢量量化和神经网络）方面效果很好的技术在环境声音方面效果不佳。

我还在这里找到了一篇更新的文章：Detecting Audio Events for Semantic Video Search，作者：Bugalho 等人。（2009），他们检测电影中的声音事件（如枪声、爆炸等）。

我没有这方面的经验。我只是因为你的问题引起了我的兴趣而偶然发现了这份材料。我将我的发现发布在这里，希望对您的研究有所帮助。