如何进行体面的语音检测？

Question

我需要编写语音检测算法(不是语音识别).

起初我以为我只需测量麦克风功率并将其与某个阈值进行比较.但是,一旦你必须考虑环境声级,问题会变得更加困难(例如,在酒吧中,由于其他人在说话,因此会立即越过简单的功率阈值).

因此,在第二个版本中,我认为我必须测量当前功率峰值与平均声级或类似的等级.编码这个想法对我来说非常毛茸茸,在这一点上我认为可能是时候研究现有的解决方案了.

你知道语音检测的一些通用算法描述吗？C/C++/Objective-C中的现有代码或库也很好,无论是商业的还是免费的.

PS我猜测"语音"和"声音"识别之间存在差异,第一种只响应接近人类语音范围的频率.第二个更简单的情况我很好.

Answer 1

Google需要的关键词是语音活动检测(VAD) - 它在电信中得到广泛应用,特别是在声学回声消除(AEC)中.