检测歌曲中人声的开始位置？

Question

什么是检测歌曲中人声起始位置的最佳方法？我只需要人声的开始时间.无需极高的精度.速度更重要.

任何关于论文或算法的线索(如果存在的话)都非常感激.也在寻找关于哪种框架/语言最适合这种情况的建议.

Answer 1

*SPOILER:答案不在下面*

由于我打算做类似的事情,我自己做了一些关于这个问题的研究,发现有一些确切的数字技术可以做到这一点.

我将列出参考文献,并让读者决定这是否是正确的方法.这一切都与声音音频特征提取有关,并在音频数据中找到声音特征ARE.

你可以从这里开始,但它确实没有任何领先优势,但是看看你有什么进展可能很有用:)

然后,一些关于说话人识别的文章:

在这里,您需要了解mel frequency cepstral coefficients(MFCC)特征提取的入门知识.

然后,例如,这:

我知道他们都没有直接解决你的问题,但至少你将能够掌握你将要处理的怪物的大小.

编辑:框架

我使用c#作为相关的东西,起初我使用roll-my-own fft算法,然后转移到使用Intel数学库的ILNumerics库,后来用fftw替换了所有这些.

http://ilnumerics.net/(嗯,它一次是免费的)

http://www.fftw.org/(一个简单的网页,但BRUTAL表现)

编辑:新的fft引擎

由于我将我的一些代码移植到了android,我有一个很棒的工作经验,一个人做了一些不可思议的事情--FFT库甚至比FFTW更快:FFTS.我对他的魔力的理解是有限的,但他使用codelet用于各种处理器架构,并且优于每个库.