我有一组由用户上传的音频文件,并且不知道它们包含什么.
我想获取一个任意的音频文件,并将每个人正在讲话的实例提取到单独的音频文件中.我不想检测实际的单词,只是"开始说话","停止说话"点并在这些点生成新文件.
(我的目标是Linux环境,并在Mac上进行开发)
我找到了看起来很有前途的Sox,它有一个'vad'模式(Voice Activity Detection).然而,这似乎找到了第一个语音实例,并在此之前剥离音频,因此它很接近,但不是很正确.
我也看过Python的'wave'库,但后来我需要编写自己的Sox'vad'实现.
是否有任何命令行工具可以实现我想要的现成产品?如果没有,任何好的Python或Ruby方法?
我的应用程序记录来自手机麦克风 我正在使用android标准类(android.media.AudioRecord)来做到这一点.当按下开始按钮应用程序开始记录时,应用程序有2个按钮" 开始 "和" 停止 " ,当我按停止应用程序停止记录并给我回缓冲区时,语音数据为.wav格式.一切正常.
我想以这种方式改变我的应用程序,当应用程序开始工作时它开始分析来自麦克风的声音,如果用户保持静音应用程序继续分析来自麦克风的收入声音,如果用户开始说话应用程序开始记录来自麦克风的声音和然后用户完成谈话应用程序停止录制并给我回相同的缓冲区,语音数据为.wav格式.
我正在开发一个帮助盲人找东西的应用程序,我想在应用程序中添加语音操作的功能,例如,当用户说“打开”时,应用程序会吃午饭