Cro*_*han 24 speech-recognition speech
我有15个录音带,其中一个我认为包含了我祖母和我自己说话的旧录音.寻找合适地点的快速尝试并未将其提升.我不想听20个小时的磁带来找到它.该位置可能不在其中一个磁带的开头.大多数内容似乎分为三类 - 按总长度排列,最长的是:静音,语音广播和音乐.
我计划将所有磁带转换为数字格式,然后再次查看录制内容.显而易见的方法是在我做其他事情时在后台播放它们.这对我来说太简单了,所以:是否有任何开源库或其他代码可以让我找到,以便提高复杂性和实用性:
我更喜欢Python,Java或C.
由于我对该领域一无所知,因此未能得到答案,关于搜索词的提示将受到赞赏.
据我所知,我可以轻松地花20多个小时.
hru*_*ske 14
你大部分时间可以节省的是演讲者的日记.这可以通过使用扬声器ID注释录音,然后您可以轻松地手动映射到真实的人.错误率通常约为记录长度的10-15%,这听起来很糟糕,但这包括检测太多扬声器并将两个ID映射到同一个人,这并不难以修复.
一个这样的好工具是SHoUT工具包(C++),尽管它对输入格式有点挑剔.请参阅作者对此工具的用法.它输出语音/语音活动检测元数据和扬声器分类,这意味着你得到第一和第二点(VAD/SAD)和一点额外,因为它注释何时在录音中活跃的同一个扬声器.
另一个有用的工具是LIUM spkdiarization(Java),它基本上也是这样做的,除了我还没有花足够的精力来计算如何获取VAD元数据.它具有一个很好的可随时使用的可下载包.
通过一些编译,这应该在一个小时内完成.
最好的选择是找到一个开源模块,进行语音识别或说话人识别(不是语音识别).说话者识别用于识别特定说话者,而语音识别用于将说出的音频转换为文本.可能有开源扬声器识别包,您可以尝试搜索SourceForge.net之类的"说话人识别"或"语音和生物识别".由于我自己没有使用过,我不能推荐任何东西.
如果你找不到任何东西,但是你有兴趣推出自己的一个,那么有很多开源FFT库适用于任何流行的语言.该技术将是:
请注意,完成此项目的小时数可能很容易超过手动收听录音的20小时.但它比研磨20小时的音频更有趣,你可以使用你将来再次构建的软件.
当然,如果音频从隐私角度来看不敏感,您可以将音频试听任务外包给亚马逊的机械特克.
小智 5
您也可以尝试pyAudioAnalysis以:
from pyAudioAnalysis import audioBasicIO as aIO
from pyAudioAnalysis import audioSegmentation as aS
[Fs, x] = aIO.readAudioFile("data/recording1.wav")
segments = aS.silenceRemoval(x, Fs, 0.020, 0.020, smoothWindow = 1.0, Weight = 0.3, plot = True)
segments 包含非沉默片段的端点。
| 归档时间: |
|
| 查看次数: |
25162 次 |
| 最近记录: |