对于通用音频处理库,我可以推荐marsyas。不幸的是,官方主页目前已关闭。
Marsyas 甚至提供了一个示例 Android 应用程序。获得适当的信号分析框架后,您需要分析信号。例如, marsyas 的AimC实现可用于比较语音。
我建议在您的计算机上安装 marsyas 并使用 python 示例脚本。
对于语音分析,您可以使用如下网络:
vqNetwork = ["Series/vqlizer", [
"AimPZFC/aimpzfc",
"AimHCL/aimhcl",
"AimLocalMax/aimlocalmax",
"AimSAI/aimsai",
"AimBoxes/aimBoxes",
"AimVQ/vq",
"Gain/g",
]
Run Code Online (Sandbox Code Playgroud)
该网络获取您的音频数据并对其进行转换,就像人耳处理它一样。之后,它使用矢量量化将许多可能的矢量减少为具有 200 个条目的非常具体的码本。然后,您可以将网络的输出转换为可读字符(例如 utf8),然后您可以使用字符串编辑距离(例如 Levenshtein 距离)之类的东西进行比较。
另一种可能性是使用marsyas 也支持的 MFCC(梅尔频率倒谱系数)进行语音识别,并使用诸如动态时间规整之类的东西来比较输出。该文档很好地描述了该过程。
| 归档时间: |
|
| 查看次数: |
5930 次 |
| 最近记录: |