如何在常见语音数据集上训练 CNN

Question

我正在尝试使用通用语音数据集训练CNN 。我是语音识别新手，无法找到任何有关如何将数据集与 keras 一起使用的链接。我关注了这篇文章构建了一个简单的词分类网络。但我想用通用语音数据集来扩展它。任何帮助表示赞赏。

谢谢

Answer 1

您可以做的就是查看MFCC。简而言之，这些是通过使用信号处理技术从音频波形中提取的特征来转录人类感知声音的方式。在 python 中，您可以使用python-speech-features来计算 MFCC。

准备好数据后，就可以构建 CNN；例如这样的：

您还可以使用 RNN（例如 LSTM 或 GRU），但这更高级一些。

编辑：如果您想要的话，这是一个非常好的数据集：