话语长度如何影响说话人识别中的神经网络?

Nik*_*ias 5 audio machine-learning neural-network tensorflow

我正在学习神经网络并试图用张量流创建说话人识别系统.我想知道话语长度如何影响神经网络.例如,我有1000种不同的录音,长度相同,1000种不同的录音,长度不同.那么理论上如何使用这些数据工作神经网络呢?具有相同长度记录的数据库的神经网络会做得更好还是更差?为什么?

Luk*_*ski 1

这取决于神经网络的类型。在进行此类设计时,通常会指定输入神经元的数量,因此不能向其提供任意长度的数据。如果序列较长,您必须裁剪数据或使用滑动窗口。

但是,某些神经网络允许您处理任意输入序列,例如循环神经网络。后者似乎非常适合解决您的问题。是一篇很好的文章,描述了特定类型 RNN 的实现,称为长短期记忆,它可以很好地与语音识别配合使用。