mfcc 特征大小如何影响递归神经网络

Question

所以我正在学习机器学习并想知道 mfcc 特征大小如何影响 RNN（递归神经网络）？

使用 librosa，我提取了 mfcc，然后提取了 delta 系数，然后我得到了维度数组 [13, sound_length]

用python提取mfcc和delta系数的代码：（y - 声音文件数据，sr - y的长度）

mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1)

所以理论上如果我想用这种数据和 n_mfcc=39 的数据训练网络。谁会更好，为什么？（忽略所有其他超参数）我只想知道这个参数如何影响 RNN 的理论。

Answer 1

个MFCC是系数DCT一个的梅尔-scaled（非线性）光谱。换句话说，它们捕获了梅尔谱中周期性变化的幅度。在音乐分析中，这通常用于描述一段音乐的音色。系数的指数越低，频率（梅尔谱中的周期性变化）就越低。

简单地说：较低的指数/系数通常更重要。

JPEG 图像文件格式和 MP3 的情况也是如此——较高的 DCT 系数被丢弃，因为它们描述了通常不被认为重要的较高频率。

所以更少的系数意味着你可以使用更小的 RNN。但是，您将丢失包含在这些较高频率中的信息（如上所述，通常认为这些频率并不重要）。这是一个收益递减的游戏：在某些时候，更多的系数意味着更多的投入，但不一定意味着更好的结果。

AFAIK，在音乐信息检索（MIR）中，通常使用前 13 个系数。但我也看到过使用前 20 个的论文。

在用于 MIR 之前，MFCC 用于语音识别。