Nik*_*ias 3 python machine-learning mfcc recurrent-neural-network librosa
所以我正在学习机器学习并想知道 mfcc 特征大小如何影响 RNN(递归神经网络)?
使用 librosa,我提取了 mfcc,然后提取了 delta 系数,然后我得到了维度数组 [13, sound_length]
用python提取mfcc和delta系数的代码:(y - 声音文件数据,sr - y的长度)
mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1)
Run Code Online (Sandbox Code Playgroud)
所以理论上如果我想用这种数据和 n_mfcc=39 的数据训练网络。谁会更好,为什么?(忽略所有其他超参数)我只想知道这个参数如何影响 RNN 的理论。
个MFCC是系数DCT一个的梅尔-scaled(非线性)光谱。换句话说,它们捕获了梅尔谱中周期性变化的幅度。在音乐分析中,这通常用于描述一段音乐的音色。系数的指数越低,频率(梅尔谱中的周期性变化)就越低。
简单地说:较低的指数/系数通常更重要。
JPEG 图像文件格式和 MP3 的情况也是如此——较高的 DCT 系数被丢弃,因为它们描述了通常不被认为重要的较高频率。
所以更少的系数意味着你可以使用更小的 RNN。但是,您将丢失包含在这些较高频率中的信息(如上所述,通常认为这些频率并不重要)。这是一个收益递减的游戏:在某些时候,更多的系数意味着更多的投入,但不一定意味着更好的结果。
AFAIK,在音乐信息检索(MIR)中,通常使用前 13 个系数。但我也看到过使用前 20 个的论文。
在用于 MIR 之前,MFCC 用于语音识别。
见B. 洛根。“用于音乐建模的 Mel 频率倒谱系数。” 在国际音乐信息检索研讨会 (ISMIR 2000),2000 年。
或者McFee、Brian 和 Gert RG Lankriet。“主观艺术家相似性的异构嵌入。” ISMIR 2009, 2009。
| 归档时间: |
|
| 查看次数: |
1143 次 |
| 最近记录: |