我目前正在尝试使用 librosa 来重现使用 PRAAT 提取音频文件的 MFCC 的科学方法(深度学习)。我在语音学/声学方面经验不足,而且我在理解 PRAAT 时遇到了很多问题——所以我开始使用 librosa,它的 API 对我来说更“可访问”。
该论文的作者在 MFCC 计算中使用了汉明窗口,我尝试将该函数作为 mfcc 函数调用中的附加参数或作为字典的 **kwargs 的一部分提供:
import os
from scipy.signal import get_window
from librosa import load, get_duration
from librosa.feature import mfcc
import pandas
import tables
import matplotlib.pyplot as plt
# ...
kwargs = {"n_fft": 160, "hop_length": 80, "window": get_window("hamming", Nx=160)}
mfccs = mfcc(y=y, sr=sr, S=None, n_mfcc=12, **kwargs)
Run Code Online (Sandbox Code Playgroud)
我仍然有很多关于声学的知识,所以我不太确定这些值,但是(考虑到 API)这应该有效。在我的 Anaconda 环境中运行此命令的 Windows 计算机上,会导致以下错误:
processing 03a01Fa.wav ...
Traceback (most recent call last):
File "xxx\librosaData.py", line 37, in <module> …Run Code Online (Sandbox Code Playgroud)