我似乎不得不确定哪些工具可以信任......
我一直在测试的工具是Librosa和Kaldi,用于创建数据集,用于绘制音频文件的40个滤波器组能量的可视化.
使用kaldi中的这些配置提取滤波器组能量.
fbank.conf
--htk-compat=false
--window-type=hamming
--sample-frequency=16000
--num-mel-bins=40
--use-log-fbank=true
Run Code Online (Sandbox Code Playgroud)
使用librosa绘图绘制提取的数据.Librosa利用matplotlib pcolormesh,这意味着不应该有任何区别,除了librosa提供更容易使用的API.
print static.shape
print type(static)
print np.min(static)
print np.max(static)
fig = plt.figure()
librosa.display.specshow(static.T,sr=16000,x_axis='frames',y_axis='mel',hop_length=160,cmap=cm.jet)
#plt.axis('off')
plt.title("log mel power spectrum of " + name)
plt.colorbar(format='%+02.0f dB')
plt.tight_layout()
plt.savefig(plot+"/"+name+"_plot_static_conv.png")
plt.show()
Run Code Online (Sandbox Code Playgroud)
输出:
(474, 40)
<type 'numpy.ndarray'>
-1.828067
22.70058
Got bus address: "unix:abstract=/tmp/dbus-aYbBS1JWyw,guid=17dd413abcda54272e1d93d159174cdf"
Connected to accessibility bus at: "unix:abstract=/tmp/dbus-aYbBS1JWyw,guid=17dd413abcda54272e1d93d159174cdf"
Registered DEC: true
Registered event listener change listener: true
Run Code Online (Sandbox Code Playgroud)
在Librosa中创建的类似情节如下:
audio_path="../../../../Dropbox/SI1392.wav"
#audio_path = librosa.util.example_audio_file()
print "Example …Run Code Online (Sandbox Code Playgroud) 我想在一个使用 Kaldi ASR 的研究项目中使用 Google Colab。可以安装吗?安装后在哪里可以找到 Kaldi 文件?
我正在研究 Kaldi,但其网页上没有有关其支持转换的语言的信息。我可以使用 Kaldi 进行法语语音到文本的转换吗?
我需要开发一个离线法语学习应用程序。我尝试过 PocketSphinx 但准确性很差。发现的建议是使用您自己的数据训练模型以提高其准确性。我的假设是,用语法来训练完整的法语将是困难且耗时的。
-
我正在尝试kaldi/egs/commonvoice/s5/run.sh在我的计算机上(即,不在集群上)运行 Kaldi 的 Common Voice 配方 ( )。它因错误消息而崩溃Output of qsub was: qsub: illegal -c value ""。可能是什么问题?
具体来说,这里是整个错误堆栈:
[...]
Succeeded in formatting LM: 'data/local/lm.gz'
steps/make_mfcc.sh --cmd queue.pl --mem 2G --nj 20 data/valid_train exp/make_mfcc/valid_train mfcc
utils/validate_data_dir.sh: Successfully validated data-directory data/valid_train
steps/make_mfcc.sh: [info]: no segments file exists: assuming wav.scp indexed by utterance.
queue.pl: Error submitting jobs to queue (return status was 512)
queue log file is exp/make_mfcc/valid_train/q/make_mfcc_valid_train.log, command was qsub -v PATH -cwd -S /bin/bash -j y -l arch=*64* …Run Code Online (Sandbox Code Playgroud)