标签: kaldi

我可以信任哪种工具？

我似乎不得不确定哪些工具可以信任......

我一直在测试的工具是Librosa和Kaldi,用于创建数据集,用于绘制音频文件的40个滤波器组能量的可视化.

使用kaldi中的这些配置提取滤波器组能量.

fbank.conf

--htk-compat=false
--window-type=hamming
--sample-frequency=16000
--num-mel-bins=40
--use-log-fbank=true

Run Code Online (Sandbox Code Playgroud)

使用librosa绘图绘制提取的数据.Librosa利用matplotlib pcolormesh,这意味着不应该有任何区别,除了librosa提供更容易使用的API.

print static.shape
print type(static)
print np.min(static)
print np.max(static)
fig = plt.figure()
librosa.display.specshow(static.T,sr=16000,x_axis='frames',y_axis='mel',hop_length=160,cmap=cm.jet)
#plt.axis('off')
plt.title("log mel power spectrum of " + name)
plt.colorbar(format='%+02.0f dB')
plt.tight_layout()
plt.savefig(plot+"/"+name+"_plot_static_conv.png")
plt.show()

Run Code Online (Sandbox Code Playgroud)

输出:

(474, 40)
<type 'numpy.ndarray'>
-1.828067
22.70058
Got bus address:  "unix:abstract=/tmp/dbus-aYbBS1JWyw,guid=17dd413abcda54272e1d93d159174cdf" 
Connected to accessibility bus at:  "unix:abstract=/tmp/dbus-aYbBS1JWyw,guid=17dd413abcda54272e1d93d159174cdf" 
Registered DEC:  true 
Registered event listener change listener:  true

Run Code Online (Sandbox Code Playgroud)

在Librosa中创建的类似情节如下:

audio_path="../../../../Dropbox/SI1392.wav"
#audio_path = librosa.util.example_audio_file()
print "Example …

Run Code Online (Sandbox Code Playgroud)

python plot matplotlib librosa kaldi

I a*_*Fat

2017 05-18

6
推荐指数

1
解决办法

504
查看次数

可以在Google Colab上安装Kaldi吗

我想在一个使用 Kaldi ASR 的研究项目中使用 Google Colab。可以安装吗？安装后在哪里可以找到 Kaldi 文件？

kaldi google-colaboratory

Mah*_*her

lucky-day

5
推荐指数

1
解决办法

2926
查看次数

Kaldi 中的法语支持

我正在研究 Kaldi，但其网页上没有有关其支持转换的语言的信息。我可以使用 Kaldi 进行法语语音到文本的转换吗？

我需要开发一个离线法语学习应用程序。我尝试过 PocketSphinx 但准确性很差。发现的建议是使用您自己的数据训练模型以提高其准确性。我的假设是，用语法来训练完整的法语将是困难且耗时的。

python-3.x kaldi

Sum*_*ise

lucky-day

3
推荐指数

1
解决办法

1631
查看次数

Kaldi：qsub 的输出是：qsub：在尝试运行 Common Voice 配方时非法 -c 值“”

我正在尝试kaldi/egs/commonvoice/s5/run.sh在我的计算机上（即，不在集群上）运行 Kaldi 的 Common Voice 配方 ( )。它因错误消息而崩溃Output of qsub was: qsub: illegal -c value ""。可能是什么问题？

具体来说，这里是整个错误堆栈：

[...]
Succeeded in formatting LM: 'data/local/lm.gz'
steps/make_mfcc.sh --cmd queue.pl --mem 2G --nj 20 data/valid_train exp/make_mfcc/valid_train mfcc
utils/validate_data_dir.sh: Successfully validated data-directory data/valid_train
steps/make_mfcc.sh: [info]: no segments file exists: assuming wav.scp indexed by utterance.
queue.pl: Error submitting jobs to queue (return status was 512)
queue log file is exp/make_mfcc/valid_train/q/make_mfcc_valid_train.log, command was qsub -v PATH -cwd -S /bin/bash -j y -l arch=*64* …

Run Code Online (Sandbox Code Playgroud)

speech-recognition qsub kaldi

Fra*_*urt

2018 07-02

2
推荐指数

1
解决办法

1514
查看次数