我有一个PHP Web应用程序,我正在寻找一个开源,高精度的语音到文本识别实现,它将采用语音命令打开用户的网页.示例:" Make Sales "(这将打开Create Sales PHP页面)," Make Purchase order "," Open END-OF-DAY reports "等.
我的问题:
我想知道我们是否可以使用Mozilla DeepSpeech从Firefox浏览器中获取.wav音频并将语音返回文本.如果是的话,使用话筒从Firefox录制语音的流量是什么?使用DeepSpeech引擎转换文本?
如何制作类似于OK-GOOGLE的唤醒/启动呼叫,它将准备好侦听命令?
php speech-recognition speech-to-text webspeech-api mozilla-deepspeech
我想在我的 Linux 22.04 系统上使用 Mozilla 的 DeepSpeech,请访问以下网站:
https://deepspeech.readthedocs.io/en/r0.9/?badge=latest
Run Code Online (Sandbox Code Playgroud)
在最开始的那一行,
pip3 install deepspeech
Run Code Online (Sandbox Code Playgroud)
我收到这个错误:
pip3 install deepspeech
Run Code Online (Sandbox Code Playgroud)
我上网并遵循了所有方法,例如升级 pip3、使用 pip 而不是 pip3。我无法解决这个问题。
这个网站:
ERROR: Could not find a version that satisfies the requirement deepspeech (from versions: none)
ERROR: No matching distribution found for deepspeech
Run Code Online (Sandbox Code Playgroud)
建议使用存档。我不明白在这一步我应该归档哪个存储库。
如果你能帮助我,那真是太好了。
我收到的错误是:
FileNotFoundError: [Errno 2] SoX not found, use 16000hz files or install it: 系统找不到指定的文件
我的音频文件来自 mp4 视频文件,然后从 VLC 转换为 WAV 文件。默认情况下采样率为 8000 Hz,看来 DeepSpeech 需要 16kHz 文件,因此需要 SoX 插件。
我运行了 pip install SoX 和pip install --upgrade SoX.
要求已满足:SoX 已e:\downloads\deep speech\lib\site-packages (1.4.1)
满足要求:e:\downloads\deeppeech\lib\site-packages 中的 numpy>=1.9.0 (来自 SoX) (1.21.4)
所以它就在这里。然后,我将 E:\Downloads\Deep Speech\Lib\site-packages 添加到 Windows 上的系统环境变量中,以防万一。总的来说,我对 Python 很陌生,并且在这里遇到了困难。
有人可以帮我吗?
我想使用我录制的音频样本在 Mozilla TTS 中创建自定义语音,但不知道如何开始。Mozilla TTS 项目有文档和教程,但我在将这些部分放在一起时遇到了麻烦——似乎缺少一些初学者需要知道的基本信息。
我有一些问题:
metadata.csv文件——我需要在那个文件中放入什么?我在配置文件中自定义了什么?scale_stats.npy文件——我如何生成它?