标签: mozilla-deepspeech

如何将Mozilla DeepSpeech实现到PHP Web应用程序中以转换语音到文本?

我有一个PHP Web应用程序,我正在寻找一个开源,高精度的语音到文本识别实现,它将采用语音命令打开用户的网页.示例:" Make Sales "(这将打开Create Sales PHP页面)," Make Purchase order "," Open END-OF-DAY reports "等.

我的问题:

我想知道我们是否可以使用Mozilla DeepSpeechFirefox浏览器中获取.wav音频并将语音返回文本.如果是的话,使用话筒从Firefox录制语音的流量是什么?使用DeepSpeech引擎转换文本?

如何制作类似于OK-GOOGLE的唤醒/启动呼叫,它将准备好侦听命令?

php speech-recognition speech-to-text webspeech-api mozilla-deepspeech

10
推荐指数
1
解决办法
390
查看次数

无法安装python的deepspeech

我想在我的 Linux 22.04 系统上使用 Mozilla 的 DeepSpeech,请访问以下网站:

https://deepspeech.readthedocs.io/en/r0.9/?badge=latest 
Run Code Online (Sandbox Code Playgroud)

在最开始的那一行,

pip3 install deepspeech
Run Code Online (Sandbox Code Playgroud)

我收到这个错误:

pip3 install deepspeech
Run Code Online (Sandbox Code Playgroud)

我上网并遵循了所有方法,例如升级 pip3、使用 pip 而不是 pip3。我无法解决这个问题。

这个网站:

ERROR: Could not find a version that satisfies the requirement deepspeech (from versions: none)
ERROR: No matching distribution found for deepspeech
Run Code Online (Sandbox Code Playgroud)

建议使用存档。我不明白在这一步我应该归档哪个存储库。

如果你能帮助我,那真是太好了。

python pip mozilla-deepspeech

7
推荐指数
1
解决办法
7505
查看次数

尝试让 DeepSpeech 正常工作。即使我用 pip 安装了 SoX 也没有找到?

我收到的错误是:

FileNotFoundError: [Errno 2] SoX not found, use 16000hz files or install it: 系统找不到指定的文件

我的音频文件来自 mp4 视频文件,然后从 VLC 转换为 WAV 文件。默认情况下采样率为 8000 Hz,看来 DeepSpeech 需要 16kHz 文件,因此需要 SoX 插件。

我运行了 pip install SoX 和pip install --upgrade SoX.
要求已满足:SoX 已e:\downloads\deep speech\lib\site-packages (1.4.1)
满足要求:e:\downloads\deeppeech\lib\site-packages 中的 numpy>=1.9.0 (来自 SoX) (1.21.4)
所以它就在这里。然后,我将 E:\Downloads\Deep Speech\Lib\site-packages 添加到 Windows 上的系统环境变量中,以防万一。总的来说,我对 Python 很陌生,并且在这里遇到了困难。

有人可以帮我吗?

python mozilla-deepspeech

4
推荐指数
1
解决办法
2823
查看次数

如何在 Ubuntu 20.04 上开始使用 Mozilla TTS 训练自定义语音模型?

我想使用我录制的音频样本在 Mozilla TTS 中创建自定义语音,但不知道如何开始。Mozilla TTS 项目有文档和教程,但我在将这些部分放在一起时遇到了麻烦——似乎缺少一些初学者需要知道的基本信息。

我有一些问题:

  1. 我看到 Mozilla TTS 有一个 Docker 映像,但它的文档涵盖了创建语音,但没有提到培训。我可以使用 Docker 镜像进行训练吗?
  2. 如果我不能使用 Docker 镜像进行训练,我如何使用 Python 3 获得在我的系统上运行的 Mozilla TTS 的功能副本?我已尝试按照项目提供的命令进行操作,但出现依赖项错误、版本冲突或关于没有足够权限安装软件包的错误。
  3. 我需要什么信息来训练模型?我需要什么音频格式?我看到我需要一个metadata.csv文件——我需要在那个文件中放入什么?我在配置文件中自定义了什么?
  4. 大多数配置引用一个scale_stats.npy文件——我如何生成它?
  5. 我如何进行培训?

audio text-to-speech sox mozilla-deepspeech

3
推荐指数
1
解决办法
2076
查看次数