有没有适合 Linux 的体面的语音识别软件？

Question

有没有适合 Linux 的体面的语音识别软件？

Fra*_*urt 84 software-rec speech-recognition

问题的简短版本：我正在寻找一种在 Linux 上运行并且具有不错的准确性和可用性的语音识别软件。任何许可证和价格都可以。它不应该仅限于语音命令，因为我希望能够口述文本。

更多细节：

我不满意地尝试了以下内容：

CMU狮身人面像
语音控制
耳朵
尤利乌斯
Kaldi（例如，Kaldi GStreamer 服务器）
IBM ViaVoice（曾经在 Linux 上运行，但多年前停产）
NICO ANN 工具包
开明演讲
RWTH ASR
喊
silvius（建立在 Kaldi 语音识别工具包上）
西蒙倾听
ViaVoice / Xvoice
Wine + Dragon NaturallySpeaking + NatLink +蜻蜓+ 豆娘
https://github.com/DragonComputer/Dragonfire：只接受语音命令

上述所有原生 Linux 解决方案的准确性和可用性都很差（或者一些不允许自由文本听写而只允许语音命令）。我所说的准确度差是指准确度远低于我在下面提到的其他平台的语音识别软件的准确度。至于 Wine + Dragon NaturallySpeaking，根据我的经验，它一直崩溃，不幸的是，我似乎并不是唯一一个遇到此类问题的人。

在 Microsoft Windows 上，我使用 Dragon NaturallySpeaking，在 Apple Mac OS XI 上使用 Apple Dictation 和 DragonDictate，在 Android 上我使用 Google 语音识别，在 iOS 上我使用内置的 Apple 语音识别。

百度研究昨天发布了其语音识别库的代码，该库使用使用Torch 实现的连接主义时间分类。Gigaom 的基准测试令人鼓舞，如下表所示，但我不知道有什么好的包装器可以使其在没有相当多的编码（和大量训练数据集）的情况下可用：

系统清洁 (94) 嘈杂 (82) 综合 (176)

苹果听写 14.24 43.76 26.73

必应语音 11.73 36.12 22.05

谷歌API 6.64 30.47 16.72

机智 7.94 35.06 19.41

深度演讲 6.56 19.06 11.85

表 4：对原始音频评估的 3 个系统的结果 (%WER)。所有系统仅根据所有系统给出的预测对话语进行评分。每个数据集旁边括号中的数字，例如 Clean (94)，是评分的话语数。

存在一些非常alpha的开源项目：

https://github.com/mozilla/DeepSpeech（Mozilla的 Vaani 项目的一部分：http ://vaani.io ( mirror )）
https://github.com/pannous/tensorflow-speech-recognition
Vox，一个使用 Dragon NaturallySpeaking 控制 Linux 系统的系统：https : //github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo（由 Google 发布，在 Interspeech 2018 中提及）

我也知道这种跟踪艺术状态和语音识别的最新成果（参考书目）的尝试。以及现有语音识别 API 的这一基准。

我知道 Aenea，它允许在一台计算机上通过 Dragonfly 进行语音识别以将事件发送到另一台计算机，但它有一些延迟成本：

我也知道这两个探讨 Linux 语音识别选项的演讲：

2016 - 第十一希望：使用开源语音识别进行语音编码（David Williams-King）
2014 - Pycon：使用 Python 进行语音编码（Tavis Rudd）

Answer 1

ide*_*n42 28

尝试nerd-dictation，这是访问 VOSK-API 的简单方法，VOSK-API 是一个高质量的离线、开源语音到文本引擎，可与 X11 和 Wayland 配合使用。

请参阅演示视频。

完全公开，我找不到任何适合我的用例的解决方案，所以我编写了这个小实用程序来解决我自己的问题。

Answer 2

sho*_*ner 22

现在我正在尝试在我的 android 智能手机上结合使用 KDE 连接和谷歌语音识别。

KDE connect 允许您将您的 android 设备用作 Linux 计算机的输入设备（还有一些其他功能）。您需要在您的智能手机/平板电脑上安装来自 Google Play 商店的 KDE connect 应用程序，并在您的 Linux 计算机上安装 kdeconnect 和 indicator-kdeconnect。对于 Ubuntu 系统，安装过程如下：

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

系统	清洁 (94)	嘈杂 (82)	综合 (176)
苹果听写	14.24	43.76	26.73
必应语音	11.73	36.12	22.05
谷歌API	6.64	30.47	16.72
机智	7.94	35.06	19.41
深度演讲	6.56	19.06	11.85

尺寸	参数	纯英文型号	多语言模型	所需显存	相对速度
微小的	39米	`tiny.en`	`tiny`	〜1GB	〜32x
根据	74米	`base.en`	`base`	〜1GB	〜16x
小的	244米	`small.en`	`small`	〜2GB	〜6x
中等的	769米	`medium.en`	`medium`	〜5GB	〜2x
大的	1550米	不适用	`large`	〜10GB	1x

归档时间：	9 年，11 月前
查看次数：	60054 次
最近记录：	4 年，6 月前