Android上的实时呼叫转录

Question

Android上的实时呼叫转录

Lor*_*eld 5 android disability speech-to-text

我是一位患有听力障碍的Android开发人员，我目前正在探索使用Android中的Speech Recognizer API对文本应用程序进行语音演讲的选项。隐藏字幕的电话和Innocaption在我的祖国不可用。潜在的应用可能类似于电话通话中的字幕。

https://developer.android.com/reference/android/speech/SpeechRecognizer.html

该API用于捕获语音命令，而不用于实时实时转录。我什至可以将其实现为服务，但在交付结果或部分结果后，我经常需要重新启动它，这在会话设置中是不可行的（重新启动服务时单词会丢失）。

请注意，我不需要此应用程序具有100％的准确性。许多有听力障碍的人发现在对话中提供一些背景信息对他们有帮助。因此，我实际上不需要评论这将如何不准确。

有没有办法以连续模式实现语音识别器？我可以创建一个textview，当从服务中返回新文本时，它会不断自我更新。如果我不应该使用该API，那么有什么建议吗？我测试了CMUSphinx，但发现它过于依赖短语/句子块，因此不太可能适用于我想到的那种应用程序。

Answer 1

Mar*_*hon 5

我是一位聋哑的软件开发人员，所以我可以深入了解。我一直在监视语音到文本API的技术水平，并且这些API现在变得“足够好”，可以为CERTAIN类型提供无操作员中继/字幕服务与在安静环境中使用电话的人进行的电话交谈。例如，通过Apple Siri实时转录（iOS 8），我配偶的声音获得了98％的转录准确性。

通过将声音从一个电话路由到第二个iPhone，然后按一下麦克风按钮（弹出键盘），我便能够对电话进行字幕，并成功地以每分钟250个单词的准确度为95％的电话会话添加了字幕（比Sprint字幕电话和Hamilton字幕电话），至少要截止到1分钟为止。

因此，我宣布基于计算机的语音识别非常适合与家人（在安静的环境中经常打来的电话）打来的电话，在这里您至少可以指导他们移至安静的地方，以使字幕正常工作（使用> 95％的准确性）。自从iOS 8发布以来，我们确实需要此功能，因此我们无需依赖依赖运算符或字幕电话。Sprint字幕电话在快速语音通话中严重滞后，而Apple Siri保持了同步，因此我可以使用两台iOS设备的Apple Siri“实时字幕电话”设置进行更自然的电话对话。

一些手机以高清方式传输音频，因此在两部iPhone之间可以很好地工作（将iPhone扬声器通过管道传输到另一部以iOS8连续模式运行的iPhone的Siri中）。假设您使用的是G.722.2（AMR-WB），就像在支持高清音频电话标准的同一运营商上运行两部iPhone时一样。当通过Siri进行管道传输时，它可以完美工作-大致与在电话前使用Siri相同，并且具有相同的人声（假设另一端在安静的环境中对着电话讲话）。

Google和Apple需要开放语音语音文本API来辅助使用辅助应用程序，因为无人操作电话转录现在终于可以实现了，至少在打电话给家人时（好声音，并且在接听电话时要处于安静的环境中）。在这种情况下，也需要删除连续的识别时间限制。

Answer 2

Nik*_*rev 1

无论如何，Google 不会使用电话质量的音频，您需要自己使用 CMUSphinx 来开发字幕服务。

您可能没有正确配置 CMUSphinx，对于大词汇量转录来说应该没问题，您唯一应该关心的是使用电话 8khz 模型，而不是宽带模型和通用语言模型。

为了获得最佳准确性，可能值得将处理转移到服务器上，您可以设置 PBX 来拨打电话并转录音频，而不是希望在有限的设备上执行某些操作。

归档时间：	11 年，4 月前
查看次数：	3349 次
最近记录：	10 年前