Lor*_*eld 5 android disability speech-to-text
我是一位患有听力障碍的Android开发人员,我目前正在探索使用Android中的Speech Recognizer API对文本应用程序进行语音演讲的选项。隐藏字幕的电话和Innocaption在我的祖国不可用。潜在的应用可能类似于电话通话中的字幕。
https://developer.android.com/reference/android/speech/SpeechRecognizer.html
该API用于捕获语音命令,而不用于实时实时转录。我什至可以将其实现为服务,但在交付结果或部分结果后,我经常需要重新启动它,这在会话设置中是不可行的(重新启动服务时单词会丢失)。
请注意,我不需要此应用程序具有100%的准确性。许多有听力障碍的人发现在对话中提供一些背景信息对他们有帮助。因此,我实际上不需要评论这将如何不准确。
有没有办法以连续模式实现语音识别器?我可以创建一个textview,当从服务中返回新文本时,它会不断自我更新。如果我不应该使用该API,那么有什么建议吗?我测试了CMUSphinx,但发现它过于依赖短语/句子块,因此不太可能适用于我想到的那种应用程序。
我是一位聋哑的软件开发人员,所以我可以深入了解。我一直在监视语音到文本API的技术水平,并且这些API现在变得“足够好”,可以为CERTAIN类型提供无操作员中继/字幕服务与在安静环境中使用电话的人进行的电话交谈。例如,通过Apple Siri实时转录(iOS 8),我配偶的声音获得了98%的转录准确性。
通过将声音从一个电话路由到第二个iPhone,然后按一下麦克风按钮(弹出键盘),我便能够对电话进行字幕,并成功地以每分钟250个单词的准确度为95%的电话会话添加了字幕(比Sprint字幕电话和Hamilton字幕电话),至少要截止到1分钟为止。
因此,我宣布基于计算机的语音识别非常适合与家人(在安静的环境中经常打来的电话)打来的电话,在这里您至少可以指导他们移至安静的地方,以使字幕正常工作(使用> 95%的准确性)。自从iOS 8发布以来,我们确实需要此功能,因此我们无需依赖依赖运算符或字幕电话。Sprint字幕电话在快速语音通话中严重滞后,而Apple Siri保持了同步,因此我可以使用两台iOS设备的Apple Siri“实时字幕电话”设置进行更自然的电话对话。
一些手机以高清方式传输音频,因此在两部iPhone之间可以很好地工作(将iPhone扬声器通过管道传输到另一部以iOS8连续模式运行的iPhone的Siri中)。假设您使用的是G.722.2(AMR-WB),就像在支持高清音频电话标准的同一运营商上运行两部iPhone时一样。当通过Siri进行管道传输时,它可以完美工作-大致与在电话前使用Siri相同,并且具有相同的人声(假设另一端在安静的环境中对着电话讲话)。
Google和Apple需要开放语音语音文本API来辅助使用辅助应用程序,因为无人操作电话转录现在终于可以实现了,至少在打电话给家人时(好声音,并且在接听电话时要处于安静的环境中) 。在这种情况下,也需要删除连续的识别时间限制。
无论如何,Google 不会使用电话质量的音频,您需要自己使用 CMUSphinx 来开发字幕服务。
您可能没有正确配置 CMUSphinx,对于大词汇量转录来说应该没问题,您唯一应该关心的是使用电话 8khz 模型,而不是宽带模型和通用语言模型。
为了获得最佳准确性,可能值得将处理转移到服务器上,您可以设置 PBX 来拨打电话并转录音频,而不是希望在有限的设备上执行某些操作。
| 归档时间: |
|
| 查看次数: |
3349 次 |
| 最近记录: |