看起来谷歌已经从Google即时版为第三方应用程序提供了离线语音识别功能.它被名为Utter的应用程序使用.
有没有人看过如何使用这个离线语音rec进行简单的语音命令的任何实现?您是否只使用常规的SpeechRecognizer API并自动运行?
android speech-recognition offline speech-to-text google-now
我怎么能把MP3转换成文字?
我从会议和会议中得到了一些录音记录(录音中只有一个声音,这是我的声音).我认为使用语音到文本工具转换为文本而不是简单地手工转录会更容易和在理智上更有趣.我知道有些技术,尤其是使用Asterisk和Podcast的VoIP应用程序,但它们是什么以及如何使用它们?
我正在开展一个大学项目,我正在使用语音识别.目前我正在Windows 7上开发它,我正在使用与.net一起提供的system.speech API包,我正在C#上进行.
我面临的问题是听写识别不够准确.然后每当我启动应用程序时,桌面语音识别都会自动启动.这对我来说是一个很大的麻烦.正如我所说的话已经不够清楚,并且冲突的识别被解释为正在执行诸如应用程序切换最小化之类的命令和动作.
这是我的应用程序的一个关键部分,我恳请你为我提出任何好的语音API,除了这个微软的错误.即使它只能理解简单的听写语法也会很好.
我想知道哪里可以开始语音识别.不是图书馆或任何相当"黑盒子"的东西"而是,我想知道我在哪里可以实际制作一个简单的语音识别脚本.我做了一些搜索并发现,并不多,但我所看到的是有"声音"或音节的词典可以拼凑在一起形成文本.所以基本上我的问题是我在哪里可以开始这个?
此外,由于这有点乐观,我也可以在我的程序中使用库(现在).我看到文本库和API的一些演讲只吐出一个结果.这没关系,但这是不可能的.我当前的程序已经检查语法和输入的任何文本的所有内容,所以如果我要说,从语音到文本软件的十大结果,它可以检查每个并排除任何没有意义的文本.
在提出这个问题之前,我检查了所有与此问题相关的stackoverflow其他线程没有任何成功,所以请不要回答其他线程的链接,:)
我想保存/记录谷歌识别服务用于语音操作的音频(使用RecognizerIntent或SpeechRecognizer).
我经历了很多想法:
我几乎绝望,但我只是注意到Google Keep应用程序正在做我需要做的事情!我使用logcat稍微调试了keep应用程序,app也调用了"RecognizerIntent.ACTION_RECOGNIZE_SPEECH"(就像我们开发人员一样)来触发语音到文本.但是,如何继续保存音频?它可以成为隐藏的api吗?是谷歌"作弊":)?
谢谢您的帮助
最好的祝福
Android Dev网站提供了使用内置Google语音输入活动进行语音输入的示例.该活动显示带麦克风的预配置弹出窗口并使用其传递结果onActivityResult()
我的问题:有没有办法SpeechRecognizer直接使用该类进行语音输入而不显示固定活动?这将让我构建自己的语音输入活动.
我正在研究android中的语音输入.我用过的样本
在Xperia X10上进行测试时,我得到了"现在说话"对话框,但在我输入一些声音之前,它就会关闭.我正在尝试实施语音搜索,例如,如果语音输入是詹姆斯邦德,那么我想填写名字中的詹姆斯编辑文本和姓氏编辑文本中的邦德.这将在数据库中搜索名称.但在尝试使用API Demo示例时,它无法正常工作.可能是我错过了什么.是否有人发布任何声音输入样本而不是ApiDemos样本.
提前致谢.
我正在开发一个网站,我想帮助盲人通过语音使用它,所以我将使用:
我已经有了一些文本到语音的JavaScript库(比如speak.js),但现在我需要一个很好的语音到文本.有一些解决方案用于此目的(如speechapi),但他们使用Java Applets或Flash,我想只依赖JavaScript,以避免插件.
我正在尝试使用x-webkit-speech和Google Chrome进行HTML5的语音输入,这很好,但你需要点击一个图标(盲人不能很好地使用鼠标).使用x-webkit-speech按键是否可行?你知道任何替代API(JavaScript)吗?
谢谢!
javascript html5 speech-recognition google-chrome speech-to-text
我想从网络流式传输音频,然后使用python google-cloud-speechAPI 将其转换为文本。我已经将其集成到我的Django频道代码中。
对于前端,我直接复制了此代码,而后端则具有此代码(请参见下文)。现在,问题来了,我没有收到任何异常或错误,但是我没有从Google API得到任何结果...
我试过的
process函数循环中,控件永远不会到达循环内部。我在这里遍历了Java代码,并试图理解它...我已经在本地设置了Java代码并对其进行了调试。我了解的一件事是在Java代码中,该方法onWebSocketBinary正在接收一个整数数组,从前端我们像这样发送
socket.send(Int16Array.from(floatSamples.map(function (n) {return n * MAX_INT;})));
Run Code Online (Sandbox Code Playgroud)在Java中,它们将转换为字节串,然后发送给Google。在django中,我放了调试点,并注意到我正在以二进制字符串形式获取数据...因此,我觉得我不需要执行任何操作...但是,我尝试了几种方法将其转换为整数数组,但是没有用,因为google期望以字节为单位...(您可以在下面看到带注释的代码)
谁能帮我???
Django代码:
import json
from channels.generic.websocket import WebsocketConsumer
# Imports the Google Cloud client library
from google.cloud import speech
from google.cloud.speech import enums
from google.cloud.speech import types
# Instantiates a client
client = speech.SpeechClient()
language_code = "en-US"
streaming_config = None
class SpeechToTextConsumer(WebsocketConsumer):
def connect(self):
self.accept()
def disconnect(self, close_code):
pass …Run Code Online (Sandbox Code Playgroud) django speech-to-text google-speech-api django-channels google-cloud-speech
以下是使PowerShell发言的方法.
Add-Type -AssemblyName System.Speech
$synthesizer = New-Object -TypeName System.Speech.Synthesis.SpeechSynthesizer
$synthesizer.Speak('Hey, I can speak!')
Run Code Online (Sandbox Code Playgroud)
其实我想反对.如果我说话,可以将powershell转换成字母.
如果我在我的录音机中说"嘿,我可以说",它会转换成文字吗?
如果可能请指导我如何实现它?
speech-to-text ×10
android ×4
.net ×1
audio ×1
c# ×1
django ×1
google-now ×1
html5 ×1
javascript ×1
offline ×1
powershell ×1
python ×1
speech ×1