我正在玩Google语音识别API
成功入门后我试图理解并在第一个例子中进行了一些更改,但我不知道"gs"协议是什么以及如何将其设置为使用我自己的音频文件.
同步request.json
{
  "config": {
      "encoding":"FLAC",
      "sample_rate": 16000
  },
  "audio": {
      "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
  }
}
我试图将gs协议更改为http协议但不起作用.
提前致谢.
我正在开发一个基于语音识别的Android应用程序.
直到今天,一切都工作得很好并且及时,例如,我会开始我的语音识别器,说话,并且在最多1或2秒内,应用程序收到结果.
这是一个非常可接受的用户体验.
那么今天我现在必须等待十秒或更长时间才能获得识别结果.
我尝试过设置以下EXTRAS,其中没有一个会产生任何明显的区别
RecognizerIntent.EXTRA_SPEECH_INPUT_POSSIBLY_COMPLETE_SILENCE_LENGTH_MILLIS
RecognizerIntent.EXTRA_SPEECH_INPUT_COMPLETE_SILENCE_LENGTH_MILLIS
RecognizerIntent.EXTRA_SPEECH_INPUT_MINIMUM_LENGTH_MILLIS
我一直在不断更改我的应用程序,但这些更改都与语音识别器无关.
我可以采用任何方法来缩短语音识别器切换onBeginningOfSpeech()到的时间onResults()吗?
这是一个需要多长时间的例子
07-01 17:50:20.839 24877-24877/com.voice I/Voice: onReadyForSpeech()
07-01 17:50:21.614 24877-24877/com.voice I/Voice: onBeginningOfSpeech()
07-01 17:50:38.163 24877-24877/com.voice I/Voice: onEndOfSpeech()
android speech-recognition voice-recognition google-voice-search
我正在开展一个大学项目,我正在使用语音识别.目前我正在Windows 7上开发它,我正在使用与.net一起提供的system.speech API包,我正在C#上进行.
我面临的问题是听写识别不够准确.然后每当我启动应用程序时,桌面语音识别都会自动启动.这对我来说是一个很大的麻烦.正如我所说的话已经不够清楚,并且冲突的识别被解释为正在执行诸如应用程序切换最小化之类的命令和动作.
这是我的应用程序的一个关键部分,我恳请你为我提出任何好的语音API,除了这个微软的错误.即使它只能理解简单的听写语法也会很好.
有谁知道如果在IOS 5或IOS 6 SDK中可以访问Siri中使用的"语音到文本"和"文本到语音"api?
我研究过但在文档中找不到任何关于它的内容,所以如果SDK中没有包含这些内容,那么市场上是否有"Siri"质量库?
在我的基于语音识别的应用程序中,我有时会收到ERROR_RECOGNIZER_BUSY.直觉上,这需要...... 重试,对吧?
问题是这个错误是非常无证的,所以很明显我有些问题可能是在该领域更有经验的人能够回答:
我们非常欢迎您经验丰富的见解.谢谢.
我现在正在处理我的项目,我即将为桌面计算机构建类似Siri的应用程序.我在想Google Speech API是否可靠且准确地用于语音识别?您能否向我推荐一下语音识别最准确的语音API?最优选的是免费的API.谢谢.
我使用以下代码在Android中启动语音识别:
PackageManager pm = getPackageManager();
List<ResolveInfo> activities = pm.queryIntentActivities(new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH), 0);
if (activities.size() == 0) {
    displayWarning("This device does not support speech recognition");
    return;
}
Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);
intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM);
startActivityForResult(intent, VOICE_RECOGNITION_REQUEST_CODE);
这很好用.但是,它似乎不接受来自使用"电话音频"配置文件配对和连接的蓝牙耳机的语音输入.
我可以使用名为SoundAbout的应用程序将"Media Audio"强制为"Bluetooth(mono)(SCO)".有了这个应用程序集,我的语音识别现在可以从我的耳机输入语音输入.
如何使用RecognizerIntent并从蓝牙耳机获取语音输入?
我在API级别16中看到有一个新的意图操作ACTION_VOICE_SEARCH_HANDS_FREE.这对我来说太新了,但这会解决我的问题吗?
我是否必须在AudioManager(就像我假设SoundAbout正在做)中使用setBluetoothScoOn()或startBluetoothSco()来路由音频输入?
是否在"音频分析"领域进行了先前的开源工作以检测人声(即尽管有一些背景噪声),确定说话者的性别,可能确定不.发言者,发言者的年龄和发言者的情绪?
我的预感是像CMU Sphinx这样的语音识别软件可能是一个很好的起点,但如果有更好的东西,它会很棒.
我有15个录音带,其中一个我认为包含了我祖母和我自己说话的旧录音.寻找合适地点的快速尝试并未将其提升.我不想听20个小时的磁带来找到它.该位置可能不在其中一个磁带的开头.大多数内容似乎分为三类 - 按总长度排列,最长的是:静音,语音广播和音乐.
我计划将所有磁带转换为数字格式,然后再次查看录制内容.显而易见的方法是在我做其他事情时在后台播放它们.这对我来说太简单了,所以:是否有任何开源库或其他代码可以让我找到,以便提高复杂性和实用性:
我更喜欢Python,Java或C.
由于我对该领域一无所知,因此未能得到答案,关于搜索词的提示将受到赞赏.
据我所知,我可以轻松地花20多个小时.
在提出这个问题之前,我检查了所有与此问题相关的stackoverflow其他线程没有任何成功,所以请不要回答其他线程的链接,:)
我想保存/记录谷歌识别服务用于语音操作的音频(使用RecognizerIntent或SpeechRecognizer).
我经历了很多想法:
我几乎绝望,但我只是注意到Google Keep应用程序正在做我需要做的事情!我使用logcat稍微调试了keep应用程序,app也调用了"RecognizerIntent.ACTION_RECOGNIZE_SPEECH"(就像我们开发人员一样)来触发语音到文本.但是,如何继续保存音频?它可以成为隐藏的api吗?是谷歌"作弊":)?
谢谢您的帮助
最好的祝福