我目前正在使用getUserMedia(),仅适用于Firefox和Chrome,但它已被弃用,仅适用于https(在Chrome中).有没有其他/更好的方法来获得适用于所有平台的javascript中的语音输入?
例如,像web.whatsapp.com app这样的网站如何录制音频?getUserMedia()提示第一次用户允许录音,而Whatsapp应用程序不需要用户的许可.
在getUserMedia()我目前正在使用这个样子的:
navigator.getUserMedia(
{
"audio": {
"mandatory": {
"googEchoCancellation": "false",
"googAutoGainControl": "false",
"googNoiseSuppression": "false",
"googHighpassFilter": "false"
},
"optional": []
},
}, gotStream, function(e) {
console.log(e);
});
Run Code Online (Sandbox Code Playgroud) 我知道这是一个一般性的问题主题,但我仍然想知道C++中最快的语音识别库是什么?
目前我正在使用带有kniect的Microsoft SAPI.它工作正常并识别单词,但它的速度很慢,有时候识别单词需要1,2秒,在我的情况下,这种滞后会给用户带来很多交互问题.
我检查了kinect提供的样本,其中乌龟根据识别出的单词向右移动,但即便有点慢.
所以我想知道是否有更快的库然后sapi,可以用于像机器人使用语音识别的情况下你说"左"然后"右"但机器人继续向左移动并在1,2秒之后向右转令用户感到沮丧.
可以使用Google的语音识别API通过执行请求来获取音频文件(WAV,MP3等)的转录 http://www.google.com/speech-api/v2/recognize?...
示例:我在WAV文件中说过" 一二三五 ".谷歌API给了我这个:
{
u'alternative':
[
{u'transcript': u'12345'},
{u'transcript': u'1 2 3 4 5'},
{u'transcript': u'one two three four five'}
],
u'final': True
}
Run Code Online (Sandbox Code Playgroud)
问题:是否可以获得每个单词的时间(以秒为单位)?
用我的例子:
['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
Run Code Online (Sandbox Code Playgroud)
即,
在时间00:00:00.23和00:00:00.80之间已经说过"一个"字样,在时间00:00:01.03和00:00:01.45(以秒为单位)之间说出了"两个"字样.
PS:寻找支持除英语之外的其他语言的API,尤其是法语.
audio speech-recognition speech speech-to-text google-speech-api
我正在对录制的音频文件执行语音活动检测,以检测波形中的语音与非语音部分。
分类器的输出看起来像(突出显示的绿色区域表示语音):
我在这里面临的唯一问题是使其适用于音频输入流(例如:来自麦克风)并在规定的时间范围内进行实时分析。
我知道PyAudio可用于动态记录来自麦克风的语音,并且有几个波形、频谱、频谱图等的实时可视化示例,但找不到与以近乎实时的方式进行特征提取相关的任何内容.
是否可以将Web Speech API中的合成语音用作SourceNode内部Web Audio API的音频上下文?
我想构建一个识别语音并将其转换为发音文本的Android应用程序(即比较特殊单词和用户语音之间的真实发音或重音).我只知道可以创建语音到文本.我想转换用户说的任何单词.
有没有API可以做到这一点?如果没有,请帮助我如何实现它.
我正在尝试创建一个语音文本功能,我收到错误:
Initializer for conditional binding must have Optional type, not 'AVAudioInputNode'
guard let inputNode = audioEngine.inputNode else {
fatalError("Audio engine has no input node")
}
Run Code Online (Sandbox Code Playgroud) 我需要的是一个API /库,它允许我将.wav文件(或其他必要的媒体文件)转换为等效的文本.这样的库/ api是否存在?
我正在尝试将单词转换为语音.
直到现在我都试过这个:
<?php
$text = "Hello this is a test for voice api of google";
// Name of the MP3 file generated using the MD5 hash
$file = md5($text);
// Save the MP3 file in this folder with the .mp3 extension
$file = "audio/" . $file .".mp3";
if($file) {
echo "created";
} else {
echo "not created";
}
// If the MP3 file exists, do not create a new request
if (!file_exists($file)) {
$mp3 = file_get_contents( …Run Code Online (Sandbox Code Playgroud) 我希望创建一个具有语音到文本的应用程序.
我使用RecognizerIntent了解这种能力:http://android-developers.blogspot.com/search/label/Speech%20Input
但是 - 我不希望弹出一个新的Intent,我想在我当前的应用程序中对某些点进行分析,我不希望它弹出一些声明它正在尝试录制你的声音.
有没有人知道如何最好地做到这一点.我或许正在考虑尝试Sphinx 4 - 但我不知道这是否可以在Android上运行 - 有没有人有任何建议或经验?!
我想知道我是否可以在这里更改代码,可能不会打扰显示UI或按钮,只是进行处理:http://developer.android.com/resources/samples/ApiDemos/src/com/example/android/的API /应用程序/ VoiceRecognition.html
干杯,
speech ×10
android ×2
audio ×2
java ×2
c++ ×1
conditional ×1
diacritics ×1
getusermedia ×1
html ×1
javascript ×1
kinect ×1
optional ×1
php ×1
pyaudio ×1
python ×1
sapi ×1
text ×1
xcode ×1