标签: speech

如何在javascript中捕获音频？

我目前正在使用getUserMedia(),仅适用于Firefox和Chrome,但它已被弃用,仅适用于https(在Chrome中).有没有其他/更好的方法来获得适用于所有平台的javascript中的语音输入？

例如,像web.whatsapp.com app这样的网站如何录制音频？getUserMedia()提示第一次用户允许录音,而Whatsapp应用程序不需要用户的许可.

在getUserMedia()我目前正在使用这个样子的:

navigator.getUserMedia(
    {
        "audio": {
            "mandatory": {
                "googEchoCancellation": "false",
                "googAutoGainControl": "false",
                "googNoiseSuppression": "false",
                "googHighpassFilter": "false"
            },
            "optional": []
        },
    }, gotStream, function(e) {
        console.log(e);
    });

Run Code Online (Sandbox Code Playgroud)

javascript audio speech voice-recording getusermedia

use*_*461

2016 01-24

20
推荐指数

2
解决办法

2万
查看次数

最快的语音识别库C++

我知道这是一个一般性的问题主题,但我仍然想知道C++中最快的语音识别库是什么？

目前我正在使用带有kniect的Microsoft SAPI.它工作正常并识别单词,但它的速度很慢,有时候识别单词需要1,2秒,在我的情况下,这种滞后会给用户带来很多交互问题.

我检查了kinect提供的样本,其中乌龟根据识别出的单词向右移动,但即便有点慢.

所以我想知道是否有更快的库然后sapi,可以用于像机器人使用语音识别的情况下你说"左"然后"右"但机器人继续向左移动并在1,2秒之后向右转令用户感到沮丧.

c++ speech-recognition speech sapi kinect

Fah*_*lik

2013 04-05

19
推荐指数

1
解决办法

1万
查看次数

Google语音识别API:每个字的时间戳？

可以使用Google的语音识别API通过执行请求来获取音频文件(WAV,MP3等)的转录 http://www.google.com/speech-api/v2/recognize?...

示例:我在WAV文件中说过" 一二三五 ".谷歌API给了我这个:

{
  u'alternative':
  [
    {u'transcript': u'12345'},
    {u'transcript': u'1 2 3 4 5'},
    {u'transcript': u'one two three four five'}
  ],
  u'final': True
}

Run Code Online (Sandbox Code Playgroud)

问题:是否可以获得每个单词的时间(以秒为单位)？

用我的例子:

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.

Run Code Online (Sandbox Code Playgroud)

即,
在时间00:00:00.23和00:00:00.80之间已经说过"一个"字样,在时间00:00:01.03和00:00:01.45(以秒为单位)之间说出了"两个"字样.

PS:寻找支持除英语之外的其他语言的API,尤其是法语.

audio speech-recognition speech speech-to-text google-speech-api

Bas*_*asj

2018 03-22

17
推荐指数

3
解决办法

6040
查看次数

如何在 Python 中进行实时语音活动检测？

我正在对录制的音频文件执行语音活动检测，以检测波形中的语音与非语音部分。

分类器的输出看起来像（突出显示的绿色区域表示语音）：

我在这里面临的唯一问题是使其适用于音频输入流（例如：来自麦克风）并在规定的时间范围内进行实时分析。

我知道PyAudio可用于动态记录来自麦克风的语音，并且有几个波形、频谱、频谱图等的实时可视化示例，但找不到与以近乎实时的方式进行特征提取相关的任何内容.

python speech-recognition speech speech-to-text pyaudio

Nic*_*eli

2020 04-03

15
推荐指数

2
解决办法

1万
查看次数

Web Speech API可以与Web Audio API结合使用吗？

是否可以将Web Speech API中的合成语音用作SourceNode内部Web Audio API的音频上下文？

speech speech-synthesis web-audio-api

zya*_*zya

lucky-day

14
推荐指数

1
解决办法

2452
查看次数

将语音转换为发音的最佳方式

我想构建一个识别语音并将其转换为发音文本的Android应用程序(即比较特殊单词和用户语音之间的真实发音或重音).我只知道可以创建语音到文本.我想转换用户说的任何单词.

有没有API可以做到这一点？如果没有,请帮助我如何实现它.

android speech-recognition speech diacritics

hoj*_*ane

2015 04-07

14
推荐指数

1
解决办法

919
查看次数

(Swift)条件绑定的初始化程序必须具有Optional类型,而不是'AVAudioInputNode'

我正在尝试创建一个语音文本功能,我收到错误:

Initializer for conditional binding must have Optional type, not 'AVAudioInputNode'

guard let inputNode = audioEngine.inputNode else {
        fatalError("Audio engine has no input node")
    }

Run Code Online (Sandbox Code Playgroud)

xcode conditional speech optional avaudioengine

Nia*_*dle

lucky-day

14
推荐指数

1
解决办法

7397
查看次数

语音到文本api /库

我需要的是一个API /库,它允许我将.wav文件(或其他必要的媒体文件)转换为等效的文本.这样的库/ api是否存在？

java text speech

use*_*619

lucky-day

13
推荐指数

1
解决办法

3万
查看次数

使用Google Translate在PHP中进行文本转语音

我正在尝试将单词转换为语音.

直到现在我都试过这个:

<?php
 $text = "Hello this is a test for voice api of google";

// Name of the MP3 file generated using the MD5 hash
   $file  = md5($text);

// Save the MP3 file in this folder with the .mp3 extension 
   $file = "audio/" . $file .".mp3";
   if($file) {
     echo "created";
   } else {
     echo "not created";
   }

// If the MP3 file exists, do not create a new request
   if (!file_exists($file)) {
     $mp3 = file_get_contents( …

Run Code Online (Sandbox Code Playgroud)

html php speech text-to-speech google-text-to-speech

San*_*hra

2013 02-06

12
推荐指数

2
解决办法

2万
查看次数