在REST API的文档和教程(Google Sppech API for Node:https://cloud.google.com/nodejs/apis )中,我的问题是如何在JavaScript中使用Cloud Speech API.有人在任何页面上使用javascript?
谢谢,
蒂亚戈
javascript speech-recognition google-cloud-platform google-speech-api
我想知道在中国访问GCP是否有任何限制.
GCP是否可以在中国使用?
如果没有,为什么?
刚注意到英语美国单词不再显示正确的拼写.这之前还可以 - 现在显示英国英语拼写.下面是我找到的一些单词的列表.例如,如果我说中心 并将语言代码设置为en-US,我将得到结果作为英国英语的中心.
我使用的是Google api v2
https://www.google.com/speech-api/v2/recognize?output=json&lang=en-US&key=my_key "
词语结束-RE
以英语结尾的英国英语单词通常以美式英语结尾:
英国 和 美国
centre center
fibre fiber
litre liter
theatre theater or theatre
Run Code Online (Sandbox Code Playgroud)
尽管我将语言代码作为en-US,但返回的结果将是英式英语.这是一个常见问题或美国英语代码不再有效.任何帮助将不胜感激.
编辑
我只是注意到这个问题与ok谷歌一样即使我的输入是英文我们,我得到的答案是英文英文.这些是其他一些词
以-our结尾的单词
以-our结尾的英式英语单词通常以-or in American English结尾:
英国 和 美国
colour color
flavour flavor
humour humor
labour labor
neighbour neighbor
Run Code Online (Sandbox Code Playgroud)
英式英语中的动词可以拼写为-ize或-ise,最后拼写为-ize最后用美式英语拼写:
英国 和 美国
apologize or apologise apologize
organize or organise organize
recognize or recognise recognize
Run Code Online (Sandbox Code Playgroud)
以-yse结尾的单词
在英式英语中以动词结尾的动词总是拼写为美式英语:
英国 和 美国
analyse analyze
breathalyse breathalyze
paralyse paralyze
Run Code Online (Sandbox Code Playgroud) android speech-recognition google-api speech-to-text google-speech-api
我正在使用java为视障人士创建一个电子邮件应用程序,我在输入电子邮件和密码时遇到问题.整个应用程序都是基于语音的,我使用谷歌语音API将语音转换为文本.我一直试图让用户一次输入一个字符的用户名/密码,但问题是谷歌语音无法正确识别字符.我很高兴如果有一个其他可能的方式让一个没有视觉的用户输入用户名/密码或任何其他可能的方式通过语音识别单个字符也会有所帮助.提前致谢!
更多信息:我正在尝试登录谷歌,所以输入用户名/密码的方法是我面临的问题.
我正在使用pyaudio将我的声音录制为wav文件.我正在使用以下代码:
def voice_recorder():
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 22050
CHUNK = 1024
RECORD_SECONDS = 4
WAVE_OUTPUT_FILENAME = "first.wav"
audio = pyaudio.PyAudio()
# start Recording
stream = audio.open(format=FORMAT, channels=CHANNELS,
rate=RATE, input=True,
frames_per_buffer=CHUNK)
print "konusun..."
frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
frames.append(data)
#print "finished recording"
# stop Recording
stream.stop_stream()
stream.close()
audio.terminate()
waveFile = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
waveFile.setnchannels(CHANNELS)
waveFile.setsampwidth(audio.get_sample_size(FORMAT))
waveFile.setframerate(RATE)
waveFile.writeframes(b''.join(frames))
waveFile.close()
Run Code Online (Sandbox Code Playgroud)
我正在使用以下Google Speech API代码,它基本上将WAV文件中的语音转换为文本:https://github.com/GoogleCloudPlatform/python-docs-samples/blob/master/speech/api-client/transcribe. PY
当我尝试将由pyaudio生成的wav文件导入Google的代码时,我收到以下错误:
googleapiclient.errors.HttpError: <HttpError …Run Code Online (Sandbox Code Playgroud) 我正在尝试使用Google.Cloud.Speech.V1(Google Cloud Speech API的客户端库),我正在使用这个稍微修改过的Google示例代码版本:
public async Task<string> TranscribeSpeech(string filenameAndPath, int WAVSampleRate = 8000)
{
Environment.SetEnvironmentVariable("GOOGLE_APPLICATION_CREDENTIALS", Utils.GetHomeFolder() + @"\Google Speech API Key.json"); //for authentication
var language = WebConfigurationManager.AppSettings["GoogleSpeechFromLocale"];
var speech = SpeechClient.Create();
var response = await speech.RecognizeAsync(new RecognitionConfig()
{
Encoding = RecognitionConfig.Types.AudioEncoding.Linear16,
SampleRateHertz = WAVSampleRate,
LanguageCode = language,
}, RecognitionAudio.FromFile(filenameAndPath));
return response.Results.First().Alternatives.First().Transcript;
}
Run Code Online (Sandbox Code Playgroud)
该.Recognize()或.RecognizeAsync()方法不返回任何东西,10分钟后说:抛出异常Status(StatusCode=DeadlineExceeded,Detail="Deadline Exceeded")!.
换句话说,当我在Visual Studio中逐行调试时,代码在await之后永远不会继续,speech.RecognizeAsync()并且只是保持挂起状态,直到它在10分钟后抛出异常.
我的代码或API设置是否存在问题?
我的输入文件通常只有2-3秒长,并具有以下格式(输出ffmpeg):
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, mono, …
c# google-app-engine speech-recognition google-cloud-platform google-speech-api
我正在尝试在Android项目中使用Google的Speech API.示例项目有效.我在自己的Android应用程序中使用它时遇到了麻烦.
build.gradle(模块:app):
apply plugin: 'com.android.application'
apply plugin: 'com.google.protobuf'
ext {
supportLibraryVersion = '25.4.0'
grpcVersion = '1.4.0'
}
android {
compileSdkVersion 25
buildToolsVersion "25.0.3"
defaultConfig {
applicationId "ApplicationID"
minSdkVersion 16
targetSdkVersion 24
// compileOptions {
// sourceCompatibility JavaVersion.VERSION_1_5
// targetCompatibility JavaVersion.VERSION_1_5
// }
}
signingConfigs {
release {
storeFile file(project.properties.storeFile)
storePassword project.properties.storePassword
keyAlias project.properties.keyAlias
keyPassword project.properties.keyPassword
}
}
productFlavors {
dev {
// Minimum version with platform multi-dex support
minSdkVersion 21
}
prod {
// Minimum version that …Run Code Online (Sandbox Code Playgroud) java android google-cloud-platform google-speech-api google-cloud-speech
我正在尝试设置服务器以使用 接收来自客户端浏览器的音频SocketIO,然后通过 Google Speech-to-Text 对其进行处理,最后将文本回复给客户端。
最初和理想情况下,我想设置得有点像此页面上的工具:https : //cloud.google.com/speech-to-text/
我尝试使用getUserMedia和流式传输它SocketIO-Stream,但我不知道如何“管道” MediaStream。
相反,现在我决定MediaRecorder在客户端使用,然后将数据作为 blob 一起发送(见本示例)。
然后我申请toString('base64')blob 并在 blob 上调用 google-cloud/speech client.recognize()。
客户端(我正在使用 VueJS):
new Vue({
el: '#app',
data: function () {
return ({
msgs: [],
socket: null,
recorder: null,
: []
})
},
mounted: function () {
this.socket = io.connect('localhost:3000/user');
console.log('Connected!')
this.socket.on('text', function (text) {
this.msgs.push(text)
})
},
methods: {
startRecording: function () {
if (this.recorder && …Run Code Online (Sandbox Code Playgroud) audio-streaming node.js socket.io getusermedia google-speech-api
当我使用Google语音来发送api或google云语音解决方案时,保持了什么级别的数据隐私.我想知道这一点,因为我正在开发一个将音频文件转换为文本的应用程序,这些文件可能包含用户敏感数据.
使用Go,我正在使用RTMP流,将其转码为FLAC(使用ffmpeg)并尝试流式传输到Google的Speech API以转录音频.但是,我EOF在发送数据时不断收到错误.我在文档中找不到有关此错误的任何信息,因此我不确定是什么导致它.
我将收到的数据分块为3s片段(长度不相关,只要它小于流识别请求的最大长度).
这是我的代码的核心:
func main() {
done := make(chan os.Signal)
received := make(chan []byte)
go receive(received)
go transcribe(received)
signal.Notify(done, os.Interrupt, syscall.SIGTERM)
select {
case <-done:
os.Exit(0)
}
}
func receive(received chan<- []byte) {
var b bytes.Buffer
stdout := bufio.NewWriter(&b)
cmd := exec.Command("ffmpeg", "-i", "rtmp://127.0.0.1:1935/live/key", "-f", "flac", "-ar", "16000", "-")
cmd.Stdout = stdout
if err := cmd.Start(); err != nil {
log.Fatal(err)
}
duration, _ := time.ParseDuration("3s")
ticker := time.NewTicker(duration)
for {
select {
case <-ticker.C:
stdout.Flush()
log.Printf("Received …Run Code Online (Sandbox Code Playgroud) android ×2
java ×2
blind ×1
c# ×1
ffmpeg ×1
getusermedia ×1
go ×1
google-api ×1
javascript ×1
node.js ×1
pyaudio ×1
python ×1
socket.io ×1
wav ×1