标签: google-cloud-speech

如何通过 Google Cloud Pub/Sub API 接收长时间运行的操作结果

在 Google Cloud API 中启动长时间运行的操作时,该服务可能会返回一个具有“操作”形状的对象。然后可以通过此对象轮询操作的状态,并在完成时获得结果。

我想避免为这些结果设置我自己的轮询过程,我希望可以利用 Google Cloud Pub/Sub 服务来提供帮助。我的希望来自阅读文档中的这一行:

(强调)

...客户端可以使用该接口通过轮询操作资源异步接收真实响应,或者将操作资源传递给另一个API(例如Google Cloud Pub/Sub API)以接收响应。...

是否可以使用 Google Cloud Pub/Sub API 来接收长时间运行的操作完成事件的通知?我该怎么做呢?

我无法在任何地方找到此概念的任何进一步参考或示例使用。也许我误解了该文档行?

干杯

google-app-engine google-cloud-platform google-cloud-pubsub google-cloud-speech

8
推荐指数
1
解决办法
1154
查看次数

Google Cloud 语音转文本(MP3 转文本)

我正在使用 Google Cloud Platform Speech-to-Text API 试用帐户服务。我无法从音频文件中获取文本。我不知道比特率 128kbps 的 MP3 文件应该使用什么确切的编码和采样率 Hertz。我尝试了各种选项,但没有得到转录。

const speech = require('@google-cloud/speech');

const config = {
  encoding: 'LINEAR16',  //AMR, AMR_WB, LINEAR16(for wav)
  sampleRateHertz: 16000,  //16000 giving blank result.
  languageCode: 'en-US'
};
Run Code Online (Sandbox Code Playgroud)

mp3 speech-to-text google-cloud-speech

7
推荐指数
2
解决办法
1万
查看次数

有没有一种方法可以使用Google Cloud Speech生成SRT文件(或类似文件)?

为了为视频生成字幕,我将其转换为音频文件,并使用了Cloud Speech-to-Text。它的工作原理,但它只能产生改编,而我需要的是一个*.srt/ *.vtt/类似的文件。

我需要的是YouTube要做的:生成字幕并将其与视频同步,就像字幕格式一样,即:字幕应带有字幕的出现时间。

尽管我可以将它们上传到YouTube,然后下载其自动生成的字幕,但这似乎不太正确。

有没有一种方法可以使用Google Cloud Speech生成SRT文件(或类似文件)?

google-cloud-speech

7
推荐指数
2
解决办法
1951
查看次数

需要帮助 Speech-to-text,重试次数过多总是失败

我使用 google 语音转文本 API 从音频中获取字幕,但是当音频太长时,通常超过 60 分钟,重试次数过多会失败。它说:google.api_core.exceptions.GoogleAPICallError: None Too many重试,放弃。

有人能帮我吗 ??

我试过很多次,当音频文件短于60分钟左右时,就可以了。

client = speech.SpeechClient()

# Loads audio into memory.
audio = types.RecognitionAudio(uri=gcs_uri)
config = types.RecognitionConfig(
    encoding=enums.RecognitionConfig.AudioEncoding.OGG_OPUS,
    sample_rate_hertz=48000,
    language_code='en-US',
    enable_word_time_offsets=True,
    enable_automatic_punctuation=True)

# Detects speech in the audio file
operation = client.long_running_recognize(config, audio)
print('Waiting for operation to complete...')
# Get the feedback from Google Cloud API
operation.add_done_callback(callback)
time.sleep(30)
#metadata = operation.metadata
# Every 30 seconds to get back one response
percentile(operation, 30)

response = operation.result(timeout=None)
Run Code Online (Sandbox Code Playgroud)

google-cloud-speech

7
推荐指数
1
解决办法
419
查看次数

Google Cloud Speech 使用自定义词汇

我想使用 Google Cloud Speech 来识别特定领域(医疗保健)中的语音。我知道它已经允许向识别器的词汇表中添加额外的单词(单词提示),但这必须在每次 API 调用时完成。您知道是否可以通过先验创建您自己的自定义词汇表来单独完成此操作?

google-cloud-speech

6
推荐指数
1
解决办法
2398
查看次数

Google语音API超时时间

我正在尝试使用语音 API 客户端 API 将音频文件转换为文本。

到目前为止,我已经成功转换了一个短音频剪辑,但现在使用一个较长的文件(10 分钟),我收到此错误:

Retry total timeout exceeded before anyresponse was received
Run Code Online (Sandbox Code Playgroud)

我在文档中读到,对于异步调用,每次调用的最大分钟数是 60 分钟,并且我已将文件上传到 Google Cloud Storage,因为超过 1 分钟的文件需要它。

所以我真的不明白为什么我会收到这个错误,有什么帮助吗?

timeout node.js google-speech-api google-cloud-speech

6
推荐指数
1
解决办法
3526
查看次数

使用 Tensorflow Serving 进行双向流式传输

我有一个模型,它接受任意长度的数据流并执行分类。我使用 Tensorflow Serving 监听 gRPC 请求并对经过训练的模型执行分类。

\n\n

Google Cloud Speech API 具有“流式语音识别”功能,该功能在使用 gRPC 请求时可用,该功能“允许您将音频流式传输到 Cloud Speech API,并在音频播放时实时接收语音识别结果流”。处理”。

\n\n

我相信这是可能的,因为gRPC 文档中描述了双向流 RPC ,其中“服务器和客户端可以 \xe2\x80\x9cping-pong\xe2\x80\x9d:服务器收到请求,然后发回响应,然后客户端根据响应发送另一个请求,依此类推”。

\n\n

所以现在我想知道是否可以使用 Tensorflow Serving 实现类似于 Google Cloud Speech API 流识别的功能。我在 TF Serving 的官方文档中可以找到的关于此的唯一参考资料(除非我错过了一些内容)是在描述未来可能的改进时:“Servable 可以是任何类型和接口,从而实现灵活性和未来的改进,例如:流结果[。 ..]”。

\n\n

使用 TF Serving 是否已经可以实现此功能(双向流)?如果是这样,怎么办?如果没有,扩展 TF Serving 以添加此功能的最佳方法是什么?

\n

python grpc tensorflow tensorflow-serving google-cloud-speech

6
推荐指数
1
解决办法
837
查看次数

Google Cloud Speech API未从Base64音频转录

我正在尝试使用Google云语音API,方法是在Angular FrontEnd中记录音频,将其转换为base64,再将其发送到我的Node后端,然后对Google语音API进行查询。

到目前为止,我还没有成功,谷歌只给我空了结果。

您将看到,为了确定问题,我在遍历所有可能的sampleRate和音频格式。

要注意的另一件事是,使用Google示例audio.raw(在此处https://github.com/googleapis/nodejs-speech/tree/master/samples进行测试)可以正常工作,并且我得到了转录。

这是我的前端:

 const onSuccess = stream => {
  var options = {
    audioBitsPerSecond: 16000, // NB: I have tried several bitrates, and several audio formats (here, and in the blob creation)
  //   mimeType: 'audio/ogg; codecs=opus'
  }

  this.mediaRecorder = new MediaRecorder(stream);
  this.mediaRecorder.onstop = e => {

    const audio = new Audio();
    const blob = new Blob(this.chunks, { 'type': 'audio/wav' });

    this.chunks.length = 0;
    audio.src = window.URL.createObjectURL(blob);

    var reader = new FileReader();
    reader.readAsDataURL(blob);
    reader.onloadend = (function …
Run Code Online (Sandbox Code Playgroud)

node.js google-cloud-speech angular

6
推荐指数
1
解决办法
908
查看次数

无法检测我们是否在 Google Compute Engine 上运行

我正在尝试使用 Google Cloud Speech 识别,但出现此错误

I/omputeEngineCredentials:无法检测我们是否在 Google Compute Engine 上运行。W/System.err: java.io.IOException: 应用程序默认凭据不可用。如果在 Google Compute Engine 中运行,它们就可用。否则,必须定义环境变量 GOOGLE_APPLICATION_CREDENTIALS 指向定义凭据的文件。有关 更多信息,请参阅 https://developers.google.com/accounts/docs/application-default-credentials

我从系统属性/环境变量/用户变量设置环境变量,并且我使用本指南手动设置凭据。

我已经搜索了与此相关的每个主题,但我无法让它发挥作用。我错过了什么?

android google-cloud-platform google-cloud-speech

6
推荐指数
2
解决办法
6329
查看次数

Google SpeechToText API:OGG Opus 音频流没有响应文本

我正在使用SpeechToText API从现场麦克风录音中获取语音转录。这适用于简单的 LINEAR16 编码,但我需要减少带宽,因此我切换到 OGG Opus 编码。
使用这个库在 OGG Opus 客户端中记录和编码音频。
然后,它使用 websocket 发送到后端应用程序。
最后,后端应用程序以流模式请求 STT API,该模式保持静默(没有错误,但输出中也没有文本)。

这些是编码选项:

var options = {
    monitorGain: 0,
    recordingGain: 1,
    numberOfChannels: 1,
    encoderSampleRate: 16000,
    encoderPath: "./javascript/ogg_opus/encoderWorker.min.js",
    originalSampleRateOverride: 16000,
    streamPages: true,
    encoderApplication: 2048
};
Run Code Online (Sandbox Code Playgroud)

这是发送到 API 的配置:

{
   encoding: 'OGG_OPUS',
   language: 'fr',
   rate: 16000
}
Run Code Online (Sandbox Code Playgroud)

这是将音频发送到 websocket 的方式:

recorder.ondataavailable = function(typedArray){
    var dataBlob = new Blob([typedArray], { type: 'audio/ogg' });
    websocket.emit('audio_data', dataBlob);
};
Run Code Online (Sandbox Code Playgroud)

后端部分是用 Python 开发的,遵循这个例子

您知道使 API 工作所需的 …

javascript ogg opus google-speech-api google-cloud-speech

6
推荐指数
0
解决办法
458
查看次数