谷歌云演讲:区分声音?

5 speech-recognition voice-recognition google-cloud-speech

我有兴趣编写一个能够识别多个发言者的语音识别应用程序.例如,如果比尔,乔和简正在谈论,那么应用程序不仅可以将声音识别为文本,还可以通过发言者对结果进行分类(比如0,1和2 ......因为显然/希望谷歌没有办法将声音链接到人).

我正在寻找可能会这样做的语音识别API,而Google Cloud Speech则是排名第一的API.我查看了API文档,看看这些功能是否可用,还没有找到.

我的问题是:这个功能是否存在?

注意:Google的支持页面说他们的工程师有时会在SO上回答这些问题,所以似乎有人可能会回答问题的"遗嘱"部分.

小智 5

IMB的文本服务演讲就是这样做的.如果你使用他们的休息服务非常简单,只需添加你想要在url param中识别的不同发言者.这里的文档(https://console.bluemix.net/docs/services/speech-to-text/output.html#speaker_labels)

它有点像这样:

 curl -X POST -u {username}:{password}
--header "Content-Type: audio/flac"
--data-binary @{path}audio-multi.flac
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?model=en-US_NarrowbandModel&speaker_labels=true"
Run Code Online (Sandbox Code Playgroud)

然后它会返回一个带有结果和扬声器标签的json,如下所示:

{
 "results": [
    {
      "alternatives": [
        {
          "timestamps": [
            [
              "hello",
              0.68,
              1.19
            ],
            [
              "yeah",
              1.47,
              1.93
            ],
            [
              "yeah",
              1.96,
              2.12
            ],
            [
              "how's",
              2.12,
              2.59
            ],
            [
              "Billy",
              2.59,
              3.17
            ],
            . . .
          ]
          "confidence": 0.821,
          "transcript": "hello yeah yeah how's Billy "
        }
      ],
      "final": true
    }
  ],
  "result_index": 0,
  "speaker_labels": [
    {
      "from": 0.68,
      "to": 1.19,
      "speaker": 2,
      "confidence": 0.418,
      "final": false
    },
    {
      "from": 1.47,
      "to": 1.93,
      "speaker": 1,
      "confidence": 0.521,
      "final": false
    },
    {
      "from": 1.96,
      "to": 2.12,
      "speaker": 2,
      "confidence": 0.407,
      "final": false
    },
    {
      "from": 2.12,
      "to": 2.59,
      "speaker": 2,
      "confidence": 0.407,
      "final": false
    },
    {
      "from": 2.59,
      "to": 3.17,
      "speaker": 2,
      "confidence": 0.407,
      "final": false
    },
    . . .
  ]
}
Run Code Online (Sandbox Code Playgroud)

他们还有不同平台的Web套接字选项和SDK,可以访问它,而不仅仅是休息调用.

祝好运


bra*_*all 4

据我所知,目前还没有提供商将其作为其语音识别 API 的内置部分。

我已经使用Microsoft 认知服务 - 说话人识别 API进行类似的操作,但音频单独提供给 API 以使用其语音识别 API

能够将两者结合起来将会很有用。