小编use*_*642的帖子

口音检测API？

我一直在研究构建移动/网络应用程序的可行性，该应用程序允许用户说出短语并检测用户的口音（波士顿、纽约、加拿大等）。用户可以说出大约 5 到 10 个预定义的短语。我熟悉一些可用的 Speech to Text API（Nuance、Bing、Google 等），但似乎都没有提供这种附加功能。我发现的最接近的示例是 Google Now 或 Microsoft 的 Speaker Recognition API：

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

因为会有 5-10 个预定义的短语，我正在考虑使用机器学习软件，如 Tensorflow 或 Wekinator。我会在每个口音中创建初始音频以用作初始数据。在我深入研究这条道路之前，我只是想获得一些关于这种方法的反馈，或者是否有更好的方法。如果我需要澄清任何事情，请告诉我。

speech-recognition machine-learning google-now tensorflow

use*_*642

lucky-day

3
推荐指数

1
解决办法

2030
查看次数