use*_*642 3 speech-recognition machine-learning google-now tensorflow
我一直在研究构建移动/网络应用程序的可行性,该应用程序允许用户说出短语并检测用户的口音(波士顿、纽约、加拿大等)。用户可以说出大约 5 到 10 个预定义的短语。我熟悉一些可用的 Speech to Text API(Nuance、Bing、Google 等),但似乎都没有提供这种附加功能。我发现的最接近的示例是 Google Now 或 Microsoft 的 Speaker Recognition API:
http://www.androidauthority.com/google-now-accents-515684/
https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api
因为会有 5-10 个预定义的短语,我正在考虑使用机器学习软件,如 Tensorflow 或 Wekinator。我会在每个口音中创建初始音频以用作初始数据。在我深入研究这条道路之前,我只是想获得一些关于这种方法的反馈,或者是否有更好的方法。如果我需要澄清任何事情,请告诉我。
对于这种罕见的任务,没有公共 API。
作为语言检测的口音检测通常使用 i-vectors 来实现。教程在这里。实现在 Kaldi 中可用。
即使您的句子是固定的,您也需要大量数据来训练系统。在不关注您拥有的特定句子的情况下,收集带口音的语音可能会更容易。
端到端张量流实现也是可能的,但可能需要太多数据,因为您需要将说话者内在事物与重音内在事物分开(基本上像 i-vector 一样执行分解)。你可以找到类似的作品像的描述这和这一个。
| 归档时间: |
|
| 查看次数: |
2030 次 |
| 最近记录: |