标签: speech

使用SAPI 5.3 Speech API进行声学训练

在Vista上使用Microsoft的SAPI 5.3 Speech API,您如何以编程方式对RecoProfile进行声学模型培训？更具体地说,如果您有一个文本文件和一个用户说出该文本的音频文件,您将使用该文本和音频训练用户的个人资料进行什么样的SAPI调用？

更新:

关于这个问题的更多信息我还没有解决:你在"开头"调用ISpRecognizer2.SetTrainingState(TRUE,TRUE),在"结尾"调用ISpRecognizer2.SetTrainingState(FALSE,TRUE).但目前还不清楚这些行动何时必须相对于其他行动发生.

例如,您必须进行各种调用以设置语法,其中包含与您的音频匹配的文本,以及其他用于连接音频的调用,以及对各种对象的其他调用,以表示"您现在可以开始使用".但是什么是相互依赖性 - 在其他什么之前必须发生什么？如果您使用音频文件而不是系统麦克风进行输入,这是否会使相对时间变得不那么宽容,因为识别器不会继续坐在那里听,直到说话者正确？

speech-recognition speech sapi

mar*_*kab

2011 03-22

9
推荐指数

1
解决办法

8848
查看次数

有没有办法在HTML 5语音输入API中使用语法？

我正在使用HTML 5语音输入API,我想让服务器知道它可以从语音输入返回哪些答案.有没有办法设置可能的输入列表？

html5 speech-recognition speech

use*_*646

2016 12-07

9
推荐指数

2
解决办法

3493
查看次数

需要能够使用高精度的语音到文本(语音识别)算法将包含语音的音频(例如,来自.MP3,其他音频格式)转换或转录成文本转录本.有许多可行的方法,这些方法越来越准确,但设计用于设备麦克风中的语音(例如Google Translate /相应的API for web,Dragon app for iOS).我需要一种方法将音频文件直接输入语音识别引擎/ API.不想通过扬声器播放音频并使用麦克风捕获音频 - 需要相当长的时间才能播放长音频文件,并降低音频质量并降低转录质量.是否存在Web服务,API或代码？是否存在某种现有服务的包装器,它假设麦克风将成为源？

谢谢

audio mp3 text speech-recognition speech

use*_*237

2017 03-21

9
推荐指数

1
解决办法

2万
查看次数

针对英语以外语言的Google语音API

对于除英语以外的语言,是否有语音到文本的API？我知道英语API(http://developer.android.com/resources/articles/speech-input.html),但我希望能够用我的语言识别语音,例如Google Maps或Search do.它甚至可以是通用API,而不是Android API.

api android speech-recognition speech

Krz*_*lny

2014 03-28

8
推荐指数

1
解决办法

4964
查看次数

有没有办法对一个单词的发音难度进行排名？

我正在尝试建立一个难以发音的英语单词集.

我想知道是否存在某种算法或理论,可以用来表示单词发音的难度.

这对你来说是否可以计算出来？

由于这似乎是一个非常主观的事情,让我说它更客观,让我们说通过文本到语音技术发音的最难的词.

speech

Yas*_*984

2012 05-03

8
推荐指数

1
解决办法

579
查看次数

如何使用Microsoft Speech从语音模式识别扬声器？

我正在使用Microsoft Speech C#API进行家庭自动化命令

我想知道是否有一种方法或内置的C#方法来散列语音输入并识别谁在说话.如果是Alice或Bob说"Hello Alice"或"Hello Bob".

编辑:

Microsoft Speech API可以提供录制的.wav.它可能能够哈希,处理,...以了解谁在说话:

响亮的声音,缓慢的调制,... =>鲍勃
高声音,快速调制,... =>爱丽丝

c# speech

Jea*_*sse

2013 04-05

8
推荐指数

1
解决办法

4302
查看次数

文本到音素转换器

我正在寻找一种将文本转换为音素的工具,(如文本到语音软件)我可以编程一个,但它不会没有错误并且需要花费很多时间!

所以我的问题是:

是否有一个简单的工具,例如"你好"转换为"HH AH0 L OW1"

也许一些命令行工具,所以我可以捕获标准输出？我正在寻找'Arpabet'风格的音素(参见'你好'的例子).

espeak做了类似的事情,但输出不是Arpabet风格,并且音素不会被某些决定者分开.

text speech text-to-speech

Tom*_*Tom

lucky-day

8
推荐指数

1
解决办法

8179
查看次数

从谷歌语音 api 结果中检测流畅度

我正在尝试使用谷歌语音（到文本）API 来确定演讲者的流畅度。

到目前为止，我发现 API (betav1) 可以显示说话所需的时间（开始时间和结束时间）。

从维基百科，

口语流利度或口语流利度是对语音的产生和接收的衡量标准，因为流利的说话者必须能够在对话中理解和回应他人。由于“任务压力”，口语的典型特征是看似不流利的品质（例如，支离破碎、停顿、错误的开始、犹豫、重复）。因此，可以通过感知来理解一个人的口语流利程度，以及这些语音质量是否可以被感知为预期和自然（即流利）或不寻常且有问题（即不流利）

我可以看到我们可以从单词的 API 中获取暂停、重复等。但是相对测量可能很困难，因为我找不到任何标准值。

有没有适当的方法来实现这一目标？任何人都可以给出一个指南来检测 google API 的流畅度（或使用某种开源语音库或外部软件的任何其他有效方法）

如果我完全走错了方向，那完全没问题，只需要一个适当的指南来实现该功能。

speech-recognition speech google-speech-api

Sad*_*mud

2021 01-20

8
推荐指数

1
解决办法

736
查看次数