标签: speech

使用SAPI 5.3 Speech API进行声学训练

在Vista上使用Microsoft的SAPI 5.3 Speech API,您如何以编程方式对RecoProfile进行声学模型培训?更具体地说,如果您有一个文本文件和一个用户说出该文本的音频文件,您将使用该文本和音频训练用户的个人资料进行什么样的SAPI调用?

更新:

关于这个问题的更多信息我还没有解决:你在"开头"调用ISpRecognizer2.SetTrainingState(TRUE,TRUE),在"结尾"调用ISpRecognizer2.SetTrainingState(FALSE,TRUE).但目前还不清楚这些行动何时必须相对于其他行动发生.

例如,您必须进行各种调用以设置语法,其中包含与您的音频匹配的文本,以及其他用于连接音频的调用,以及对各种对象的其他调用,以表示"您现在可以开始使用".但是什么是相互依赖性 - 在其他什么之前必须发生什么?如果您使用音频文件而不是系统麦克风进行输入,这是否会使相对时间变得不那么宽容,因为识别器不会继续坐在那里听,直到说话者正确?

speech-recognition speech sapi

9
推荐指数
1
解决办法
8848
查看次数

有没有办法在HTML 5语音输入API中使用语法?

我正在使用HTML 5语音输入API,我想让服务器知道它可以从语音输入返回哪些答案.有没有办法设置可能的输入列表?

html5 speech-recognition speech

9
推荐指数
2
解决办法
3493
查看次数

直接从音频/转录语音到文本(语音识别)

需要能够使用高精度的语音到文本(语音识别)算法将包含语音的音频(例如,来自.MP3,其他音频格式)转换或转录成文本转录本.有许多可行的方法,这些方法越来越准确,但设计用于设备麦克风中的语音(例如Google Translate /相应的API for web,Dragon app for iOS).我需要一种方法将音频文件直接输入语音识别引擎/ API.不想通过扬声器播放音频并使用麦克风捕获音频 - 需要相当长的时间才能播放长音频文件,并降低音频质量并降低转录质量.是否存在Web服务,API或代码?是否存在某种现有服务的包装器,它假设麦克风将成为源?

谢谢

audio mp3 text speech-recognition speech

9
推荐指数
1
解决办法
2万
查看次数

针对英语以外语言的Google语音API

对于除英语以外的语言,是否有语音到文本的API?我知道英语API(http://developer.android.com/resources/articles/speech-input.html),但我希望能够用我的语言识别语音,例如Google Maps或Search do.它甚至可以是通用API,而不是Android API.

api android speech-recognition speech

8
推荐指数
1
解决办法
4964
查看次数

有没有办法对一个单词的发音难度进行排名?

我正在尝试建立一个难以发音的英语单词集.

我想知道是否存在某种算法或理论,可以用来表示单词发音的难度.

这对你来说是否可以计算出来?

由于这似乎是一个非常主观的事情,让我说它更客观,让我们说通过文本到语音技术发音的最难的词.

speech

8
推荐指数
1
解决办法
579
查看次数

如何使用Microsoft Speech从语音模式识别扬声器?

我正在使用Microsoft Speech C#API进行家庭自动化命令

我想知道是否有一种方法或内置的C#方法来散列语音输入并识别谁在说话.如果是Alice或Bob说"Hello Alice"或"Hello Bob".

编辑:

Microsoft Speech API可以提供录制的.wav.它可能能够哈希,处理,...以了解谁在说话:

  • 响亮的声音,缓慢的调制,... =>鲍勃
  • 高声音,快速调制,... =>爱丽丝

c# speech

8
推荐指数
1
解决办法
4302
查看次数

文本到音素转换器

我正在寻找一种将文本转换为音素的工具,(如文本到语音软件)我可以编程一个,但它不会没有错误并且需要花费很多时间!

所以我的问题是:

是否有一个简单的工具,例如"你好"转换为"HH AH0 L OW1"

也许一些命令行工具,所以我可以捕获标准输出?我正在寻找'Arpabet'风格的音素(参见'你好​​'的例子).

espeak做了类似的事情,但输出不是Arpabet风格,并且音素不会被某些决定者分开.

text speech text-to-speech

8
推荐指数
1
解决办法
8179
查看次数

从谷歌语音 api 结果中检测流畅度

我正在尝试使用谷歌语音(到文本)API 来确定演讲者的流畅度。

到目前为止,我发现 API (betav1) 可以显示说话所需的时间(开始时间和结束时间)。

从维基百科,

口语流利度或口语流利度是对语音的产生和接收的衡量标准,因为流利的说话者必须能够在对话中理解和回应他人。由于“任务压力”,口语的典型特征是看似不流利的品质(例如,支离破碎、停顿、错误的开始、犹豫、重复)。因此,可以通过感知来理解一个人的口语流利程度,以及这些语音质量是否可以被感知为预期和自然(即流利)或不寻常且有问题(即不流利)

我可以看到我们可以从单词的 API 中获取暂停、重复等。但是相对测量可能很困难,因为我找不到任何标准值。

有没有适当的方法来实现这一目标?任何人都可以给出一个指南来检测 google API 的流畅度(或使用某种开源语音库或外部软件的任何其他有效方法)

如果我完全走错了方向,那完全没问题,只需要一个适当的指南来实现该功能。

speech-recognition speech google-speech-api

8
推荐指数
1
解决办法
736
查看次数

是否有软件在语音级别输出语音到文本?

有没有能够获取音频文件和输出语音(IPA)文本的软件?

我理解那里的大部分软件直接用于语言,但是有一种"可教"吗?

speech-recognition speech linguistics text-to-speech speech-to-text

7
推荐指数
1
解决办法
658
查看次数

Pocketsphinx VS Google语音识别API

我正在构建一个语音识别Android应用程序,它将充当虚拟个人助理,其任务如下:

预约/提醒

天气信息

对Wolfram的一般查询| Alpha /维基百科 - (即谁指导了捉鬼敢死队,是什么 - £汇率)

我的问题是要使用Pocketsphinx还是谷歌API?

最初我用"android.speech.RecognitionListener"设置它,效果很好,但是我想实现关键字定位,这样用户除了说话之外不需要任何交互.

显然谷歌API不支持这一点,所以我考虑使用pocketsphinx为此,并仍然使用谷歌的应用程序的其余部分(因为我听说pocketphinx不是那么准确吗?)然而,两个不相处,因为他们可以两者都不会同时占用麦克风.

有没有一种很好的方式在识别器之间切换?(甚至不能同时导入同一个项目)

我应该使用pocketshinx并处理较低的准确度吗?

建议会有所帮助

干杯

android speech pocketsphinx

7
推荐指数
1
解决办法
2817
查看次数