我正在构建一个支持语音识别并将语音转换为文本的搜索,因此我正在使用SFSpeechRecognizer. 但问题是我需要同时支持多种语言比如(" en_US", " fr", vi, ar)。
主要思想是用户可以说一个英语单词,另一个法语单词,我希望引擎能够检测到这一点。
目前,我正在使用它来设置我的主要语言
英语:
private let speechRecognizer = SFSpeechRecognizer(locale: Locale.init(identifier: "en_US"))!
Run Code Online (Sandbox Code Playgroud)
法语:
private let speechRecognizer = SFSpeechRecognizer(locale: Locale.init(identifier: "fr"))!
Run Code Online (Sandbox Code Playgroud)
每种语言我都需要单独设置。
有没有办法SFSpeechRecognizer同时支持多种语言呢?
speech-recognition voice-recognition ios swift sfspeechrecognizer
我有一个Android应用程序的想法,我希望能够说出命令并让应用程序听取这些并执行一些操作.
例如,我希望我的应用程序闲置并听取我的声音,当它听到我说"开始"时,应用程序将开始执行某些操作,直到我说"停止".
我的想法是将手机放下,而不必亲自触摸它以控制我的应用程序.
使用任何当前的API都可以实现吗?如果是这样我应该研究哪些?
我已经开始研究Acoustic Fingerprint(http://en.wikipedia.org/wiki/Acoustic_fingerprint)这个主题为我的iOS宠物项目,我想知道是否有:
谢谢
是否有完全用Ruby构建的语音识别库或具有Ruby实现的跨平台语言(即Java)?
优选地,不需要大量代码来开始使用的东西.
我正在开发一个Android应用程序,我已经实现了语音识别和TTS.所以我打算启动谷歌语音识别和TTS的设置屏幕,以允许用户从应用程序内更改设置.我使用以下代码成功实现了TTS设置:
intent = new Intent();
intent.setAction("com.android.settings.TTS_SETTINGS");
intent.setFlags(Intent.FLAG_ACTIVITY_NEW_TASK);
this.startActivity(intent);
Run Code Online (Sandbox Code Playgroud)
现在我想在我的应用程序中显示系统的"谷歌语音识别设置",以允许用户更改语言选项等.我搜索了很多...完成了大量的点击并尝试但未能加载语音识别设置屏幕.请告诉我如何实现这一点.提前致谢...
我知道如何通过将其与歌曲或人声或曲调的剪辑相匹配来实现识别歌曲的算法.我不希望有人在这里写出算法:),我知道它涉及很多东西,但我想知道我是如何开始的.做类似事情我需要考虑哪些技术.我正在寻找类似于Shazaam或Midomi的东西.此外,是否有一个在线服务执行相同的操作并提供API.
我目前正处于语音识别的讨论阶段项目中,我使用MFCC特征提取,但从函数返回的MFCC特征是矩阵,e,g.每个语音文件(wav)的(20,38)特征矩阵.但是如何将此功能传递给SVM分类器.对于SVM(和其他分类器),每个样本由向量表示,对吗?但每个样品的MFCC特征是一个矩阵.假设Xi是样本i的MFCC特征,则样本i传递给SVM的特征是:1)20*38向量,例如.Xi(:)以matlab形式出现.2)平均值(Xi).3)Xi中的一列或一列.哪条路对不对?任何有用的代码,纸张?
谢谢!闪耀
我想知道在C++中是否存在用于"语音识别"和"文本到语音"的良好API.我经历过音乐节,你甚至不能说计算机是否正在讲话,因为它是如此真实和嘈杂.
不幸的是,Festival似乎不支持语音识别(我的意思是"语音到文本")并且voce是用Java构建的,因为JNI,它在C++中是一个混乱.
API应该支持"文本到语音"和"语音到文本",它应该有一组很好的例子,至少在所有者的网站之外.如果它有识别一组给定声音的设施,那就完美了,但这是可选的,所以不用担心.
我要对API做的是,当给出一组语音命令时,左右转动机器人设备等.还要跟我说"早安","晚安"等.这些话会是在程序中编码.
请帮我为此找到一个好的C++语音API.如果您有权访问教程/安装教程,请与我分享.
我想为像贾维斯这样的盲人开发助理软件.它是一个C#表单应用程序.我需要将我的C#项目与Skype API连接,以便使用Skype调用一些用户名.当我通过使用命令时Call John,它通过Skype呼叫John来响应.
有人可以给我看一些代码片段,这对我们有帮助吗?
目前,我解析wav文件和存储样本在std::vector<int16_t> sample.现在,我想对这些数据应用VAD(语音活动检测)来找出语音的"区域",更具体地说是单词的开头和结尾.
解析的wav文件是16KHz,16位PCM,单声道.我的代码是用C++编写的.
我已经搜索了很多关于它但没有找到关于webRTC的VAD功能的适当文档.
根据我的发现,我需要使用的功能是WebRtcVad_Process().它的原型如下:
int WebRtcVad_Process(VadInst* handle, int fs, const int16_t* audio_frame,
size_t frame_length)
Run Code Online (Sandbox Code Playgroud)
从我在这里找到:https://stackoverflow.com/a/36826564/6487831
发送到VAD的每个音频帧长度必须为10,20或30毫秒.以下是假设audio_frame为16000 Hz的10 ms(320字节)音频的示例概述:
int is_voiced = WebRtcVad_Process(vad,16000,audio_frame,160);
这说得通 :
1 sample = 2B = 16 bits
SampleRate = 16000 sample/sec = 16 samples/ms
For 10 ms, no of samples = 160
Run Code Online (Sandbox Code Playgroud)
所以,基于我已经实现了这个:
const int16_t * temp = sample.data();
for(int i = 0, ms = 0; i < sample.size(); i += 160, ms++)
{ …Run Code Online (Sandbox Code Playgroud)