我在Android模拟器上使用语音识别试图做一些事情.
最后安装了市场和谷歌语音搜索应用程序 - 我非常接近让我的模拟器做我想做的事 - 认识我的演讲.首先,我需要启用模拟器来录制音频,或者至少认为存在麦克风.
我相信adb曾经有过-mic选项 - 但我不认为它存在了.
有没有人这样做过,或者任何人都能对此有所了解.
我正在尝试使用Google Speech API v2(地址https://www.google.com/speech-api/v2/recognize?...)
我需要使用我的Api Key,但是当我使用它时,我得到了 error 403 Forbidden
当我使用我下载的示例项目上的API密钥时,它工作正常.
我在Google Developers Console上看到,我可以启用很多api选项,但没有找到任何Speech-API选项.还有什么我需要启用才能使用我的密钥访问此API?
谢谢!
我一直想知道有多少种不同的搜索技术,用于搜索文本,搜索图像甚至视频.
但是,我从未遇到过搜索音频文件内容的解决方案. 
例如:假设我有大约200个播客以mp3,wav和ogg文件的形式下载到我的电脑上.它们都被命名为podcast1.mp3,podcast2.mp3等等.因此,如果没有实际听到内容,就无法知道内容是什么.让我们说,我有兴趣发现,播客谈论"游戏编程".我希望结果显示为:
所以我的问题:
在我的脑海中出现的一个想法是,可以使用"语音到文本"软件来获取每个音频文件的时间索引的成绩单,然后解析成绩单以获得输出.
我认为这是我的业余爱好项目之一.谢谢!
Google提供可在手机上使用的语音识别服务(Android内置,iPhone用户可以使用Google应用程序) - http://www.google.com/mobile/.我们在http://waxy.org/2008/11/deconstructing_google_mobiles_voice_search_on_the_iphone/找到了一篇文章,其中有人试图对该服务进行逆向工程.
我们希望在使用Android的RecognizerIntent时更好地了解网络上发生的情况.有没有人有经验在网上使用这项服务或知道可能解释其运作的其他文章?
任何人都可以推荐可靠的开源软件来转录wav文件中的英语语音吗?我研究过的两个主要程序是Sphinx和Julius,但是我从来没有能够工作,而且每个关于转录文件的文档都是粗略的.
我正在开发64位Ubuntu 10.04,它的回购包括sphinx2和julius,以及voxforge的julius英语声学模式.我专注于转录文件,而不是直接处理来自麦克风的声音,因为我已经放弃了期望像这样的项目与Ubuntu的音响系统一起工作.这不是对Ubuntu的打击,因为我可以使用Audacity完美地录制我的麦克风声音,但两个系统似乎都无法访问我的麦克风,所以我希望我只需通过读取文件就可以简单地进行配置.
我首先尝试使用Ubuntu软件包sphinx2-bin中的Sphinx2.尽管示例sphinx2-demo似乎可以用于转录文件,但实际上没有关于配置的文档,所以我不确定如何自定义这个以从任意wav读取.演示中使用的音频文件采用一些未记录的"16k"格式,通过2个配置文件间接引用.有一个简短的模糊描述sphinx2-demo作为运行sphinx2-batch,但检查脚本显示它实际上调用sphinx2-continuous.更糟糕的是,每个脚本的--help文档列出了大约6个选项,并没有提到哪些是必需的或可选的.总的来说,缺乏sphinx文档,以及现有文档质量差,这让我感到疯狂.
我接下来尝试了Julius,再次来自Ubuntu软件包,这是令人惊讶的最近(4.1),考虑到Voxforge的快速启动中使用的版本是3.5.该软件包似乎包含更好的文档,甚至是用Python编写的示例(/ usr/share/doc/julius-voxforge/examples/controlapp).在阅读了示例的文档之后,我尝试通过创建一个filelist.txt包含文本"hello.wav" 的文件来调整它来读取文件,该文件引用了一个同名文件,其中包含一个说"你好"的人的录音.将它们放在同一目录中,我运行:
julius -input file -filelist filelist.txt -C julian.jconf
得到回应:
### read waveform input
Error: adin_file: sampling rate != 16000 (8000)
Error: adin_file: error in parsing wav header at hello.wav
Error: adin_file: failed to read speech data: "hello.wav"
0 files processed
通过为filelist.txt和hello.wav指定绝对文件名进行重试会产生相同的错误.
我还尝试了在示例中使用的Julius调用,直接从麦克风录制:
julius -input mic -C julian.jconf
我多次打电话,错误之间的响应不同:
Cannot read /dev/dsp
和:
STAT: AD-in thread created
<<< please speak >>>
在后一种情况下,无论我对麦克风说什么,都没有任何反应.我不知道它是否仍然无法读取麦克风,或者是否正在阅读某些内容,但是根本无法录制音频.
我不知道该怎么做.我得到的错误并没有给我留下太多的意思.为什么不能读取wav?为什么不能读取/ dev/dsp?为什么它似乎能够读取/ dev/dsp,但不以任何方式作出反应?
有没有其他人在开源语音识别器上取得任何成功,特别是在Linux上?
以下是使PowerShell发言的方法.
Add-Type -AssemblyName System.Speech
$synthesizer = New-Object -TypeName System.Speech.Synthesis.SpeechSynthesizer
$synthesizer.Speak('Hey, I can speak!')
其实我想反对.如果我说话,可以将powershell转换成字母.
如果我在我的录音机中说"嘿,我可以说",它会转换成文字吗?
如果可能请指导我如何实现它?
我一直在研究Android中的语音识别API,发现当语言设置改变时语音结果会有所不同,有没有办法以编程方式设置它?或者是否打算在语音设置屏幕上午餐?或者还有什么?注意:我试图使用这个额外的意图:
intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_PREFERENCE, "en-US");
但它无效
我知道这是一个一般性的问题主题,但我仍然想知道C++中最快的语音识别库是什么?
目前我正在使用带有kniect的Microsoft SAPI.它工作正常并识别单词,但它的速度很慢,有时候识别单词需要1,2秒,在我的情况下,这种滞后会给用户带来很多交互问题.
我检查了kinect提供的样本,其中乌龟根据识别出的单词向右移动,但即便有点慢.
所以我想知道是否有更快的库然后sapi,可以用于像机器人使用语音识别的情况下你说"左"然后"右"但机器人继续向左移动并在1,2秒之后向右转令用户感到沮丧.
我试图使用Android包含的android.speech.SpeechRecognizer类对此进行编码,但没有成功.
基本上,我想要做的是让我的应用程序不断地监听一个关键字,当关键字被识别时,它将触发一个意图.我知道这将使用大量电池.
例如 - 您正在与一个人交谈.正常的谈话.手机正在主动收听并识别每个单词并听取关键字.
假设在这个例子中关键字是"cheese".
每当你说"奶酪"时,应用程序就会启动一个意图,启动应用程序的另一部分.
我曾尝试将语音识别作为一种服务,但事情并没有按计划进行.也许我犯了一个错误,我不知道.
我一直试图连续两天完成这项工作,超过24小时的工作时间合计.如果我过于宽泛或侵犯了SO的任何规则,我真诚地道歉并要求删除我的问题.
我的问题是 - 这怎么可能?当然,Android本身包含的SpeechRecognition会更好,但它肯定会很麻烦,因为它甚至不适合长时间工作.
我想知道是否有办法在离线模式下使用iOS语音识别.根据文档(https://developer.apple.com/reference/speech),我没有看到任何相关内容.
android ×4
java ×2
speech ×2
adb ×1
apple-speech ×1
audio ×1
c++ ×1
cmusphinx ×1
google-api ×1
ios ×1
kinect ×1
microphone ×1
powershell ×1
python ×1
sapi ×1
search ×1
swift ×1