我有15个录音带,其中一个我认为包含了我祖母和我自己说话的旧录音.寻找合适地点的快速尝试并未将其提升.我不想听20个小时的磁带来找到它.该位置可能不在其中一个磁带的开头.大多数内容似乎分为三类 - 按总长度排列,最长的是:静音,语音广播和音乐.
我计划将所有磁带转换为数字格式,然后再次查看录制内容.显而易见的方法是在我做其他事情时在后台播放它们.这对我来说太简单了,所以:是否有任何开源库或其他代码可以让我找到,以便提高复杂性和实用性:
我更喜欢Python,Java或C.
由于我对该领域一无所知,因此未能得到答案,关于搜索词的提示将受到赞赏.
据我所知,我可以轻松地花20多个小时.
我目前正在开发一个Android应用程序,我需要实现语音识别.
你能建议一个我能找到Java语音识别API的链接吗?
我觉得这是一个相当普遍的问题,但我还没有找到合适的答案.我有许多人类语音的音频文件,我想在单词上打破,这可以通过查看波形中的暂停来启发式地完成,但是有人能指向我自动执行此操作的python中的函数/库吗?
Android Dev网站提供了使用内置Google语音输入活动进行语音输入的示例.该活动显示带麦克风的预配置弹出窗口并使用其传递结果onActivityResult()
我的问题:有没有办法SpeechRecognizer直接使用该类进行语音输入而不显示固定活动?这将让我构建自己的语音输入活动.
我的应用程序使用AsyncTask中的MediaRecorder类记录音频,并使用Google API转换语音到文本 - Recognizer Intent - 使用此问题的代码:如何在没有Android手机烦人的对话框的情况下使用语音识别
我也试过在Thread中录制音频,但这是更糟糕的解决方案.它会导致更多问题.我的问题是我的应用程序在模拟器上正常工作.但是由于缺乏语音识别服务,模拟器不支持语音重新识别.在我的设备上,当我开始录制音频和语音识别时,我的应用程序崩溃了 - "已意外停止".但是当我关闭wifi时,应用程序就像在模拟器上一样正常工作.
在AndroidManifest中录制音频需要:
<uses-permission android:name="android.permission.RECORD_AUDIO" />
和语音识别要求:
<uses-permission android:name="android.permission.RECORD_AUDIO" />
<uses-permission android:name="android.permission.INTERNET" />
我想这是单音频输入的问题?我该如何解决这个问题?Google Speech Recognizer需要在主UI线程中工作,因此我无法在Async Task中执行此操作.所以我在Async Task中录音.我不知道为什么会导致问题.
我已将设备连接到Eclipse,并且我已使用USB调试.这是我在LogCat中的执行:
08-23 14:50:03.528: ERROR/ActivityThread(12403): Activity go.android.Activity has leaked ServiceConnection android.speech.SpeechRecognizer$Connection@48181340 that was originally bound here
08-23 14:50:03.528: ERROR/ActivityThread(12403): android.app.ServiceConnectionLeaked: Activity go.android.Activity has leaked ServiceConnection android.speech.SpeechRecognizer$Connection@48181340 that was originally bound here
08-23 14:50:03.528: ERROR/ActivityThread(12403):     at android.app.ActivityThread$PackageInfo$ServiceDispatcher.<init>(ActivityThread.java:1121)
08-23 14:50:03.528: ERROR/ActivityThread(12403):     at android.app.ActivityThread$PackageInfo.getServiceDispatcher(ActivityThread.java:1016)
08-23 14:50:03.528: ERROR/ActivityThread(12403):     at android.app.ContextImpl.bindService(ContextImpl.java:951)
08-23 14:50:03.528: ERROR/ActivityThread(12403):     at android.content.ContextWrapper.bindService(ContextWrapper.java:347)
08-23 14:50:03.528: ERROR/ActivityThread(12403): …我想尝试使用简单的语音命令(如"next"或"previous")创建jQuery幻灯片.有没有办法使用谷歌的语音识别?我知道Chrome的x-webkit-speech,但我必须单击一个按钮才能使用它.
我尝试了麻省理工学院的WAMI,但我发现它比谷歌的语音认知更慢,更准确.
javascript jquery speech-recognition google-api voice-recognition
我正在尝试创建一个在Android 4.2中运行连续语音识别的服务.使用此链接的答案(Android 4.1和4.2上的Android语音识别作为服务),我创建了一个从Activity运行的服务.我的问题是我在访问mTarget.mAudioManager或mTarget.mSpeechRecognizerIntent在handleMessage方法中获得null异常.目标(以及从中创建的mTarget对象)不是null,而是其中的所有对象.
我在这做错了什么?
相关活动代码(从activity调用的静态方法,activityContext是调用此方法的活动):
public static void init(Context context)
{
   voiceCommandService = new VoiceCommandService();
   activityContext = context;
}
public static void startContinuousListening()
{
    Intent service = new Intent(activityContext, VoiceCommandService.class);
    activityContext.startService(service);
    Message msg = new Message();
    msg.what = VoiceCommandService.MSG_RECOGNIZER_START_LISTENING; 
    try
    {
      voiceCommandService.mServerMessenger.send(msg);
    } 
    catch (RemoteException e)
   {
    e.printStackTrace();
   }
}
服务代码:
public class VoiceCommandService extends Service
{
protected AudioManager mAudioManager; 
protected SpeechRecognizer mSpeechRecognizer;
protected Intent mSpeechRecognizerIntent;
protected final Messenger mServerMessenger = new …有没有办法发出语音命令,如:
确定GOOGLE询问XXX一些应用程序特定问题或命令
并使用公认的文本启动"APP":"一些应用程序特定问题或命令"
我的应用程序将语音识别作为一项服务......但在使用我的APP时,我无法提出Google可以处理的问题......
我正在开发一个网站,我想帮助盲人通过语音使用它,所以我将使用:
我已经有了一些文本到语音的JavaScript库(比如speak.js),但现在我需要一个很好的语音到文本.有一些解决方案用于此目的(如speechapi),但他们使用Java Applets或Flash,我想只依赖JavaScript,以避免插件.
我正在尝试使用x-webkit-speech和Google Chrome进行HTML5的语音输入,这很好,但你需要点击一个图标(盲人不能很好地使用鼠标).使用x-webkit-speech按键是否可行?你知道任何替代API(JavaScript)吗?
谢谢!
javascript html5 speech-recognition google-chrome speech-to-text
我正在尝试使用Google Speech API v2(地址https://www.google.com/speech-api/v2/recognize?...)
我需要使用我的Api Key,但是当我使用它时,我得到了 error 403 Forbidden
当我使用我下载的示例项目上的API密钥时,它工作正常.
我在Google Developers Console上看到,我可以启用很多api选项,但没有找到任何Speech-API选项.还有什么我需要启用才能使用我的密钥访问此API?
谢谢!
android ×4
speech ×3
google-api ×2
javascript ×2
audio ×1
google-now ×1
heuristics ×1
html5 ×1
java ×1
jquery ×1
python ×1
service ×1