我想知道怎么做
<input type="text" x-webkit-speech speech />
是否有内置于Chrome中的语音识别功能,或者是否正在访问操作系统中的基础语音识别功能?
在Java中开始录制操作时,如何检测静音?什么是PCM数据?如何在Java中计算PCM数据?
我找到了解决方案:
package bemukan.voiceRecognition.speechToText;
import javax.sound.sampled.*;
import java.io.*;
public class RecordAudio {
    private File audioFile;
    protected boolean running;
    private ByteArrayOutputStream out;
    private AudioInputStream inputStream;
    final static float MAX_8_BITS_SIGNED = Byte.MAX_VALUE;
    final static float MAX_8_BITS_UNSIGNED = 0xff;
    final static float MAX_16_BITS_SIGNED = Short.MAX_VALUE;
    final static float MAX_16_BITS_UNSIGNED = 0xffff;
    private AudioFormat format;
    private float level;
    private int frameSize;
    public RecordAudio(){
         getFormat();
    }
    private AudioFormat getFormat() {
        File file = new File("src/Facebook/1.wav");
        AudioInputStream stream;
        try {
            stream = AudioSystem.getAudioInputStream(file);
            format=stream.getFormat();
            frameSize=stream.getFormat().getFrameSize();
            return …我正在寻找一个ios的API(理想上是免费的),它可以进行一些语音识别.我看过很少的帖子:iPhone语音识别API?和iOS的免费语音识别引擎?经过一些展望,我收集了看起来很有趣的sdk:
是否有任何真正脱颖而出并且最近的人?他们如何真正相互区别?
我有大约3000多个同一作者的音频文件.我需要转录这些讲座,作者在那里讲过一个特定的词.
所以我需要一个软件解决方案,它会自动找到所说的特定单词的所有文件.这个单词的说法可能会有所不同,因为音频文件的使用时间超过15年.
欢迎免费/开源解决方案.
我试着搜索,并了解了狮身人面像.但我无法将其设置为用于我的项目.任何帮助是极大的赞赏.请
我想在我的应用程序中引入一项新功能:永久语音识别.
首先,我关注了这些帖子:
以及更多其他人,以及来自不同网站的其他帖子.
问题: 我真正要做的是在没有显示谷歌语音活动的情况下进行永久语音识别.例如:当我启动应用程序时,语音识别应该开始并收听.当识别器匹配某些单词时,我的应用程序将相应地执行不同的操作.我不想每次想要进行语音识别时都按下按钮,而且我也不喜欢在屏幕上出现任何与之交谈的内容.我能这样做吗?
欢迎任何建议.谢谢!:)
android speech-recognition voice-recognition google-voice google-voice-search
我正在使用Googles这个api: -
https://www.google.com/speech-api/v2/recognize?output=json&lang="+ language_code +"&key ="我的密钥"
用于语音识别,它的工作非常好.
问题在于数字,即,如果我说one two three four结果将是   1234
,如果我说one thousand two hundred thirty four结果仍然是1234.
另一个问题是使用其他语言,即elf德语中的单词eleven.如果你说elf结果是11,而不是精灵.
我知道我们无法控制api但是有任何参数或黑客可以添加到这个api以强制它只返回单词.
有时候响应的结果是正确的,但并非总是如此.
这些是样本回复
1)当我说"一二三四"时
{"result":[{"alternative":[{"transcript":"1234","confidence":0.47215959},{"transcript":"1 2 3 4","confidence":0.25},{"transcript":"one two three four","confidence":0.25},{"transcript":"1 2 34","confidence":0.33333334},{"transcript":"1 to 34","confidence":1}],"final":true}],"result_index":0}
2)当我说"一千二百三十四"时
{"result":[{"alternative":[{"transcript":"1234","confidence":0.94247383},{"transcript":"1.254","confidence":1},{"transcript":"1284","confidence":1},{"transcript":"1244","confidence":1},{"transcript":"1230 4","confidence":1}],"final":true}],"result_index":0}
我做了什么.
检查结果是否为数字,然后按空格分割每个数字并检查结果数组中是否有相同的序列.在此结果中,结果1234变为1 2 3 4并将搜索结果数组中是否存在类似的序列,然后将其转换为单词.在第二种情况下,没有1 2 3 4,因此将坚持原始结果.
这是代码.
 String numberPattern = "[0-9]";
  Pattern r1 = Pattern.compile(numberPattern);
  Matcher m2 = r1.matcher(output);
  if (m2.find()) {
      char[] digits2 = output.toCharArray();
      String …是否有针对桌面或浏览器环境的已知API的完整列表?
speech-recognition text-to-speech speech-synthesis speech-to-text
如何找出默认系统语音识别器的ComponentName,即调用createSpeechRecognizer(上下文上下文)时返回的组件名称?(实际上,我只需要找出它支持的输入语言,所以如果只有答案,那么我也会很感激.)
该框架解决了这个问题
String serviceComponent = Settings.Secure.getString(mContext.getContentResolver(),
                        Settings.Secure.VOICE_RECOGNITION_SERVICE);
(参见SpeechRecognizer的源代码.)
但是,此解决方案似乎不适用于第三方应用程序.
我正在构建一个使用语音命令执行某些功能的应用程序.我从这里得到了一些代码
private static final int SPEECH_REQUEST_CODE = 0;
// Create an intent that can start the Speech Recognizer activity
private void displaySpeechRecognizer() {
    Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);
    intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,
            RecognizerIntent.LANGUAGE_MODEL_FREE_FORM);
// Start the activity, the intent will be populated with the speech text
    startActivityForResult(intent, SPEECH_REQUEST_CODE);
}
// This callback is invoked when the Speech Recognizer returns.
// This is where you process the intent and extract the speech text from the intent.
@Override
protected void onActivityResult(int requestCode, int …