标签: voice-recognition

如何在android-"识别器不存在"中实现语音识别器?

我没有在我的Android手机中安装谷歌语音搜索.我无法安装它,因为它只适用于美国.但是vilingo应用程序在我的Android手机上运行良好.在我自己的语音识别应用程序中,它显示"识别器不存在".

这是我在Android开发者网站上使用的代码.

    List<ResolveInfo> activities = pm.queryIntentActivities(
            intent, pm.MATCH_DEFAULT_ONLY);
    if (activities.size() == 0)
    {
        speakButton.setEnabled(false);
        speakButton.setText("Recognizer not present");
    }
Run Code Online (Sandbox Code Playgroud)

为什么它从上面的代码返回空列表?

非常感谢.

android voice-recognition

6
推荐指数
1
解决办法
1386
查看次数

用于语音/说话人识别的CMU Sphinx

我正在寻找一种匹配已知数据集的方法,比方说一个MP3或wav文件列表,每个文件都是有人说话的样本.此时我知道文件ABC是人X讲的.

然后,我想采取另一个样本,并进行一些语音匹配,以显示这个语音最有可能的人,然后给出已知的数据集.

此外,我不一定关心这个人说了什么,只要我能找到一个匹配,即我不需要任何抄录或其他.

我知道CMU Sphinx不进行语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM Speaker Diarization(http://cmusphinx.sourceforge.net/wiki/ speakerdiarization)或VoiceID项目(https://code.google.com/p/voiceid/),它使用CMU作为此类工作的基础.

如果我要使用CMU,我该如何进行语音匹配?

另外,如果CMU Sphinx不是最好的框架,那么还有一个替代的开源吗?

audio speech-recognition pattern-matching voice-recognition cmusphinx

6
推荐指数
1
解决办法
2702
查看次数

Mac OS X上的Emacs中的语音编码

我希望能够通过语音识别编写代码,他目前在Mac OS X 10.6.8上使用Aquamacs 2.4和Dragon Dictate 2.有人知道这是否可能,如果可能,如何?我见过shorttalk,emacs listen和语音代码,但它们只适用于使用Dragon Naturally Speaking的Windows机器.

任何线索都会非常感激.

我也是通过ESS写的.

emacs naturallyspeaking voice-recognition

6
推荐指数
1
解决办法
1465
查看次数

是否有 API(或任何 hack)可以访问 Mac OS X Mavericks 中的增强听写功能?

我正在尝试找到一种简单的方法将音频文件转录为文本(CMU Sphinx、Julius 等对于不了解语音识别、配置语言模型、声学模型等的人来说很难)。

我想知道是否有办法将我的音频文件传输到 Mac OS 10.9 Mavericks 的“增强听写”功能中,该功能允许本地离线语音听写。

当我将耳机插孔的跳线插入线路时,我以为我很聪明,但不幸的是,当你开始听写时,它会将所有其他音频播放静音(任何有关如何禁用此静音的建议都会从我这里得到正确的答案) )。

macos speech-recognition speech-to-text voice-recognition osx-mavericks

6
推荐指数
1
解决办法
3748
查看次数

Android以不同的方式识别2个人的声音

我想开发一个Android应用程序.

该应用程序的一个功能是识别2个人的声音.

这将是kike这个 - 当应用程序打开时,2个人将在它面前说话.应用程序将检测2个人说话,并将计算多少%(让2个人是A和B)人A讲话和人B相同.

所以,比方说,1分钟后应用程序会告诉A 80%的谈话,B会谈20%.

所以,我需要的是如何区分2个人的声音.

我试过SpeechRecognizerandroid.speech.tts.但我不能让它发挥作用.

在android中可以区分2个人的声音吗?

在此先感谢您的帮助.

android voice voice-recording voice-recognition google-voice

6
推荐指数
1
解决办法
1726
查看次数

ALSA lib pcm_hw.c:1667:(_snd_pcm_hw_open) 卡 arecord 的值无效:main:722:音频打开错误:没有那个文件或目录

我正在研究语音识别。为此,我正在使用“alsa-utils”,但是当我尝试使用此脚本时

    #!/bin/bash

echo “Recording… Press Ctrl+C to Stop.”
arecord -D plughw:1,0 -q -f cd -t wav | ffmpeg -loglevel panic -y -i – -ar 16000 -acodec flac file.flac > /dev/null 2>&1

echo “Processing…”
wget -q -U “Mozilla/5.0” –post-file file.flac –header “Content-Type: audio/x-flac; rate=16000” -O – “http://www.google.com/speech-api/v1/recognize?lang=en-us&client=chromium” | cut -d” -f12 >stt.txt

echo -n “You Said: ”
cat stt.txt

rm file.flac > /dev/null 2>&1
Run Code Online (Sandbox Code Playgroud)

我收到这个错误

    “Recording… Press Ctrl+C to Stop.”
ALSA lib pcm_hw.c:1667:(_snd_pcm_hw_open) Invalid value for card
arecord: main:722: audio open …
Run Code Online (Sandbox Code Playgroud)

ubuntu speech-recognition alsa voice-recognition libalsa

6
推荐指数
1
解决办法
2万
查看次数

为什么MFCC提取库返回不同的值?

我正在使用两个不同的库来提取MFCC功能:

  • python_speech_features lib
  • BOB lib

然而,两者的输出是不同的,甚至形状也不相同.这是正常的吗?还是有一个我缺少的参数?

我的代码的相关部分如下:

import bob.ap
import numpy as np
from scipy.io.wavfile import read
from sklearn import preprocessing
from python_speech_features import mfcc, delta, logfbank

def bob_extract_features(audio, rate):
    #get MFCC
    rate              = 8000  # rate
    win_length_ms     = 30    # The window length of the cepstral analysis in milliseconds
    win_shift_ms      = 10    # The window shift of the cepstral analysis in milliseconds
    n_filters         = 26    # The number of filter bands
    n_ceps            = 13    # The number of cepstral …
Run Code Online (Sandbox Code Playgroud)

python voice speech voice-recognition mfcc

6
推荐指数
1
解决办法
569
查看次数

世博语音识别

我一直在尝试在我的 Expo 应用程序上实现语音识别,我尝试使用名为 的语音到文本库,react-native-voice但它不支持 Expo. 有谁知道我可以使用的任何其他图书馆。我读过一些关于使用 Google 的 api 的文章,但它对我来说太复杂了,我更喜欢一个可以支持 Expo 的更简单的替代方案。

speech-recognition speech-to-text voice-recognition react-native expo

6
推荐指数
2
解决办法
8753
查看次数

是否可以通过编程方式使用 Chrome 实时字幕?

Chrome 89 具有实时字幕功能,可以在播放音频/视频时转录英文文本。它甚至可以离线工作,因此它不会联系谷歌的服务器。

有没有办法以编程方式使用此功能,例如为其提供音频文件并捕获转录文本?

编辑: 这个人写了一些代码可以让你做到这一点。但你需要自己弄清楚如何反汇编和修补 Google 的 libsoda。不过我确实让它工作了。

google-chrome voice-recognition

6
推荐指数
1
解决办法
1827
查看次数

Galaxy Watch 4 提供语音识别功能吗?

我尝试使用 Android Studio 在我的 Galaxy Watch 4 上使用 Kotlin 语言进行语音识别,但该设备似乎无法使用该功能。

SpeechRecognizer.isRecognitionAvailable(this) 的值为 False。

我已授予许可: <uses-permission android:name="android.permission.RECORD_AUDIO" />

我尝试添加这个:

<queries>
    <intent>
        <action android:name="android.speech.RecognitionService" />
    </intent>
</queries>
Run Code Online (Sandbox Code Playgroud)

但 SpeechRecognizer.isRecognitionAvailable(this) 的值仍然是 False。

在 Galaxy Watch 4 上是否可以通过编码使用语音识别?我读到,WearOS 3 无法通过编码进行语音识别。这是真的吗?

android voice-recognition kotlin wear-os samsung-galaxy-watch-4

6
推荐指数
1
解决办法
229
查看次数