标签: speech-recognition

使用 ffmpeg 减少背景噪音并优化音频剪辑中的语音

我从视频文件中提取音频剪辑以进行语音识别。这些视频来自移动/其他手工设备,因此包含大量噪音。我想降低音频的背景噪音,以便我传递给语音识别引擎的语音清晰。我正在使用 ffmpeg 来完成所有这些工作,但我仍停留在降噪阶段。

到目前为止,我已经尝试过以下过滤器:

ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav

ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav

ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
Run Code Online (Sandbox Code Playgroud)

但结果非常令人失望。我的理由是,由于语音低于 300-3000 Hz 范围,我可以过滤掉所有其他频率以抑制任何背景噪音。我错过了什么?

此外,我阅读了有关可用于语音增强的韦纳过滤器并发现了这一点,但我不确定如何使用它。

audio noise voice speech-recognition ffmpeg

52
推荐指数
5
解决办法
6万
查看次数

如何在不将视频上传到 YouTube 的情况下使用 Google 的 YouTube 语音识别?

我有很多讲座视频内容,我想要字幕。YouTube 会在特定条件下自动为视频生成字幕(这些条件对我来说仍然有些神秘)。

我希望能够在 YouTube 之外使用这种语音识别技术。我不想上传每个视频只是为了获得成绩单(太耗时),另外,我认为 YouTube 不会为时长超过 30 分钟的视频(大多数是)这样做,此外,我不要认为它会用于非公开列出的视频(这是一个问题,因为它是旨在出售的优质内容)。

完美场景:有一个程序可以从我的桌面上运行以从这些视频中获取转录内容,它的质量与 YouTube 相同或更好,并且具有类似于 SRT 或 YouTube 生成的 XML 的时间码 [如何获取 YouTube 字幕]。

可接受的情况:我可以采取一些技巧来强制 YouTube 转录视频,无论设置为私人还是公开,无论长度如何。

可行方案:有一个库或其他东西可以用来编写我自己的程序。我擅长 C#,也擅长 C++(但我真的更喜欢 C#)。

video youtube speech-to-text speech-recognition

17
推荐指数
1
解决办法
3万
查看次数

语音识别-MP3转文字软件

我正在寻找一个独立于扬声器的程序(商业或免费),它使我能够将包含语音录音(尤其是播客)的 MP3 文件转录为文本。我想试试龙语自然,但它似乎只支持转录我自己的演讲录音。那么有哪些替代方案呢?

mp3 voice speech-to-text speech-recognition

16
推荐指数
2
解决办法
2万
查看次数

Windows 8 语音识别语言

我已经安装了 Windows 8 Pro(来自 MSDN 的 RTM 版本)。对于我使用的应用程序,我需要将语音识别语言设置为英语 - 美国。我唯一的选择是英语 - 英国。我曾尝试转到控制面板中的语言并将唯一语言设置为英语 - 美国,但是英语 - 英国仍然是语音属性中的唯一选项。

如何向语音属性添加语言?在此处输入图片说明

speech-recognition windows-8

9
推荐指数
2
解决办法
2万
查看次数

谷歌语音识别离线linux

在研究语音识别的时候,看到了一些关于android上的google语音识别服务可以在android上离线下载和使用的文章。我也看到了一些关于在计算机上使用谷歌语音服务的东西,但它涉及查询谷歌服务器。所以这是我的问题:有什么方法可以通过计算机离线使用谷歌语音识别服务,特别是在 linux 上?

linux speech-recognition

9
推荐指数
1
解决办法
5391
查看次数

Win10 不断尝试安装“英语(美国)语音识别”并失败

几天以来,Windows 10 不断地向我发出错误消息“发生了一些事情,我们无法安装某个功能”。

通过单击错误消息,我将进入管理可选功能。历史记录列出了几次失败的安装尝试English (US) Speech Recognition。安装失败,错误为 0x80070422(像往常一样简洁,感谢微软)。

因此问题如下:

  • 为什么 Windows 10 会尝试安装此组件?我没有要求它,它对我来说没什么用。
  • 错误是什么意思(即为什么安装失败)?
  • 如何告诉 Windows 放弃?

在此处输入图片说明

speech-recognition windows-10

6
推荐指数
1
解决办法
9212
查看次数

是否有适用于 Ubuntu 的有效语音识别应用程序?

我正在寻找与 Dragon NaturallySpeaking、Windows Speech Recognition 或 MacSpeech Dictate 一样有效的东西——Ubuntu 除外。这样的事情存在吗?

open-source speech-recognition ubuntu

5
推荐指数
1
解决办法
822
查看次数

安装 Windows 7 语言包后是否可以获得额外的语音识别引擎?

我正在 Windows 7 上开发语音识别应用程序。我有一个使用 en-US 作为语言的 Windows 7 Home Premium。它配备了英语语音识别引擎

我希望能够在我的应用程序中在口语之间切换。经过一些研究,我发现在 Windows 7 Ultimate 上,您可以通过 Windows Update 安装 35 个额外的“语言包”,我正在考虑购买 Windows 7 Ultimate。

我的问题是:

从 Windows 更新安装任何语言包是否也会安装额外的语音识别引擎?

如果不可能,我怎样才能使我的演讲应用程序自动成为西班牙语、法语和德语的“流利”?

windows-7 language speech-recognition

5
推荐指数
1
解决办法
4698
查看次数

Gmail 中的语音转文本?

使用 Chrome 作为网络浏览器时,有什么方法可以在 gmail 中启用语音到文本(语音识别)?我真的很喜欢通过语音在 google.com 上搜索的功能,而且我也喜欢说我的邮件而不是打字。我尝试了几个 chrome 扩展,例如https://chrome.google.com/webstore/detail/speech-recognition-for-gm/ffnepgjlfiinpkplhjmehkdhnaaongdk?hl=d 但没有一个工作。我不知道为什么,因为该功能是相同的,因为语音识别 API 显然已经存在;所以它应该很容易让它也可以在gmail中使用!?至少从谷歌的角度来看......有什么想法吗?

gmail google-chrome speech-to-text speech-recognition google-chrome-extensions

5
推荐指数
1
解决办法
3万
查看次数

我如何向我的 PC 口述?

我见过人们对着他们的电脑说话的例子,它会写下他们所说的一切。如何使用 MS Office 2007 执行此操作?有没有其他程序也可以做到这一点?

windows speech-to-text speech-recognition voice-command

4
推荐指数
1
解决办法
4496
查看次数

Pocketsphinx 输出中的解码文本在哪里?

我想使用 Intel Edison 开发板将 .wav 文件转换为文本。我遵循了这个线程,并按照线程中的建议使用了pocketsphinx_continuous -infile命令。这给出了很长的 CLI 输出。不知道如何从中提取文本。任何人都可以帮忙吗?

root@edison:/# pocketsphinx_continuous -infile /usr/share/sounds/alsa/Front_Right.wav
INFO: cmd_ln.c(691): Parsing command line:
pocketsphinx_continuous \
        -infile /usr/share/sounds/alsa/Front_Right.wav

Current configuration:
[NAME]          [DEFLT]         [VALUE]
-adcdev
-agc            none            none
-agcthresh      2.0             2.000000e+00
-alpha          0.97            9.700000e-01
-argfile
-ascale         20.0            2.000000e+01
-aw             1               1
-backtrace      no              no
-beam           1e-48           1.000000e-48
-bestpath       yes             yes
-bestpathlw     9.5             9.500000e+00
-bghist         no              no
-ceplen         13              13
-cmn            current         current
-cmninit        8.0             8.0
-compallsen     no              no
-debug                          0
-dict
-dictcase       no …
Run Code Online (Sandbox Code Playgroud)

speech-recognition voice-command

1
推荐指数
1
解决办法
2154
查看次数