标签: speech-recognition

使用 ffmpeg 减少背景噪音并优化音频剪辑中的语音

我从视频文件中提取音频剪辑以进行语音识别。这些视频来自移动/其他手工设备，因此包含大量噪音。我想降低音频的背景噪音，以便我传递给语音识别引擎的语音清晰。我正在使用 ffmpeg 来完成所有这些工作，但我仍停留在降噪阶段。

到目前为止，我已经尝试过以下过滤器：

ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav

ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav

ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav

Run Code Online (Sandbox Code Playgroud)

但结果非常令人失望。我的理由是，由于语音低于 300-3000 Hz 范围，我可以过滤掉所有其他频率以抑制任何背景噪音。我错过了什么？

此外，我阅读了有关可用于语音增强的韦纳过滤器并发现了这一点，但我不确定如何使用它。

audio noise voice speech-recognition ffmpeg

Sud*_*udh

2018 04-25

52
推荐指数

5
解决办法

6万
查看次数

如何在不将视频上传到 YouTube 的情况下使用 Google 的 YouTube 语音识别？

我有很多讲座视频内容，我想要字幕。YouTube 会在特定条件下自动为视频生成字幕（这些条件对我来说仍然有些神秘）。

我希望能够在 YouTube 之外使用这种语音识别技术。我不想上传每个视频只是为了获得成绩单（太耗时），另外，我认为 YouTube 不会为时长超过 30 分钟的视频（大多数是）这样做，此外，我不要认为它会用于非公开列出的视频（这是一个问题，因为它是旨在出售的优质内容）。

完美场景：有一个程序可以从我的桌面上运行以从这些视频中获取转录内容，它的质量与 YouTube 相同或更好，并且具有类似于 SRT 或 YouTube 生成的 XML 的时间码 [如何获取 YouTube 字幕]。

可接受的情况：我可以采取一些技巧来强制 YouTube 转录视频，无论设置为私人还是公开，无论长度如何。

可行方案：有一个库或其他东西可以用来编写我自己的程序。我擅长 C#，也擅长 C++（但我真的更喜欢 C#）。

video youtube speech-to-text speech-recognition

287*_*352

2017 04-13

17
推荐指数

1
解决办法

3万
查看次数

语音识别-MP3转文字软件

我正在寻找一个独立于扬声器的程序（商业或免费），它使我能够将包含语音录音（尤其是播客）的 MP3 文件转录为文本。我想试试龙语自然，但它似乎只支持转录我自己的演讲录音。那么有哪些替代方案呢？

mp3 voice speech-to-text speech-recognition

pak*_*ako

2010 04-07

16
推荐指数

2
解决办法

2万
查看次数

Windows 8 语音识别语言

我已经安装了 Windows 8 Pro（来自 MSDN 的 RTM 版本）。对于我使用的应用程序，我需要将语音识别语言设置为英语 - 美国。我唯一的选择是英语 - 英国。我曾尝试转到控制面板中的语言并将唯一语言设置为英语 - 美国，但是英语 - 英国仍然是语音属性中的唯一选项。

如何向语音属性添加语言？在此处输入图片说明

speech-recognition windows-8

Gre*_*reg

lucky-day

9
推荐指数

2
解决办法

2万
查看次数

谷歌语音识别离线linux

在研究语音识别的时候，看到了一些关于android上的google语音识别服务可以在android上离线下载和使用的文章。我也看到了一些关于在计算机上使用谷歌语音服务的东西，但它涉及查询谷歌服务器。所以这是我的问题：有什么方法可以通过计算机离线使用谷歌语音识别服务，特别是在 linux 上？

linux speech-recognition

Nat*_*han

2016 08-07

9
推荐指数

1
解决办法

5391
查看次数

Win10 不断尝试安装“英语（美国）语音识别”并失败

几天以来，Windows 10 不断地向我发出错误消息“发生了一些事情，我们无法安装某个功能”。

通过单击错误消息，我将进入管理可选功能。历史记录列出了几次失败的安装尝试English (US) Speech Recognition。安装失败，错误为 0x80070422（像往常一样简洁，感谢微软）。

因此问题如下：

为什么 Windows 10 会尝试安装此组件？我没有要求它，它对我来说没什么用。
错误是什么意思（即为什么安装失败）？
如何告诉 Windows 放弃？

speech-recognition windows-10

dr_*_*dr_

lucky-day

6
推荐指数

1
解决办法

9212
查看次数

是否有适用于 Ubuntu 的有效语音识别应用程序？

我正在寻找与 Dragon NaturallySpeaking、Windows Speech Recognition 或 MacSpeech Dictate 一样有效的东西——Ubuntu 除外。这样的事情存在吗？

open-source speech-recognition ubuntu

Pan*_*ake

2010 02-23

5
推荐指数

1
解决办法

822
查看次数

安装 Windows 7 语言包后是否可以获得额外的语音识别引擎？

我正在 Windows 7 上开发语音识别应用程序。我有一个使用 en-US 作为语言的 Windows 7 Home Premium。它配备了英语语音识别引擎。

我希望能够在我的应用程序中在口语之间切换。经过一些研究，我发现在 Windows 7 Ultimate 上，您可以通过 Windows Update 安装 35 个额外的“语言包”，我正在考虑购买 Windows 7 Ultimate。

我的问题是：

从 Windows 更新安装任何语言包是否也会安装额外的语音识别引擎？

如果不可能，我怎样才能使我的演讲应用程序自动成为西班牙语、法语和德语的“流利”？

windows-7 language speech-recognition

作者

2013 09-11

5
推荐指数

1
解决办法

4698
查看次数

使用 Chrome 作为网络浏览器时，有什么方法可以在 gmail 中启用语音到文本（语音识别）？我真的很喜欢通过语音在 google.com 上搜索的功能，而且我也喜欢说我的邮件而不是打字。我尝试了几个 chrome 扩展，例如https://chrome.google.com/webstore/detail/speech-recognition-for-gm/ffnepgjlfiinpkplhjmehkdhnaaongdk?hl=d 但没有一个工作。我不知道为什么，因为该功能是相同的，因为语音识别 API 显然已经存在；所以它应该很容易让它也可以在gmail中使用！？至少从谷歌的角度来看......有什么想法吗？

gmail google-chrome speech-to-text speech-recognition google-chrome-extensions

tim*_*tim

2016 08-07

5
推荐指数

1
解决办法

3万
查看次数

我如何向我的 PC 口述？

我见过人们对着他们的电脑说话的例子，它会写下他们所说的一切。如何使用 MS Office 2007 执行此操作？有没有其他程序也可以做到这一点？

windows speech-to-text speech-recognition voice-command

Axx*_*err

2009 08-07

4
推荐指数

1
解决办法

4496
查看次数

Pocketsphinx 输出中的解码文本在哪里？

我想使用 Intel Edison 开发板将 .wav 文件转换为文本。我遵循了这个线程，并按照线程中的建议使用了pocketsphinx_continuous -infile命令。这给出了很长的 CLI 输出。不知道如何从中提取文本。任何人都可以帮忙吗？

root@edison:/# pocketsphinx_continuous -infile /usr/share/sounds/alsa/Front_Right.wav
INFO: cmd_ln.c(691): Parsing command line:
pocketsphinx_continuous \
        -infile /usr/share/sounds/alsa/Front_Right.wav

Current configuration:
[NAME]          [DEFLT]         [VALUE]
-adcdev
-agc            none            none
-agcthresh      2.0             2.000000e+00
-alpha          0.97            9.700000e-01
-argfile
-ascale         20.0            2.000000e+01
-aw             1               1
-backtrace      no              no
-beam           1e-48           1.000000e-48
-bestpath       yes             yes
-bestpathlw     9.5             9.500000e+00
-bghist         no              no
-ceplen         13              13
-cmn            current         current
-cmninit        8.0             8.0
-compallsen     no              no
-debug                          0
-dict
-dictcase       no …

Run Code Online (Sandbox Code Playgroud)

speech-recognition voice-command

mda*_*dam

2017 05-23

1
推荐指数

1
解决办法

2154
查看次数