我从视频文件中提取音频剪辑以进行语音识别。这些视频来自移动/其他手工设备,因此包含大量噪音。我想降低音频的背景噪音,以便我传递给语音识别引擎的语音清晰。我正在使用 ffmpeg 来完成所有这些工作,但我仍停留在降噪阶段。
到目前为止,我已经尝试过以下过滤器:
ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav
ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav
ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
Run Code Online (Sandbox Code Playgroud)
但结果非常令人失望。我的理由是,由于语音低于 300-3000 Hz 范围,我可以过滤掉所有其他频率以抑制任何背景噪音。我错过了什么?
此外,我阅读了有关可用于语音增强的韦纳过滤器并发现了这一点,但我不确定如何使用它。
我有很多讲座视频内容,我想要字幕。YouTube 会在特定条件下自动为视频生成字幕(这些条件对我来说仍然有些神秘)。
我希望能够在 YouTube 之外使用这种语音识别技术。我不想上传每个视频只是为了获得成绩单(太耗时),另外,我认为 YouTube 不会为时长超过 30 分钟的视频(大多数是)这样做,此外,我不要认为它会用于非公开列出的视频(这是一个问题,因为它是旨在出售的优质内容)。
完美场景:有一个程序可以从我的桌面上运行以从这些视频中获取转录内容,它的质量与 YouTube 相同或更好,并且具有类似于 SRT 或 YouTube 生成的 XML 的时间码 [如何获取 YouTube 字幕]。
可接受的情况:我可以采取一些技巧来强制 YouTube 转录视频,无论设置为私人还是公开,无论长度如何。
可行方案:有一个库或其他东西可以用来编写我自己的程序。我擅长 C#,也擅长 C++(但我真的更喜欢 C#)。
我正在寻找一个独立于扬声器的程序(商业或免费),它使我能够将包含语音录音(尤其是播客)的 MP3 文件转录为文本。我想试试龙语自然,但它似乎只支持转录我自己的演讲录音。那么有哪些替代方案呢?
我已经安装了 Windows 8 Pro(来自 MSDN 的 RTM 版本)。对于我使用的应用程序,我需要将语音识别语言设置为英语 - 美国。我唯一的选择是英语 - 英国。我曾尝试转到控制面板中的语言并将唯一语言设置为英语 - 美国,但是英语 - 英国仍然是语音属性中的唯一选项。
如何向语音属性添加语言?
在研究语音识别的时候,看到了一些关于android上的google语音识别服务可以在android上离线下载和使用的文章。我也看到了一些关于在计算机上使用谷歌语音服务的东西,但它涉及查询谷歌服务器。所以这是我的问题:有什么方法可以通过计算机离线使用谷歌语音识别服务,特别是在 linux 上?
几天以来,Windows 10 不断地向我发出错误消息“发生了一些事情,我们无法安装某个功能”。
通过单击错误消息,我将进入管理可选功能。历史记录列出了几次失败的安装尝试English (US) Speech Recognition。安装失败,错误为 0x80070422(像往常一样简洁,感谢微软)。
因此问题如下:
我正在寻找与 Dragon NaturallySpeaking、Windows Speech Recognition 或 MacSpeech Dictate 一样有效的东西——Ubuntu 除外。这样的事情存在吗?
我正在 Windows 7 上开发语音识别应用程序。我有一个使用 en-US 作为语言的 Windows 7 Home Premium。它配备了英语语音识别引擎。
我希望能够在我的应用程序中在口语之间切换。经过一些研究,我发现在 Windows 7 Ultimate 上,您可以通过 Windows Update 安装 35 个额外的“语言包”,我正在考虑购买 Windows 7 Ultimate。
我的问题是:
从 Windows 更新安装任何语言包是否也会安装额外的语音识别引擎?
如果不可能,我怎样才能使我的演讲应用程序自动成为西班牙语、法语和德语的“流利”?
使用 Chrome 作为网络浏览器时,有什么方法可以在 gmail 中启用语音到文本(语音识别)?我真的很喜欢通过语音在 google.com 上搜索的功能,而且我也喜欢说我的邮件而不是打字。我尝试了几个 chrome 扩展,例如https://chrome.google.com/webstore/detail/speech-recognition-for-gm/ffnepgjlfiinpkplhjmehkdhnaaongdk?hl=d 但没有一个工作。我不知道为什么,因为该功能是相同的,因为语音识别 API 显然已经存在;所以它应该很容易让它也可以在gmail中使用!?至少从谷歌的角度来看......有什么想法吗?
gmail google-chrome speech-to-text speech-recognition google-chrome-extensions
我见过人们对着他们的电脑说话的例子,它会写下他们所说的一切。如何使用 MS Office 2007 执行此操作?有没有其他程序也可以做到这一点?
我想使用 Intel Edison 开发板将 .wav 文件转换为文本。我遵循了这个线程,并按照线程中的建议使用了pocketsphinx_continuous -infile命令。这给出了很长的 CLI 输出。不知道如何从中提取文本。任何人都可以帮忙吗?
root@edison:/# pocketsphinx_continuous -infile /usr/share/sounds/alsa/Front_Right.wav
INFO: cmd_ln.c(691): Parsing command line:
pocketsphinx_continuous \
-infile /usr/share/sounds/alsa/Front_Right.wav
Current configuration:
[NAME] [DEFLT] [VALUE]
-adcdev
-agc none none
-agcthresh 2.0 2.000000e+00
-alpha 0.97 9.700000e-01
-argfile
-ascale 20.0 2.000000e+01
-aw 1 1
-backtrace no no
-beam 1e-48 1.000000e-48
-bestpath yes yes
-bestpathlw 9.5 9.500000e+00
-bghist no no
-ceplen 13 13
-cmn current current
-cmninit 8.0 8.0
-compallsen no no
-debug 0
-dict
-dictcase no …Run Code Online (Sandbox Code Playgroud)