寻找将音频文件转录为文本的方法

Que*_*ner 5 sound microphone conversion

我通过使用 Android 智能手机记录我的声音来记下很多备忘录。录音可以是简短的笔记,也可以是长篇的听写,因此它们的大小差异很大。根据我使用的应用程序,我将音频保存为 WAV 或 MP3 文件。

我想做的是将这些语音备忘录和听写转换为文本文件。

我发现这种方法理论上使用 pavucontrol 将音频播放传输到 Google Chrome 的语音到文本 API,但我无法让它工作。我已按照说明进行操作,但没有收到任何错误,只是在 Chrome 界面中没有看到任何文本。无论如何,这并不比将手机放在笔记本电脑麦克风前好多少。我希望在音频转换为文本时我不必听到音频,因为我可能会在咖啡店或其他地方使用笔记本电脑执行此操作。

理想情况下,会有一个软件可以加载一批声音文件,并且它会输出一批文本文件,每个音频文件一个。

Ubuntu 上有这样的软件或方法吗?

小智 2

尝试Mozilla DeepSpeech。它是用于自动转录的开源工具。但您需要训练该工具。您可以下载 Mozilla 的预训练模型,或者使用Mozilla 的语音数据集创建您自己的模型,并且可以使用它进行英语录音。对于非常清晰的录音来说,准确率是比较好的。但对于我的转录项目来说,这仍然不够,因为录音有很多背景噪音,质量不好,我使用了Transcribear,它是基于网络的编辑器,允许自动转录,但你需要连接在线将录音上传到 Transcribear 服务器。


小智 0

AutoSub是一个开源 Python 脚本,用于使用 Mozilla DeepSpeech 或 Coqui STT 为任何视频文件生成字幕文件(.srt、.vtt 和 .txt 转录本)。他们使用开源模型对音频片段进行推理,并使用 pyAudioAnalysis 将初始音频分割为无声片段,生成多个较小的文件(使推理变得容易)。

主要开发人员还发表了一篇关于他的工作的文章,名为:使用 Mozilla DeepSpeech 为任何视频文件生成字幕