寻找将音频文件转录为文本的方法

Question

寻找将音频文件转录为文本的方法

我通过使用 Android 智能手机记录我的声音来记下很多备忘录。录音可以是简短的笔记，也可以是长篇的听写，因此它们的大小差异很大。根据我使用的应用程序，我将音频保存为 WAV 或 MP3 文件。

我想做的是将这些语音备忘录和听写转换为文本文件。

我发现这种方法理论上使用 pavucontrol 将音频播放传输到 Google Chrome 的语音到文本 API，但我无法让它工作。我已按照说明进行操作，但没有收到任何错误，只是在 Chrome 界面中没有看到任何文本。无论如何，这并不比将手机放在笔记本电脑麦克风前好多少。我希望在音频转换为文本时我不必听到音频，因为我可能会在咖啡店或其他地方使用笔记本电脑执行此操作。

理想情况下，会有一个软件可以加载一批声音文件，并且它会输出一批文本文件，每个音频文件一个。

Ubuntu 上有这样的软件或方法吗？

Answer 1

小智 2

尝试Mozilla DeepSpeech。它是用于自动转录的开源工具。但您需要训练该工具。您可以下载 Mozilla 的预训练模型，或者使用Mozilla 的语音数据集创建您自己的模型，并且可以使用它进行英语录音。对于非常清晰的录音来说，准确率是比较好的。但对于我的转录项目来说，这仍然不够，因为录音有很多背景噪音，质量不好，我使用了Transcribear，它是基于网络的编辑器，允许自动转录，但你需要连接在线将录音上传到 Transcribear 服务器。

Answer 2

小智 0

AutoSub是一个开源 Python 脚本，用于使用 Mozilla DeepSpeech 或 Coqui STT 为任何视频文件生成字幕文件（.srt、.vtt 和 .txt 转录本）。他们使用开源模型对音频片段进行推理，并使用 pyAudioAnalysis 将初始音频分割为无声片段，生成多个较小的文件（使推理变得容易）。

主要开发人员还发表了一篇关于他的工作的文章，名为：使用 Mozilla DeepSpeech 为任何视频文件生成字幕。

归档时间：	9 年，10 月前
查看次数：	4920 次
最近记录：	2 年，10 月前