如何标点YouTube成绩单?

Wil*_*iam 10 youtube transcription closed-captions

在 Youtube 上,我可以下载视频的 CC 抄本,但抄本不包含标点符号。我怎样才能自动标点成绩单?

小智 10

这是自然语言处理(NLP)中研究的一个问题,通常称为标点符号恢复。有一些深度学习解决方案可以实现这一点,但它们并不完美,尽管它们可以取得不错的结果。您可以尝试使用https://github.com/ottokart/punctuator2,它基于本文。(你可以在这里尝试一下)。


小智 5

2023 年有多种方法可以实现这一目标:

  1. 使用聊天GPT。它工作得很好,但由于输入文本的限制,对于长视频(60 分钟以上)来说这是一个相当麻烦的过程。除了处理批次之外,您还必须控制每个批次的输出质量,因为它还不是 100% 一致。
  2. 使用深度多语言标点预测。它可以以 77% 的准确率恢复英文文本的标点符号。但它不会修复大写字母。
  3. 使用yt-dlpWhisper。从 Youtube 下载 mp3 并运行 Whisper。这个 OpenAI 的模型可以很好地完成语音到文本的转换,并提供带标点符号的输出。但对于长视频/音频来说,速度相当慢(处理 60 分钟的音频大约需要 30 分钟)。实施示例
  4. 使用yt-dlptweet.cpp。这样工作速度更快,处理 60 分钟的音频只需不到 10 分钟。我的示例实现
  5. 使用Shoki.app


Car*_*son 4

无法从 YouTube 获取它们,您必须自己生成它们。谷歌提供了一项为任意文本生成标点符号的服务,从我个人的经验来看,它比一些竞争对手更准确,所以我会通过它来运行它。

  • 该服务要求您从视频中提取音频并上传。而且这是一项付费服务​​。 (2认同)