如何在不将视频上传到 YouTube 的情况下使用 Google 的 YouTube 语音识别？

Question

我有很多讲座视频内容，我想要字幕。YouTube 会在特定条件下自动为视频生成字幕（这些条件对我来说仍然有些神秘）。

我希望能够在 YouTube 之外使用这种语音识别技术。我不想上传每个视频只是为了获得成绩单（太耗时），另外，我认为 YouTube 不会为时长超过 30 分钟的视频（大多数是）这样做，此外，我不要认为它会用于非公开列出的视频（这是一个问题，因为它是旨在出售的优质内容）。

完美场景：有一个程序可以从我的桌面上运行以从这些视频中获取转录内容，它的质量与 YouTube 相同或更好，并且具有类似于 SRT 或 YouTube 生成的 XML 的时间码 [如何获取 YouTube 字幕]。

可接受的情况：我可以采取一些技巧来强制 YouTube 转录视频，无论设置为私人还是公开，无论长度如何。

可行方案：有一个库或其他东西可以用来编写我自己的程序。我擅长 C#，也擅长 C++（但我真的更喜欢 C#）。

Answer 1

Google 在 Chrome 中实现了Web Speech API（用于语音识别和合成），如果您是开发人员，您可以使用它。这是 YouTube 用于在某些视频上生成隐藏式字幕的方法。也许您会找到与之交互的代码。

数据流可能是：

视频文件 => 提取和转换音频 => 将其发送到 Google API => 获取文本 => 写入 SRT。

编辑：除了 W3C 规范之外，似乎没有官方 API 页面。所以这里有更多链接：

这些示例是关于在 Chrome 内部使用 API，但您可以直接查询 Google 的在线语音识别引擎。例如，Jasper是 Raspberry Pi 的语音识别个人助理，可让您选择 Google作为语音识别引擎。