287*_*352 17 video youtube speech-to-text speech-recognition
我有很多讲座视频内容,我想要字幕。YouTube 会在特定条件下自动为视频生成字幕(这些条件对我来说仍然有些神秘)。
我希望能够在 YouTube 之外使用这种语音识别技术。我不想上传每个视频只是为了获得成绩单(太耗时),另外,我认为 YouTube 不会为时长超过 30 分钟的视频(大多数是)这样做,此外,我不要认为它会用于非公开列出的视频(这是一个问题,因为它是旨在出售的优质内容)。
完美场景:有一个程序可以从我的桌面上运行以从这些视频中获取转录内容,它的质量与 YouTube 相同或更好,并且具有类似于 SRT 或 YouTube 生成的 XML 的时间码 [如何获取 YouTube 字幕]。
可接受的情况:我可以采取一些技巧来强制 YouTube 转录视频,无论设置为私人还是公开,无论长度如何。
可行方案:有一个库或其他东西可以用来编写我自己的程序。我擅长 C#,也擅长 C++(但我真的更喜欢 C#)。
fou*_*deg 10
Google 在 Chrome 中实现了Web Speech API(用于语音识别和合成),如果您是开发人员,您可以使用它。这是 YouTube 用于在某些视频上生成隐藏式字幕的方法。也许您会找到与之交互的代码。
数据流可能是:
视频文件 => 提取和转换音频 => 将其发送到 Google API => 获取文本 => 写入 SRT。
编辑:除了 W3C 规范之外,似乎没有官方 API 页面。所以这里有更多链接:
这些示例是关于在 Chrome 内部使用 API,但您可以直接查询 Google 的在线语音识别引擎。例如,Jasper是 Raspberry Pi 的语音识别个人助理,可让您选择 Google作为语音识别引擎。
| 归档时间: |
|
| 查看次数: |
26017 次 |
| 最近记录: |