Google Meet：WebRTC 点对点和语音到文本

Question

我在 Google Meet 上开会，看到你可以打开实时字幕。他们实际上在这里有一个关于如何实时语音到文本的演示，所以这一点不会让我感到困惑。

我也一直想尝试使用 WebRTC（我相信 GoogleMeet 会使用它）只是为了看看它的功能——例如，无需任何其他屏幕即可共享屏幕的能力。

但是，我一直认为 WebRTC 视频/音频流是客户端点对点的。因此，我的问题是

他们是如何实现这一点的——如果他们不使用 WebRTC，是否可以通过 WebRTC 实现这一点？

Answer 1

Google Meet 正在使用 WebRTC。在这种情况下，“对等方”是服务器，而不是浏览器。虽然 6 岁了，一些细节发生了变化，但这篇旧文章的大部分内容仍然是真实的。从服务器谷歌可以进行音频处理。

该视频描述了语音到文本（实际上是翻译 + 文本到语音）所需的架构。