如何自动转录 Skype 会议，并正确归属于每个参与者？

假设每个参与者都同意 Skype 通话的录音和转录，是否有一种方法可以转录会议（实时或离线或两者兼而有之），以便生成文本记录，其中每个口头文本都正确归属于发言者。然后可以将转录本输入到任何类型的搜索或 NLP 算法中。

“自动转录 Skype”的 Google 搜索前 3 名指的是使手动转录变得更容易的应用程序：

虽然录制音频并将其发送到语音转文本引擎很简单，但我怀疑它的质量是否会非常高，因为最好的结果通常是依赖于说话者的模型（否则我们就不必花时间来训练龙自然言）。

但是，在我们选择说话者相关转录模型之前，我们需要知道音频的哪个片段属于哪个说话者。有两种方法可以解决这个问题：

有一种简单的方法可以检索来自每个参与者的所有音频，例如，您只需在通话期间记录每个扬声器麦克风的所有音频，而无需进行任何分段。
如果第一个选项在某种程度上不可行或令人望而却步，我们必须使用说话人分类算法，该算法将音频分割成 N 个簇/说话人（大多数算法允许知道音频中有多少个说话人，但有些算法可以自己解决这个问题）。对于通话过程中的实时转录，我想我们需要一些奇特的实时说话者分类算法。

无论如何，一旦解决了分割问题，每个参与者都会拥有经过训练的说话者模型，然后将其应用于他们的音频部分。一天结束时，每个人都会得到一份不错的对话记录，稍后我们可以做一些花哨的事情，比如主题分析，或者也许老大哥想要筛选每个人的项目会议，而不必听几个小时的音频。

我的问题是，在实践中实施这一点的方法是什么？