如何自动转录 Skype 会议,并正确归属于每个参与者?

use*_*238 5 nlp skype audio-recording speech-to-text transcription

假设每个参与者都同意 Skype 通话的录音和转录,是否有一种方法可以转录会议(实时或离线或两者兼而有之),以便生成文本记录,其中每个口头文本都正确归属于发言者。然后可以将转录本输入到任何类型的搜索或 NLP 算法中。

“自动转录 Skype”的 Google 搜索前 3 名指的是使手动转录变得更容易的应用程序:

(1) http://www.dummies.com/how-to/content/how-to-convert-skype-audio-to-text-with-transcribe.html

(2) http://ask.metafilter.com/231400/How-to-record-and-transcribe-Skype-conversation

(3) https://www.ttetranscripts.com/blog/how-to-record-and-transcribe-your-skype-conversations

虽然录制音频并将其发送到语音转文本引擎很简单,但我怀疑它的质量是否会非常高,因为最好的结果通常是依赖于说话者的模型(否则我们就不必花时间来训练龙自然言)。

但是,在我们选择说话者相关转录模型之前,我们需要知道音频的哪个片段属于哪个说话者。有两种方法可以解决这个问题:

  1. 有一种简单的方法可以检索来自每个参与者的所有音频,例如,您只需在通话期间记录每个扬声器麦克风的所有音频,而无需进行任何分段。

  2. 如果第一个选项在某种程度上不可行或令人望而却步,我们必须使用说话人分类算法,该算法将音频分割成 N 个簇/说话人(大多数算法允许知道音频中有多少个说话人,但有些算法可以自己解决这个问题)。对于通话过程中的实时转录,我想我们需要一些奇特的实时说话者分类算法。

无论如何,一旦解决了分割问题,每个参与者都会拥有经过训练的说话者模型,然后将其应用于他们的音频部分。一天结束时,每个人都会得到一份不错的对话记录,稍后我们可以做一些花哨的事情,比如主题分析,或者也许老大哥想要筛选每个人的项目会议,而不必听几个小时的音频。

我的问题是,在实践中实施这一点的方法是什么?