Rel*_*lla 9 c c++ algorithm audio signal-processing
有长扬声器带有3个扬声器,如何获得有关mouthes打开/关闭的信息?我们有录音,有多个扬声器.声音清晰,不需要降噪.我们想创建一些说3d头的动画.一般我们想从声音数据mouthes运动中找出.
真的,我们通过一些默认动画以某种方式移动3D头.就像我们为每个人准备O声音动画一样,我们需要一些信息:哪个人产生哪个声音毫秒?
所以它就像是语音到文字,但对于声音和一个人在一次录音中.

通常(完美的情况)我们想要获得关于D9,D6,D5点对的运动的一些信号.来自不止一位发言者,当然还有英语.
有没有关于算法或开源库的论文?
到目前为止,我找到了一些库
http://freespeech.sourceforge.net/ http://cmusphinx.sourceforge.net/
但是我从来没有用过任何一个......
这是"鸡尾酒会问题"或其概括," 盲信号分离 "的一个例子.
不幸的是,虽然如果你有N个麦克风录制N个扬声器,但是存在良好的算法,但是使用麦克风比使用更少麦克风的盲算法的性能非常糟糕.所以那些帮助不大.
我知道没有特别强大的方法(当然不像五年前那样),即使有额外的数据也能将扬声器分开.您可以在人类注释的语音谱图上训练分类器,以便它可以选择谁是谁,然后可能使用与说话者无关的语音识别来试图找出所说的内容,然后使用3D说话模型用于高端视频游戏或电影特效.但它不会很好.
你最好雇佣三个演员来听录音带,然后每个人在录制时都会背诵其中一个演讲者.只需更少的时间,精力和金钱,您将获得更逼真的外观.如果您想拥有各种3D角色,请在演员的脸上放置标记并捕捉其位置,然后将其用作3D模型上的控制点.
我认为您正在寻找所谓的“盲信号分离”。对此进行调查的学术论文是:
\n\n\n盲信号分离:统计原理 (pdf)
\nJean-Fran\xc3\xa7ois Cardoso,CNRS 和 ENST
\n摘要\xe2\x80\x94 盲信号分离(BSS)和独立分量分析(ICA)是阵列处理和数据分析的新兴技术,旨在从观测到的信号中恢复未观测到的信号或\xe2\x80\x98sources\xe2\x80\x99混合物(通常是传感器阵列的输出),仅利用信号之间相互独立的假设。假设的弱点使其成为一种强大的方法,但需要冒险超越熟悉的二阶统计数据。本文的目的是回顾最近为解决这个令人兴奋的问题而开发的一些方法,以展示它们如何源于基本原理以及它们如何相互关联。
\n
我不知道你想做的事情有多实际,或者如果可行的话可能需要做多少工作。
\n