Nic*_*kon 6 algorithm gesture-recognition gestures hidden-markov-models kinect
我想开发一个使用Kinect和手势识别的应用程序hidden Markov models.我在这里看了一个教程:HMM讲座
但我不知道如何开始.什么是状态集以及如何规范化数据以实现HMM学习?我知道(或多或少)应该如何处理信号和简单的"从左到右"的情况,但3D空间让我有点困惑.谁能形容它应该如何开始?
谁能形容这些步骤,怎么做?特别是我需要知道如何做模型以及HMM算法的步骤应该是什么.
use*_*913 10
用于将HMM应用于手势识别的一组方法将是应用与通常用于语音识别的类似架构.
HMM不会在空间上,而是随着时间的推移,并且每个视频帧(或来自帧的一组提取的特征)将是来自HMM状态的发射.
不幸的是,基于HMM的语音识别是一个相当大的领域.已经编写了许多书籍和论文来描述不同的架构.我建议从耶利内克的"统计方法的语音识别"(http://books.google.ca/books?id=1C9dzcJTWowC&pg=PR5#v=onepage&q&f=false)然后按照从那里引用.另一个资源是CMU sphinx网页(http://cmusphinx.sourceforge.net).
另外要记住的是,基于HMM的系统可能不如条件随机字段或最大边距识别器(例如SVM-struct)等判别方法准确.
对于基于HMM的识别器,整个培训过程通常类似于以下内容:
1)对原始数据执行某种信号处理
2)对处理后的数据应用矢量量化(VQ)(也可以使用其他降维技术)
3)手动构造HMM,其状态转换捕获手势内不同姿势的序列.
这些HMM状态的发射分布将以来自步骤2的VQ向量为中心.
在语音识别中,这些HMM是由音素字典构建的,它为每个单词提供音素序列.
4)构造包含每个单独手势HMM之间的转换的单个HMM(或者在语音识别的情况下,每个音素HMM).然后,使用手势视频训练复合HMM.
在识别过程中,应用所述信号处理步骤中,找到每个帧最近的VQ条目,然后找到一个高得分通过HMM(或者维特比路径的一组路径中的一个从A*搜索或)给出的路径量化矢量.此路径提供视频中的预测手势.