1. 研究目的与意义
“阿里巴巴和四十个大盗”的故事脍炙人口,其中阿里巴巴用自然语言说出了开启山洞宝库的密码口令“芝麻开门”,而得以进入宝库拿取了强盗们的不义之财,更是令人拍手叫好。但是这也给我们提出了一个问题:如果站在宝库门禁安全的角度,强盗们的这个宝库门禁系统存在严重的安全缺陷。为什么强盗们的这个宝库门禁不能够区分说出正确密码的人是“强盗们”还是“阿里巴巴”呢?
这是因为单模态生物识别系统在应用中表现出许多局限性和弊端,具体表现为:
复杂环境下某些生物特征在采集过程中易受干扰,生物特征伪造技术的进步使得单模态识别系统存在安全隐患等影响了生物识别技术的广泛推广。
2. 研究内容和预期目标
本课题主要研究人体姿态识别算法,语音识别算法和多模态生物特征融合算法,设计并实现一种基于人体姿态估计和语音识别组合验证的身份识别系统,并将其应用于智能安防身份安全认证模块中,解决单模态生物特征识别的局限性和弊端,从而大大加强安防系统的安全性。
预期目标就是能够实现这个基于人体姿态识别和语音识别组合验证的身份识别系统,并且通过深度学习,尽可能的提高识别的准确性,为实现可靠便捷无接触的人机自然交互提供技术支撑。
3. 研究的方法与步骤
研究方法:
openpose人体姿态识别项目是美国卡耐基梅隆大学(cmu)基于卷积神经网络和监督学习并以caffe为框架开发的开源库。可以实现人体动作、面部表情、手指运动等姿态估计。适用于单人和多人,具有极好的鲁棒性。是世界上首个基于深度学习的实时多人二维姿态估计应用。实现原理:输入一幅图像,经过卷积网络提取特征,得到一组特征图,然后分成两个岔路,分别使用 cnn网络提取part confidence maps 和 part affinity fields;得到这两个信息后,我们使用图论中的 bipartite matching(偶匹配) 求出part association,将同一个人的关节点连接起来,由于paf自身的矢量性,使得生成的偶匹配很正确,最终合并为一个人的整体骨架;最后基于pafs求multi-person parsing—把multi-person parsing问题转换成graphs问题—hungarian algorithm(匈牙利算法)
声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。梅尔频率倒谱系数(mfcc)通过与声音内容密切相关的13个特殊频率所对应的能量分布,可以使用梅尔频率倒谱系数矩阵作为语音识别的特征。基于隐形马尔科夫模型进行模式识别,找到测试样本最匹配的声音模型,从而识别语音内容。
4. 参考文献
[1] 陈勤,自然语言处理基本理论和方法[m],哈尔滨工业大学出版社,2013.08.
[2] chris manning/hinrich schütze 著,苑春法/李伟/李庆中 译,统计自然语言处理基础[m],电子工业出版社,2005.12
[3] 米歇尔(mitchell t.m.) (作者),曾华军(译者),等(译者),机器学习[m],机械工业出版社, 2008.03
5. 计划与进度安排
(1)1月11日至2月15日分析课题,查找资料。
(2)2月16日至2月28日完成需求分析。
(3)3月01日至3月16日完成开题报告。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。