帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于融合语音和图像的双模态身份识别研究

导  师: 余荣;卢磊

授予学位: 硕士

作  者: ();

机构地区: 广东工业大学

摘  要: 准确高效的身份识别和认证技术被推到了重要的位置。身份识别逐渐成为人工智能和人机交互领域的一个重要研究方向,具有深远的理论意义和应用前景,通过阅读国内外大量的文献与资料,发现人脸识别作为身份识别中的一种且在人脸识别研究中鉴于单一模态人脸特征的局限性。提出融合语音和人脸图像的双模态身份识别方法,并进行了较深入的研究。发现两者可以取长补短、有着互补的作用,实验证明,融合语音和人脸图像的双模态身份识别方法会有更好的识别性能。  针对融合语音和图像的双模态身份识别研究,本文研究内容与创新点主要如下:  (1)自建语音和人脸数据库,为保证语音识别过程中随着被测试人的情感变化增加识别的稳定性,语音库选用采集情感语音数据库,获取同一个人其中立、高兴、惊奇、悲伤、愤怒五种情感状态下的发音。人脸库采集尽可能多的选取图像预处理后表情丰富、多方向、不同距离等有代表性的JPG格式图片。  (2)语音识别方面采用提取音频的MFCC特征,选取隐马尔可夫模型(HMM)分类器进行语音识别,经实验选取60维的MFCC特征识别率达到最高为75.3%,为了进一步提高语音识别率,提出一种63维特征的语音识别方法,即在此基础上提出将取对数后的 MFCC、平均短时能量、平均过0率(ZCR)标准差、共振峰四个语音特征进行特征融合组成63维的语音特征向量,用同种分类方法得出识别率达到82.6%。比之前的只提取单模态情形下的MFCC特征参数识别率高出了7.3%。  (3)在LBP算子的基础上进行改进,提出了一种W-LBP算法强化面部特征。并采用Adaboost算法进行人脸检测与定位。实验表明,W-LBP算法较好的二值化能够使得接下来的人脸定位更加准确。  (4)人脸识别中为了弥补PCA方法对样�

关 键 词: 语音识别 人脸识别 双模态 身份识别

领  域: [] []

相关作者

作者 李鸣亮
作者 赵丽翔
作者 黄雪琪
作者 孙倩
作者 陈嘉华

相关机构对象

机构 中山大学
机构 广东外语外贸大学
机构 暨南大学
机构 香港中文大学
机构 暨南大学文学院

相关领域作者