导 师: 乔宇; 王亚立
授予学位: 硕士
作 者: ;
机构地区: 中国科学院深圳先进技术研究院
摘 要: 啼哭是婴儿与外界交流的主要方式,也是人类早期语言的一种雏形。早期婴儿大部分时间处于睡眠状态,如果在婴儿睡眠期间进行哭声状态监控并进行实时提醒,能减少监护人很多不必要的看护时间,对减轻监护人的心理压力及负担有着?分重要的现实意义。目前在国内外已经出现了一些结合摄像头或传感器使用的婴儿睡眠状态下的无人看护系统,能在婴儿醒来哭闹时发出预警。但是购买和使用额外的设备需要用户付出较高成本,另外除了结合视频监控及动作捕捉的系统识别率较高外,只进行音频监控的系统都普遍存在识别率偏低的问题。为了降低用户的使用门槛及成本,本文提出了一个基于移动端设备应用的音频监控系统,结合主流的深度学习与模式识别方法,并提供动态更新和扩展终端的识别能力,方便更多家庭用上低成本且相对高效的婴儿智能看护系统。主要工作内容有以下几个部分:1.建立监控场景下的婴儿哭声数据库,数据来自Freesound数据源,主要是个人用户在室内环境使用手机等设备录制上传的音频数据,通过用户自定义标签及分类信息收集整理了四个数据类别:婴儿哭声、婴儿笑声、背景白噪声及环境噪音。2.利用基于GMM Fisher Vector的婴儿哭声音频特征提取方法,解决由于啼哭声时长不同引起的特征向量对齐问题。过去处理特征对齐通常是截取相同长度音频或者直接使用特征均值,导致时序特征的细节分布及变化信息的丢失。GMM Fisher Vector可以从完整音频提取到等长的局部特征并最大化保留特征细节,从而提升模型的稳定性及可靠性。3.基于深度学习的婴儿哭声识别模型,相比传统的音频识别模型(VQ,DTW,GMM,HMM,RFC,SVC)能够更好地学习和检测到音频数据里的一些潜在特征,对数据扩展及特征复杂度有着更强的包容性和理解能力。4.建立移动端婴儿哭声识别系统。采用了能够感知人耳听力特征的梅尔倒谱系数(MFCC),并结合短时过零率(ZCR),短时能量均方值(RMSE)三类特征,结合GMM Fisher Vector及DNN模型,实现对婴儿哭声的高效检测及告警,同时具有离线识别及在线更新功能。更多还原
关 键 词: 婴儿哭声 音频识别 [2111386]实时监控 深度学习 机器学习
分 类 号: [TN912.34]
领 域: []