摘要:目前,人工智能快速发展,深度学习亦随之崛起,尤其是在机器学习和模式识别等领域。卷积神经网络(Convolution...目前,人工智能快速发展,深度学习亦随之崛起,尤其是在机器学习和模式识别等领域。卷积神经网络(Convolutional neural network,CNN)结构简单,鲁棒性好,适应性强,其优异的性能使其在机器视觉应用领域得到了广泛的关注。其中在机器学习和计算机视觉领域取得了巨大成功,尤其是在图像分类任务方面取得了惊人成就。当前,卷积神经网络已广泛应用于众多领域,例如语义分割、人脸识别、步态分析、行人检测等。卷积神经网络模型图像分类方法较传统而言,能获得更高的正确率,实际应用价值更广泛。本文将人脸和指背关节纹图像作为研究对象,采用卷积神经网络进行图像分类研究,研究内容及成果主要包括以下三个方面:(1)面向多任务轻量级人脸图像模型的研究。本文从数据、算法方面对模型性能进行提升,通过对训练数据进行对齐、增强预处理,提出一种人脸图像模型,通过增加中心损失层(Center-loss)使网络学习到的特征具有较高判别性,从而使得网络泛化性能得到增强。在本文研究中,人脸图像模型的训练库和测试库分别采用自扩建的人脸数据库和权威无监督LFW数据库。实验结果表明,本文设计的人脸图像模型分类正确率超过现有的CNN模型性能。为了验证所提人脸图像模型的通用性,本文分别在FER2013、SFEW2.0表情数据库和大规模亚洲女性人脸美丽数据库(LSAFBD)上进行实验,实验结果表明,本文所提人脸图像模型同样适用于人脸表情识别、人脸美丽预测,较现有方法均有一定提升。(2)基于卷积神经网络的指背关节纹识别。本文提出了一个用于指背关节纹识别的卷积神经网络KnuckleNet。首先,提取指背关节纹图像(Finger knuckle print,FKP)感兴趣区域(Region of Interest,ROI),减少背景噪声对识别准确率的影响并降低图像处理计算量。其次,为解决深度学习小样本过拟合问题,将原始数据进行数据增强处理,并在网络卷积层后加批量归一化层。通过多组实验选取最优参数设置,提升网络泛化性能。在香港理工大学指背关节纹数据库(The Hong Kong Polytechnic University,PolyU)上的实验结果表明,该模型有更高识别准确率,实际应用价值更广。(3)深度残差网络用于人脸美丽预测研究。人脸美丽预测已成为一个新兴研究课题并受到越来越多关注,深度学习方法应用于人脸美丽研究暂不多见。深度学习能够学习到判别性较高的特征,适用于具有较小类内距离、较大类间距离的分类问题。针对人脸美丽预测问题,本文构建了一种深度残差网络(Deep Residual Network,ResNet)。为解决随着层数加深,传播过程中梯度逐渐消失的问题而引入残差优化。同时,引入最大特征图激活函数,使网络结构更加紧凑,以有效提取人脸美丽特征,从而提高预测性能。基于LSAFBD数据库的实验结果表明,本文所提方法取得了61.50%的主流分类准确率,0.8620的回归相关度,优于其他卷积神经网络模型。更多还原显示全部
摘要:实现机器与人类的自然交流,是人们一直以来的梦想。在过去50年里,语音识别技术的研究取得了巨大的进展,尤其...实现机器与人类的自然交流,是人们一直以来的梦想。在过去50年里,语音识别技术的研究取得了巨大的进展,尤其是2011年以来,深度学习理论的完善、计算机性能的大幅度提升以及海量语音训练数据的积累,使得语音识别开始进入商用化时代。相比于传统网络,深层次神经网络(very deep neural networks)具有更好的模型拟合和表达能力,但目前其在语音识别领域的应用研究仍然匮乏,究其原因,深层次神经网络在训练时存在两大难点:一方面,受梯度弥散现象的影响,梯度数值在误差反传的过程中不断衰减,导致接近网络输入层的参数难以得到更新;另一方面,网络具有大量的参数,训练以及测试需要耗费大量时间。本论文集中于随机深度网络算法在语音声学建模上的研究。通过采用残差网络以及在训练过程中随机丢弃部分残差网络块的方式,从而改善训练过程中容易出现的梯度弥散问题,再配合模型压缩算法,在控制模型参数规模的条件下,训练出更深层的语音声学模型,最终实现更低的词错误率。实验结果表明:相比于传统网络,随机深度网络在数据有限的情况下对语音系统识别率的提升较小,而在训练数据充足的条件下却能够显著地提高系统的识别率。同时,模型压缩技术的应用,有效降低了运行时的参数量和计算量。该研究结论在语音声学建模的设计上具有重要的参考价值。更多还原显示全部