导 师: 肖南峰
授予学位: 硕士
作 者: ();
机构地区: 华南理工大学
摘 要: 语音交流是人类最直接和最基本的交流方式,人们通过语音可以表达自己的意愿及自己的情绪。随着现代科学技术的不断进步,服务机器人行业的发展也是日新月异,服务机器人与人类用户的交集变得越发紧密。相应地,人类用户与服务机器人相互之间的语音交流变得越来越频繁。如何让服务机器人在人机交互过程中能够识别人类用户语音中的情感状态是当前人机交互和服务机器人研究领域的一个重要热点。深度学习是当下人工智能的一个研究热点,深度学习模型具有强大的特征学习能力,并且深度学习在模式识别领域取得了重大成功。为此,本硕士论文研究和使用深度学习中栈式自编码器和卷积神经网络对人类的语音情感进行识别研究;同时,考虑到情感信息具有模糊性,而且由于这种模糊性的存在,使得语音情感识别时会对识别的正确性产生一定的干扰影响。因此,本硕士论文引入模糊理论的模糊规则推理对语音的模糊性进行处理。在此基础上,本硕士论文提出了一种深度学习模型结合模糊理论的语音情感识别新方法。该方法使用模糊神经网络的结构框架,并将模糊神经网络中的隶属函数用深度学习模型来代替,从而使得提出的新方法利用了深度学习模型的强大特征学习能力;同时,提出的新方法采用模糊神经网络的结构框架,结构框架中的模糊规则推理结构将深度学习模型学习到的特征作进一步的特征优化,从而处理语音情感的模糊性。本硕士论文使用CASIA语音情感数据库进行实验研究,验证和分析了栈式自编码器和卷积神经网络在不同模型结构和参数下的实验效果;经过对提出的新方法进行实验,验证了提出的新方法有效性,同时也指出了它的不足之处。更多还原
关 键 词: 语音情感识别 栈式自编码器 卷积神经网络 模糊神经网络
领 域: []