帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于深度学习的英语语音识别与发音质量评价

导  师: 李心广

授予学位: 硕士

作  者: ;

机构地区: 广东外语外贸大学

摘  要: 随着全球一体化及中国国际化水平的日益提高,我国人民对英语学习的需求飞速增长。但由于国内英语学习环境及教学条件的限制,国内英语学习者普遍存在口语学习困难的情况。随着计算机科学与技术的发展以及语言教学和学习方法的进步,计算机辅助语言学习技术使这一难题有了得以解决的可能。计算机辅助语言学习的核心是语音识别与评价技术,而语音识别技术又是关键所在。由于语音发音变化复杂,语音信号的数据量大,语音特征参数的维度高,语音识别和评价的计算量大,这使得大批量的语音信号处理需要更高要求的软硬件资源和算法。而传统的语音识别算法动态时间规整算法、隐马尔科夫模型和人工神经网络各有利弊,遇到了前所未有的瓶颈,很难进一步提高其准确度与速度。近年来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别和评价技术得到突飞猛进的发展。深度学习通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力,在模拟人脑进行分析学习方面表现更优。本文将深度学习技术应用于英语语音识别,采用基于人耳听觉模型的梅尔频率倒谱特征参数和深度信念网络建立语音识别模型。经UCI机器学习库的Spoken Arabic Digit数据集验证,识别效果优于改进的隐马尔可夫模型、BP神经网络模型和树分布近似模型。在英语发音质量评价方面,当前存在的问题在于:在口语学习方面,国内外一些计算机辅助语言学习系统主要侧重于单词、语法的学习,仅有一两项评价指标作为评价依据,存在一定的功能缺陷,只能给学习者的发音一个整体评分。在口语评价方面,英语口语考试仍以主观意愿较强、标准各异且速度缓慢的人工评分为主,重复性和稳定性较差。针对这些问题,本文以中国大学生的英语语音为研究对象,对传统的计算机英语发音质量评价方法进行改进,考虑音准、语速、节奏和语调等多参量评价指标,即采用基于梅尔频率倒谱特征参数的音准评价、基于语音时长的语速评价、基于短时能量和成对变异指数的节奏评价、基于基频的语调评价。经实验验证,本文所采用的音准、语速、节奏和语调评价方法是可信的。进一步地,考虑以上多参量评价指标的权重,采用回归分析法构建合理客观的英语发音质量评价模型。经实验验证,本文的英语发音质量评价模型方法是可信的,可给予学习者及时、准确、客观的评价和反馈指导,帮助学习者找出自己发音与标准发音之间的差异,纠正发音错误,从而提高英语口语学习效率。

关 键 词: 英语 语音识别 深度学习 发音质量评价 多参量评价指标

分 类 号: [H319.3]

领  域: [语言文字]

相关作者

作者 陈嘉华
作者 黄雪琪
作者 孙倩
作者 魏栋
作者 吴振国

相关机构对象

机构 广东外语外贸大学
机构 华南师范大学
机构 中山大学
机构 华南理工大学
机构 暨南大学

相关领域作者

作者 彭川
作者 彭晓春
作者 徐云扬
作者 成海涛
作者 曾小敏