导 师: 朱杰
学科专业: H0902
授予学位: 博士
作 者: ;
机构地区: 上海交通大学
摘 要: 语音识别技术从上世纪50年代开始到现在已经有了巨大的进展,人们迫切地希望把它推向广泛的实用领域,使其真正的从实验室走进日常生活。稳健语音识别技术是语音识别走向实用化的关键,它以提高语音识别系统对各种干扰因素的稳健性和自适应能力为目的,是目前语音识别技术研究领域的一个热点和难点。 本文系统地介绍了支持向量机理论及其在语音识别领域的应用,分析了结构风险最小化和支持向量思想在稳健语音识别技术中的应用前景。然后以基于隐马尔可夫模型的连续语音识别系统作为研究平台,研究了一系列基于支持向量机理论的稳健语音识别技术。其中,支持向量机理论的应用,为稳健语音识别技术的研究提供了新的方法和思路。 首先,本文研究了噪声环境下稳健性端点检测问题,因为准确地检测语音信号的端点有利于提高语音识别系统的识别正确率和识别速度。目前噪声环境下的语音端点检测仍然是一个未解决的问题。利用单类支持向量机的无监督学习能力和良好的推广能力,本文提出了一种基于单类支持向量机的实时端点检测算法。该算法采用了一个双层决策机制,第一层采用支持向量机对多特征进行综合,描述了工作环境中的噪声特性,并输出相应的决策值,第二层应用一个五状态自动机对结果进行平滑和修正。实验表明,该算法通过单类支持向量机模型提高了端点检测的稳健性,在平稳噪声条件下简单有效。为进一步提高端点检测算法在非平稳噪声环境下的性能,本文又提出了相应的自适应算法。该算法引入了支持向量机的在线训练模式,一旦检测到语音信号中的噪声段,就用此噪声数据更新支持向量机的训练集,然后通过快速的在线训练算法获得新的单类支持向量机。实验结果表明,此自适应端点检测算法对于缓变的非平稳噪声环境具有较好的稳健性。 其次,本文对小波阈值降噪算法进行了研究。小波阈值降噪算法是一种非线性的语音增强算法,特别适合用于处理语音等非平稳信号。本文首先分析了分解层数对小波阈值降噪算法性能的影响,证明了算法在不同噪声条件下都将存在一个最优的小波分解层数,使得算法获得最佳的降噪性能。然后采用支持向量机对小波系数的特征进行建模,提出了自适应的小波阈值降噪算法。该算法根据小波系数的奇异谱分析,采用支持向量机进行判决,从而获得最优的小波分解层数。实验结果表明,在采用相同阈值估计的情况下,本文提出的自适应小波阈值降噪算法比采用固定分解层数的此类算法性能更优,它为解决小波阈值降噪算法中分解层数的选择问题提供了新的思路。 然后,本文研究了快速说话人自适应技术,提出了一种新的快速说话人自适应算法—支持说话人权重。该算法巧妙利用了支持向量机理论中关于支持向量的思想,通过支持说话人的选择,将参数空间限定在支持说话人空间中,使得待估计的自适应参数很少,适于自适应数据较少的情况,并能有效地降低自适应所需的存储量。同时,支持说话人的选择也使算法获得了分布离散度较小的初始模型,可提高自适应性能。大词汇量连续语音识别的实验结果表明,在自适应数据很少的情况下,该自适应算法取得了较其他算法更好的自适应效果,是一种有效的快速说话人自适应算法。此外,本文还将MAP参数估计和AAP参数估计方法引入到支持说话人权重算法中,提出了MAP-SSW和AAP-SSW两种改进算法。其中AAP-SSW结合了最大后验概率和区别性训练,实现了自适应参数的快速区别性估计。该算法不仅考虑了观察序列与其本身模型的相似度,而且也考虑了观察序列与其他模型的区别性,因此能进一步提高自适应性能。 最后,为提高语音识别系统中拒识算法的性能,本文提出了基于稳健支持向量机的多置信度信息综合方法。语音拒识的目的是为了对识别结果进行确认,拒绝不正确的识别结果和词表外发音(OOV),以降低语音识别系统的误识率,提高系统的稳健性。本文将支持向量机应用于多置信度信息综合,获得了比神经网络综合方法更优的性能,然后针对支持向量机对训练集中噪声数据敏感的缺陷,提出采用RSVM进行信息综合。实验结果表明,RSVM通过改善支持向量机的稳健性,能有效地提高拒识算法的性能。随后本文根据RSVM的原理,提出了一种改进的稳健型支持向量机——SVDD-RSVM,它采用一种基于支持向量数据描述的松弛因子函数模型,可进一步提高支持向量机的稳健性。基于多置信度综合的拒识实验表明,SVDD-RSVM能使拒识性能得到明显提高,优于采用神经网络和传统支持向量机的拒识算法。
关 键 词: 语音识别 稳健性 支持向量机 端点检测 置信度 拒识算法
分 类 号: [TN912.34 TP181]