导 师: 杨俊美
授予学位: 硕士
作 者: ;
机构地区: 华南理工大学
摘 要: 语音带宽扩展旨在利用窄带语音和宽带语音之间的数学关系恢复窄带语音缺失的高频成分,这项技术有助于公共交换电话网、电话在线会议、蓝牙等一些窄带传输语音提升带宽,也可以用于老旧音频修复等媒体生产领域,还可以结合语音识别等其他信号处理领域提升性能。现有基于深度学习的语音带宽扩展算法主要分为时域和频域两个研究方向,时域算法基于波形建模,波形包络千差万别,规律十分复杂;频域算法基于频域特征建模,频域特征图能直观的展示隐藏于波形下的深层语音信息。因此,本文选取频域算法作为研究方向,包括: 一、提出基于Flatten-FFTNet-IESC的语音带宽扩展算法。针对现有主流频域算法网络难以拓展和未利用时间轴信息的问题,提出Flatten处理法去掉频率轴最后一个点并将时频两轴转换为一轴,使频域算法网络输入输出维度和时域算法完全一致。针对现有主流频域算法网络特征提取能力不足的问题,提出采用FFTNet多路分裂网络并增加IESC结构。实验结果表明,Flatten-FFTNet-IESC极大提升了评价指标,但网络维度高训练成本大。 二、提出基于Flatten-CNN的语音带宽扩展算法。首先为了便于搭建网络和利用时间轴信息,沿用Flatten处理法;接着针对Flatten-FFTNet-IESC网络维度过高的问题,提出采用编解码器结构卷积神经网络降低维度以减少训练成本;最后为了利用时域信息,在损失函数中引入时域损失。实验结果表明,Flatten-CNN减少了训练成本,网络大体保持了特征提取能力,但生成的对数功率谱细节依然有提升空间。 三、提出基于Flatten-WGAN-GP的语音带宽扩展算法。为了继续增强Flatten-CNN生成对数功率谱细节表现,引入Wasserstein生成对抗网络,利用生成对抗网络达到纳什均衡时判别器难以鉴别真实样本和生成样本