用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法-USB迷|专注于互联网分享

2024年5月12日发(作者：亢德容)

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(21)申请号 CN2.0

(22)申请日 2018.10.25

(71)申请人武汉大学

地址 430072 湖北省武汉市武昌区珞珈山武汉大学

(72)发明人胡瑞敏李罡张锐王晓晨

(74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙)

代理人严彦

(51)

(10)申请公布号 CN 109215635 A

(43)申请公布日 2019.01.15

权利要求说明书说明书幅图

(54)发明名称

用于语音清晰度增强的宽带语音频

谱倾斜度特征参数重建方法

(57)摘要

本发明提供一种用于语音清晰度增

强的宽带语音频谱倾斜度特征参数重建方

法，包括基于循环神经网络的频谱倾斜度

重建网络的训练阶段和使用阶段，训练阶

建立语音数据集，对数据集中的语音资料

进行预处理；输入预处理后的窄带语音资

料，进行短时傅里叶变换得到窄带语音频

谱，将频谱信息对数化获取对数幅度谱；

输入预处理后的宽带语音资料，提取宽带

语音信号频谱倾斜度的全极点模型参数，

转化成线性频谱对参数；训练频谱倾斜度

重建网络并使用，重建宽带语音频谱倾斜

度的全极点模型参数。本发明根据窄带语

音信号重建宽带语音信号频谱倾斜度参

数，适用于所有基于频谱倾斜度特征的语

音清晰度增强系统之中，且可适配多语

种、多模态的语音信号。

法律状态

法律状态公告日

法律状态信息

法律状态

权利要求说明书

1.一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，其特征在于：

包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段，

所述的频谱倾斜度重建网络训练阶段包括以下步骤，

步骤S11，通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料，

建立语音数据集，按比例分成训练集和测试集、验证集语音资料，对数据集中的语

音资料进行预处理，所述预处理包括分帧和加窗；

步骤S12，输入预处理后的窄带语音资料训练集，进行短时傅里叶变换得到窄带语

音频谱，将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入；

步骤S13，输入预处理后的宽带语音资料训练集，提取宽带语音信号频谱倾斜度的

全极点模型参数，转化成线性频谱对参数，作为频谱倾斜度重建网络的输出；

步骤S14，训练频谱倾斜度重建网络，定义感知均方根偏差PRMSD作为评估方法

测试频谱倾斜度网络性能，每次评估使用验证集作为评价标准，调试出最优重建网

络参数模型，并在测试集中验证最终效果；

所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时

语音逐帧处理中，包括以下步骤，

步骤S21，实时逐帧输入窄带语音，提取窄带语音的对数幅度谱参数；

步骤S22，逐帧输入宽带语音对数幅度谱参数，结合频谱倾斜度重建网络和参数转

换重建宽带语音频谱倾斜度的全极点模型参数。

2.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，特征在于：宽带和窄带语音资料均包括普通语音和抗噪语音。

3.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S12中，短时傅里叶变换的点数为N，频谱倾斜度重建网

络的训练输入的计算公式为：

S_i(n)表示第i帧窄带语音信号，n为语音信号帧长，x_i(k)

表示第i帧语音信号的对数幅度谱的值，k为复变函数频域中的复变量基本表示符

号，W_in表示一种时域上的窗函数；每帧语音信号的对数幅度谱的点

数为x_i＝

[x_i(1),x_i(2)…,x_i(C)]为第i帧语音信号的对数

幅度谱，对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式

计算得到该帧信号的对数幅度谱，将其逐行存储到矩阵X中，X表示频谱倾斜度

重建网络的输入矩阵，M为X的行数。

4.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S13中，根据第i帧宽带语音信号s_i(n)计算，

得到a_i＝[a_i(1),a_i(2)…,a_i(P)]，

为第i帧宽带语音信号频谱倾斜度的全极点模型参数，P为全极点模型参数的阶数。

5.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S13所述的线性频谱对参数为全极点模型参数的等价形

式，线性频谱对参数具有更强的鲁棒性。

6.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S14采用的评估方法使用的是验证集和测试集的语音资

料，计算公式为：

为第i帧语音信号频谱倾斜度全极点模型参数的估计值，y_i(n)

为第i帧语音信号频谱倾斜度全极点模型参数的真实值，为第i帧语音信

号频谱倾斜度的估计值，Y_i(k)为第i帧语音信号频谱倾斜度的真实值，

对和Y_i(k)使用相同的子带划分方法分别划分成L个子带，

表示第i帧语音信号第j个子带的频谱倾斜度估计值，

Y_i^j(k)表示第i帧语音信号第j个子带的频谱倾斜度真实

值，D_j表示第j个子带的长度，b_j表示计算第j个子带的

感知均方根偏差的感知系数，PR_i表示第i帧语音信号频谱倾斜度的感

知均方根偏差PRMSD。

7.根据权利要1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方

法，其特征在于：步骤S14所述的最优重建网络参数模型的输入层节点数为与步

骤S12中每帧窄带语音信号的对数幅度谱参数的点数相同。

8.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S14中，最优网络参数模型的隐藏层使用的激励函数为

Sigmoid函数、Tanh函数或Linear函数，隐藏层的节点参数为[N/4,N/4,N/8,N/8]、

[N/8,N/8,N/16,N/16]、[N/4,N/4,N/8,N/16]、[N/4,N/8,N/8,N/16]或[N/4,N/8,N/16,N/16]，

每层隐藏层的最优时间步长通过参数调试确定。

9.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S14中，最优重建网络的输出层数为P，与语音频谱倾斜

度的全极点模型参数的阶数相同。

10.根据权利要求1或2或3或4或5或6或7或8或9所述的用于语音清

晰度增强的宽带语音频谱倾斜度特征参数重建方法，其特征在于：

频谱倾斜度重建网络的使用阶段步骤S21中的提取窄带语音对数幅度谱参数的方

法与频谱倾斜度重建网络的训练阶段步骤S12相同；

频谱倾斜度重建网络的使用阶段步骤S22中的参数转换是将频谱倾斜度重建网络

重建的宽带语音频谱倾斜度的线性频谱对参数转化为全极点模型参数。

说明书

技术领域

本发明提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，涉

及语音信号处理和通信技术领域，适用于所有基于频谱倾斜度特征的语音清晰度增

强系统之中，且可适配多语种、多模态的语音信号。

背景技术

21世纪以来，移动通信技术迅速发展，手机等移动通信设备快速普及。凭借手机

带来的便利，人们得以随时随地使用移动通信设备进行实时语音通信；在这种便利

之下，人们不可避免的在车站、餐馆、工厂等多样化嘈杂环境下通话，嘈杂环境中

的噪声严重降低了语音通话质量。

语音通信流程可以简要分为两个阶段(如图1所示)：第一阶段为说话阶段，说话人

向手机说话，手机麦克风采集语音信号，并将信号编码，最后作为上行信号发送至

通信信道中；第二阶段为听音阶段，手机从信道中接收到由通信网络发出的下行信

号，由手机解码重新生成语音信号，最后由手机播放解码后的语音信号，人耳接收

到播放的语音信号，一条语音信息的通信过程完成了。接收下行信号、收听语音内

容的过程，站在语音收听者的角度来看，称作近端；发生语音信号、发送上行信号

的过程，仍然站在语音收听者的角度来看，称作远端。

远端信号处理过程中，研究者们逐步研究出了语音增强技术用于抑制麦克风采集到

的语音信号中的环境噪声。在语音增强过程中，一方面利用软件算法，根据语音信

号时频特性、声学特性、语言学特性等一系列特征，滤除语音信号之外的能量，并

对滤波后信号成分有所缺失的语音信号进行语音特征重建；另一方面利用硬件辅助，

在手机上安装多个的专用麦克风用于环境声采集，将语音信号与噪声麦克风采集到

的噪声信号进行谱减法或组成自适应滤波系统。凭借一系列的软硬件结合措施，语

音增强技术已经能较为完整的滤除麦克风采集到的语音信号中的噪声成分，并保证

语音失真非常小。

近端信号处理过程中，为了抑制听音过程中的环境噪声，研究者们最先想到的是噪

声抵消策略：使用麦克风采集环境噪声，然后发出与噪声相位相反，频率、振幅相

同的声波与噪声干涉实现相位抵消，降低环境噪声能量。主动降噪耳机就是基于噪

声抵消策略的典型产品，耳机通过物理隔绝方式预先过滤了一部分噪声，剩余噪声

通过在耳机播放的信号中追加反相信号抵消掉。但在听筒接听模式缺少耳机物理隔

绝的情况下，耳朵直接暴露在能量巨大的环境噪声之中，同时伴随着环境混响、听

筒难以保证正对耳朵等一系列问题，抗噪效果大幅度下降。

在手机听筒接听模式下噪声抵消策略失效的情况下，为了保障听音者接收的语音信

号足够清晰，研究者们又提出了近端听音增强技术，基于感知声学、语言学和信号

处理方法，通过改善语音信号感知可懂度的方式，增强语音信号鲁棒性，使语音信

号的在相同噪声条件下更容易被听音者理解；由于其以改善语音信号可懂度为目标，

因而又被称作语音清晰度增强或语音可懂度增强技术。

语音清晰度增强技术的传统方法主要分为两类：基于规则的方法和基于度量的方法。

基于规则的方法不考虑周围的环境噪声，仅根据固定的语音特性调整规则修正语音

信号时频特性，该类方法在不同环境下的清晰度提升幅度差异较大，算法鲁棒性较

差；基于度量的方法是通过特定的度量指标将语音信号与环境噪声事实对比，动态

调整语音信号的增益，对语音清晰度的提升效果较为明显，但是该类方法很大程度

上破坏了语音自然度和舒适度。

基于数据驱动的语音清晰度增强方法是一种全新的语音清晰度增强方法，该方法利

用说话人噪声对抗的发声机理和自然语音生成模型提高语音清晰度。在噪声场景下，

说话人受到噪声的压迫，会自发地改变自己的发声方式来克服周围噪声的影响，这

种改变可以显著提高收听者的感知清晰度，这种说话人噪声对抗发生机理被称作

Lombard效应，这种具备抗噪特性的语音被称为Lombard语音。研究表明，

Lombard语音的频谱倾斜度较对应语句的普通语音的频谱倾斜度在细节上差异巨大，

Lombard语音频谱倾斜度整体也更为平坦，频谱倾斜度的特征有效反应了Lombard

语音和普通语音的差异，可利用频谱倾斜度参数作为提升语音清晰度的关键参数。

在数据驱动的语音清晰度增强系统中，利用不同场景下的Lombard语音和对应安

静环境下的普通语音信号作为训练数据，能够拟合出基于Lombard的语音清晰度

增强系统，可以通过普通语音信号的频谱倾斜度映射出Lombard语音的频谱倾斜

度，进而得到具备抗噪特性的Lombard语音。该系统算法框图如图2所示，具体

过程为：输入窄带普通语音，提取窄带语音频谱倾斜度，利用频谱倾斜度重建网络

重建宽带语音频谱倾斜度特征参数A(z)，将A(z)输入到频谱倾斜度映射模型映射

出宽带抗噪语音(Lombard语音)频谱倾斜度特征参数A′(z)，其中，z为复变函数z

域中的复变量基本表示符号。利用滤波器将窄带普通语音频谱倾斜度替换成映射的

宽带语音抗噪语音频谱倾斜度，然后，为了保证处理前后的语音信号的总能量不变，

对滤波后的语音信号进行增益控制，最后，输出抗噪语音。

基于数据驱动的算法可以利用高斯过程回归、高斯混合模型和深度神经网络等机器

学习算法完成映射模型训练。该映射模型对输入的语音频谱度信息有很高的精度要

求，但实际语音通信环境中的窄带信号由于声学特征缺失加多，用窄带信号直接计

算频谱倾斜度参数较窄带语音信号存在较大误差，导致语音清晰度增强系统无法获

取准确的频谱倾斜度信息使增强效果严重下降。本发明提出一种用于语音清晰度增

强的宽带语音频谱倾斜度特征参数重建方法，重建的特征参数能够应用于所有基于

频谱倾斜度参数的语音清晰度增强系统。

发明内容

本发明通过提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，

解决了由于窄带语音信号声学特征缺失，其直接计算的频谱倾斜度参数较宽带语音

信号存在较大误差，导致语音清晰度增强系统无法获取准确的频谱倾斜度信息使增

强效果严重下降的问题。

本发明技术方案提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段，

所述的频谱倾斜度重建网络的训练阶段包括以下步骤，

步骤S11，通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料，

建立语音数据集，按比例分成训练集和测试集、验证集语音资料，对数据集中的语

音资料进行预处理，所述预处理包括分帧和加窗；

步骤S12，输入预处理后的窄带语音资料训练集，进行短时傅里叶变换得到窄带语

音频谱，将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入；

步骤S13，输入预处理后的宽带语音资料训练集，提取宽带语音信号频谱倾斜度的

全极点模型参数，转化成线性频谱对参数，作为频谱倾斜度重建网络的输出；

步骤S14，训练频谱倾斜度重建网络，定义感知均方根偏差PRMSD作为评估方法

测试频谱倾斜度网络性能，每次评估使用验证集作为评价标准，调试出最优重建网

络参数模型，并在测试集中验证最终效果；

所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时

信语音号逐帧处理中，

步骤S21，实时逐帧输入窄带语音，提取窄带语音的对数幅度谱参数；

步骤S22，逐帧输入宽带语音对数幅度谱参数，结合频谱倾斜度重建网络和参数转

换重建宽带语音频谱倾斜度的全极点模型参数。

而且，宽带和窄带语音资料均包括普通语音和抗噪语音。

而且，步骤S12中，短时傅里叶变换的点数为N，频谱倾斜度重建网络的训练输入

的计算公式为：

S_i(n)表示第i帧窄带语音信号，n为语音信号帧长，x_i(k)

表示第i帧语音信号的对数幅度谱的值，k为复变函数频域中的复变量基本表示符

号，W_in表示一种时域上的窗函数；每帧语音信号的对数幅度谱的点

数为x_i＝

[x_i(1),x_i(2)…,x_i(C)]为第i帧语音信号的对数

幅度谱，对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式

计算得到该帧信号的对数幅度谱，将其逐行存储到矩阵X中，X表示频谱倾斜度

重建网络的输入矩阵，M为X的行数。

而且，步骤S13中，根据第i帧宽带语音信号s_i(n)计算，

得到a_i＝[a_i(1),a_i(2)…,a_i(P)]，

为第i帧宽带语音信号频谱倾斜度的全极点模型参数，P为全极点模型参数的阶数。

而且，步骤S13所述的线性频谱对参数为全极点模型参数的等价形式，线性频谱

对参数具有更强的鲁棒性。

而且，步骤S14采用的评估方法使用的是验证集和测试集的语音资料，计算公式

为：

为第i帧语音信号频谱倾斜度全极点模型参数的估计值，y_i(n)

为第i帧语音信号频谱倾斜度全极点模型参数的真实值，为第i帧语音信

号频谱倾斜度的估计值，Y_i(k)为第i帧语音信号频谱倾斜度的真实值，

对和Y_i(k)使用相同的子带划分方法分别划分成L个子带，

表示第i帧语音信号第j个子带的频谱倾斜度估计值，表示第i帧

语音信号第j个子带的频谱倾斜度真实值，D_j表示第j个子带的长度，

b_j表示计算第j个子带的感知均方根偏差的感知系数，PR_i

表示第i帧语音信号频谱倾斜度的感知均方根偏差PRMSD。

而且，步骤S14所述的最优重建网络参数模型的输入层节点数为与步骤

S12中每帧窄带语音信号的对数幅度谱参数的点数相同。

而且，步骤S14中，最优网络参数模型的隐藏层使用的激励函数为Sigmoid函数、

Tanh函数或Linear函数，隐藏层的节点参数为[N/4,N/4,N/8,N/8]、

[N/8,N/8,N/16,N/16]、[N/4,N/4,N/8,N/16]、[N/4,N/8,N/8,N/16]或[N/4,N/8,N/16,N/16]，

每层隐藏层的最优时间步长通过参数调试确定。

而且，步骤S14中，最优重建网络的输出层数为P，与语音频谱倾斜度的全极点模

型参数的阶数相同。

而且，频谱倾斜度重建网络的使用阶段步骤S21中的提取窄带语音对数幅度谱参

数的方法与频谱倾斜度重建网络的训练阶段步骤S12相同；频谱倾斜度重建网络

的使用阶段步骤S22中的参数转换是将频谱倾斜度重建网络重建的宽带语音频谱

倾斜度的线性频谱对参数转化为全极点模型参数。

本发明实现了由窄带语音的对数幅度谱信息重建宽带语音频谱倾斜度信息，该频谱

倾斜度信息能够适用于所有基于频谱倾斜度的语音清晰度增强系统，且可适配多语

种、多模态的语音信号，可提升该语音清晰度增强系统的拓展性和实用性。

附图说明

图1为本发明实施例的噪声场景下的语音通信流程示意图；

图2为本发明实施例的基于频谱倾斜度特征的语音清晰度增强系统框图；

图3为本发明实施例的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方

法的流程图。

具体实施方式

以下结合本发明实施例中的附图，对本发明实施例中的进行进一步的详细描述，显

而易见，本文所描述的实施例仅是本发明一部分实施例，并不是所有的实施例。本

领域技术人员在没有做出创造性劳动前提下基于本发明实施例所获取的任何实施例，

均为本发明申请的保护范围。

本发明适用于实时语音通信系统中的语音清晰度增强系统，该语音清晰度增强系统

基于说话人噪声对抗的发声机理(Lombard效应)和自然语音生成模型提高音清晰度。

本发明提供了一种语音清晰度增强系统中语音特征参数恢复方法，即“一种由窄带

语音重建宽带语音频谱倾斜度参数的方法”。

下面结合附图和实施例对本发明作进一步说明，但不作为本发明的限定。

根据现有技术存在的问题，实施例提出了一种由窄带语音重建宽带语音频谱倾斜度

特征参数的方法，适用于基于频谱倾斜度特征的语音清晰度增强系统，该系统框图

如图2所示。

实施例的实现过程包括基于循环神经网络的频谱倾斜度重建网络(RecurrentNeural

Network，RNN)的训练阶段和使用阶段，如图3所示。

训练阶段：提取训练集中窄带语音对数幅度谱参数和宽带语音频谱线性频谱对参数

分别作为频谱倾斜度重建网络训练的输入和输出，训练频谱倾斜度重建网络，并调

试出最优参数模型；使用阶段：逐帧输入窄带语音对数幅度谱参数到频谱倾斜度重

建网络中，重建出宽带语音频谱倾斜度的线性频谱对参数，生成宽带语音频谱倾斜

度的全极点模型参数。

频谱倾斜度重建网络的训练阶段包括如下具体实施步骤：

步骤S11：建立语音数据集，按比例分成训练集和测试集、验证集语音资料，对数

据集中的语音资料进行分帧，使用海明窗加窗等预处理；

步骤S12：输入预处理后的窄带语音资料训练集，进行短时傅里叶变换得到窄带语

音频谱，将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入；

步骤S13：输入预处理后的宽带语音资料训练集，提取宽带语音信号频谱倾斜度的

全极点模型参数，将其转化成线性频谱对参数作为频谱倾斜度重建网络的输出；

步骤S14：训练频谱倾斜重建网络，定义感知均方根偏差(Perceptual Root-Mean-

Square Deviation,PRMSD)作为评估方法测试频谱倾斜度网络性能，，每次评估使用

验证集作为评价标准，调试出最优重建网络参数模型，并在测试集中验证最终效果。

具体的，步骤S11的详细过程为：对高采样率的宽带语音资料降采样获取低采样

率的窄带语音资料，建立语音数据集，所述的宽带语音资料的采样率一般为16000

赫兹、48000赫兹等，窄带语音资料的采样率一般为8000赫兹、6000赫兹等。

本实施例中所述的宽带语音资料的采样率为16000赫兹，窄带语音资料的采样率为

8000赫兹，对应的窄带和宽带语音资料均包括有相同文本内容的普通语音和抗噪

语音。图3中输入的窄带和宽带语音均来自步骤S11中建立的语音数据集。将语音

数据集按照85％、7.5％、7.5％的比例分别分为训练集、验证集和测试集，对训练

集和测试集中的窄带与宽带语音资料进行分帧，本实施例中使用海明窗进行加窗处

理。

所述的宽带和窄带语音资料均包括普通语音和抗噪语音(Lombard语音)。

所述的Lombard语音是人在噪声环境下，受到周围噪声的压迫，自发地改变自己

的发声方式所发出的具有抗噪特性的语音。Lombard语音比普通语音有更强的清晰

度。优选的，窄带和宽带语音资料按照如下设置进行分帧：设置每帧语音信号的时

长为20毫秒，每一帧语音信号同前一帧设置50％的重叠。由于窄带和宽带语音的

采样率不同，所以窄带和宽带语音每帧信号的帧长不同，本实施例中每帧窄带和宽

带语音信号的帧长分别为320和160。

具体的，步骤S12对应图3中训练阶段的计算网络输入的模块，详细过程为：输入

从步骤S11获取的每帧窄带语音信号，进行N点的短时傅里叶变换，N的可能取

值为1024,512,256等，本实施例中N的取值优选512，然后按照如下公式计算每帧

窄带语音信号的对数幅度谱：

S_i(n)表示第i帧窄带语音信号，n为语音信号帧长，取值为160，

x_i(k)表示第i帧窄带语音信号的对数幅度谱的值，k为复变函数频域

中的复变量基本表示符号，M为输入的训练样本的总帧数，W_in表示

一种时域上的窗函数，本实施例对每帧语音信号使用汉宁窗加窗，可供选择的其他

窗函数有海明窗和正弦窗。本发明所取的每帧语音信号的对数幅度谱的点数为

本实施例中C的取值为257。

每帧语音信号的对数幅度谱的点数为x_i＝

[x_i(1),x_i(2)…,x_i(C)]为第i帧语音信号的对数

幅度谱，对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式

计算得到该帧信号的对数幅度谱，将其逐行存储到矩阵X中，X表示频谱倾斜度

重建网络的输入矩阵，M为X的行数，即为输入的训练样本(所有训练集中分帧后

的窄带语音资料)的总帧数。

本实施例中每帧窄带语音信号的257点对数幅度谱参数作为频谱倾斜度重建网络的

训练输入。频谱倾斜度重建网络的输入矩阵X为：

具体的，步骤S13对应图3中训练阶段的计算网络输出的模块，详细过程为：输入

从步骤S11获取的每帧宽带语音信号，计算语音频谱倾斜度参数的全极点模型参

数，本实施例使用的全极点模型参数计算方法的公式为：

a_i＝f(s_i(n))

s_i(n)为第i帧宽带语音信号，a_i＝

[a_i(1),a_i(2)…,a_i(P)]为第i帧宽带语音信号频

谱倾斜度的全极点模型参数。P为全极点模型参数的阶数，

a_i(1),a_i(2)…,a_i(P)分别为第1,2,…,P阶的全极

点模型参数值，本实施例中P＝20。全极点模型参数a_i存在多种计算

方法，f(s_i(n))表示全极点模型参数a_i的计算函数，该计

算函数根据a_i的计算方法相应设置。例如可以使用线性预测算法或其

他基于特定感知加权的线性预测算法。

然后将宽带语音频谱倾斜度的全极点模型参数转化为线性频谱对参数。线性频谱对

参数为全极点模型参数的等价形式，线性频谱对参数具有更强的鲁棒性，在语音信

号处理领域广泛应用。

进一步，参数转化的具体过程为：将第i帧宽带语音频谱倾斜度的全极点模型参数

转化成z域形式，其z域形式为：

定义K_i(z)和Q_i(z)这两个P+1阶的对称和反对称多项式：

K_i(z)＝A_i(z)+z^-

(P+1)A_i(z^-1)

Q_i(z)＝A_i(z)-z^-(P+1)A_i(z^-

第i帧宽带语音频谱倾斜度的线性频谱对的Z域形式为K_i′(z)和

Q_i′(z)两个多项式：

求得K_i′(z)和Q_i′(z)对应的参数为和

每i帧宽带语音频谱倾斜度的线性频谱对参数为b_i＝

[bp_i,bq_i]，每帧宽带语音频谱倾斜度的线性频谱对参数作

为频谱倾斜度重建网络的训练输出。频谱倾斜度重建网络的输出矩阵Y为：

具体的，步骤S14对应图3中训练阶段的训练频谱倾斜度重建网络的模块，详细过

程为：训练频谱倾斜重建网络，定义感知均方根偏差作为评估方法，使用测试集中

的语音资料和评估方法测试频谱倾斜度网络性能，调试出最优重建网络参数模型。

评估方法感知均方根偏差的计算公式为：

为第i帧语音信号频谱倾斜度全极点模型参数的估计值，y_i(n)

为第i帧语音信号频谱倾斜度全极点模型参数的真实值，为第i帧语音信

号频谱倾斜度的估计值，Y_i(k)为第i帧语音信号频谱倾斜度的真实值，

对和Y_i(k)使用相同的子带划分方法分别划分成L个子带，

表示第i帧语音信号第j个子带的频谱倾斜度估计值，表示第i帧语音信号

第j个子带的频谱倾斜度真实值，D_j表示第j个子带的长度，

b_j表示计算第j个子带的感知均方根偏差的感知系数。PR_i

表示第i帧语音信号频谱倾斜度的感知均方根偏差(PRMSD)。

最优频谱倾斜度重建网络的输入层节点数为C，与步骤S12中每帧窄带语音信号的

对数幅度谱参数的点数相同。

具体实施时，最优网络参数模型的隐藏层可使用的激励函数包括Sigmoid函数、

Tanh函数、Linear函数等，隐藏层的节点参数可为[N/4,N/4,N/8,N/8]、

[N/8,N/8,N/16,N/16]、[N/4,N/4,N/8,N/16]、[N/4,N/8,N/8,N/16]和[N/4,N/8,N/16,N/16]，

每层隐藏层的最优时间步长通过参数调试确定。

本实施例中隐藏层使用的激励函数为Tanh函数，输出层使用的激励函数为Linear

函数，隐藏层的节点参数分别为[N/8,N/8,N/16,N/16]，输出层节点数为P，与语音

频谱倾斜度的全极点模型参数的阶数相同。步骤S14所述的最优重建网络的输出

层数为P，与语音频谱倾斜度的全极点模型参数的阶数相同，考虑到算法复杂度，

P的取值一般小于等于20。

实施例中，隐藏层的最优时间步长通过参数调试确定，具体调试过程为：使用上述

重建网络结构，分别训练使用不同的时间步长的重建网络，使用验证集中的语音资

料使用上述训练后网络进行测试，计算不同时间步长的重建网络的感知均方根偏差，

感知均方根偏差最小的重建网络使用得时间步长即为最优的隐藏层时间步长，本实

施例的每个隐藏层时间步长均为6。

当频谱倾斜度重建网络训完成后，即可投入到使用阶段，使用阶段将该网络嵌入到

语音通信系统解码器末端作为后处理技术使用，该网络能对实际通信中的实时语音

信号进行逐帧处理。

频谱倾斜度重建网络的使用阶段的具体实现步骤为：

步骤S21：实时逐帧输入窄带语音，提取窄带语音的对数幅度谱参数。

步骤S22：逐帧输入宽带语音对数幅度谱参数，结合频谱倾斜度重建网络和参数转

换重建宽带语音频谱倾斜度的全极点模型参数。

具体的，步骤S21对应图3中提取窄带语音特征的模块，具体实现过程为：实时输

入一帧窄带语音信号，使用与频谱倾斜度重建网络的训练阶段步骤S12相同的方

法，提取其C点窄带语音对数幅度谱参数。

步骤S22的具体实现过程为：将步骤S21提取的C点窄带语音对数幅度谱参数输

入到训练好的最优频谱倾斜度重建网络中，重建出宽带语音的频谱倾斜度的P阶

线性频谱对参数，最后将得到的P阶线性频谱对参数转化为P阶全极点模型参数，

即获取由窄带语音重建的宽带语音频谱倾斜度特征参数。

综上，本发明提供了一种从窄带语音信号中重建宽带语音信号频谱倾斜度的方法。

该方法具有较强的鲁棒性，能应用于所有基于频谱倾斜度特征的语音清晰度增强系

统之中，且适用于多语种、多模态的语音信号。具体实施时，可采用计算机软件技

术实现自动运行流程。

以上所描述的内容仅是本发明的优先实施例，本发明并不受上述实施例形式上的限

制，本领域的技术人员应当了解，凡是参照本发明的技术核心对上述实施例所作的

任意形式的简单改进、等价变化与修改，均属于本发明技术方案要求保护的发明范

围内。

2024年5月12日发(作者：亢德容)

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(21)申请号 CN2.0

(22)申请日 2018.10.25

(71)申请人武汉大学

地址 430072 湖北省武汉市武昌区珞珈山武汉大学

(72)发明人胡瑞敏李罡张锐王晓晨

(74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙)

代理人严彦

(51)

(10)申请公布号 CN 109215635 A

(43)申请公布日 2019.01.15

权利要求说明书说明书幅图

(54)发明名称

用于语音清晰度增强的宽带语音频

谱倾斜度特征参数重建方法

(57)摘要

本发明提供一种用于语音清晰度增

强的宽带语音频谱倾斜度特征参数重建方

法，包括基于循环神经网络的频谱倾斜度

重建网络的训练阶段和使用阶段，训练阶

建立语音数据集，对数据集中的语音资料

进行预处理；输入预处理后的窄带语音资

料，进行短时傅里叶变换得到窄带语音频

谱，将频谱信息对数化获取对数幅度谱；

输入预处理后的宽带语音资料，提取宽带

语音信号频谱倾斜度的全极点模型参数，

转化成线性频谱对参数；训练频谱倾斜度

重建网络并使用，重建宽带语音频谱倾斜

度的全极点模型参数。本发明根据窄带语

音信号重建宽带语音信号频谱倾斜度参

数，适用于所有基于频谱倾斜度特征的语

音清晰度增强系统之中，且可适配多语

种、多模态的语音信号。

法律状态

法律状态公告日

法律状态信息

法律状态

权利要求说明书

1.一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，其特征在于：

包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段，

所述的频谱倾斜度重建网络训练阶段包括以下步骤，

步骤S11，通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料，

建立语音数据集，按比例分成训练集和测试集、验证集语音资料，对数据集中的语

音资料进行预处理，所述预处理包括分帧和加窗；

步骤S12，输入预处理后的窄带语音资料训练集，进行短时傅里叶变换得到窄带语

音频谱，将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入；

步骤S13，输入预处理后的宽带语音资料训练集，提取宽带语音信号频谱倾斜度的

全极点模型参数，转化成线性频谱对参数，作为频谱倾斜度重建网络的输出；

步骤S14，训练频谱倾斜度重建网络，定义感知均方根偏差PRMSD作为评估方法

测试频谱倾斜度网络性能，每次评估使用验证集作为评价标准，调试出最优重建网

络参数模型，并在测试集中验证最终效果；

所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时

语音逐帧处理中，包括以下步骤，

步骤S21，实时逐帧输入窄带语音，提取窄带语音的对数幅度谱参数；

步骤S22，逐帧输入宽带语音对数幅度谱参数，结合频谱倾斜度重建网络和参数转

换重建宽带语音频谱倾斜度的全极点模型参数。

2.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，特征在于：宽带和窄带语音资料均包括普通语音和抗噪语音。

3.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S12中，短时傅里叶变换的点数为N，频谱倾斜度重建网

络的训练输入的计算公式为：

S_i(n)表示第i帧窄带语音信号，n为语音信号帧长，x_i(k)

表示第i帧语音信号的对数幅度谱的值，k为复变函数频域中的复变量基本表示符

号，W_in表示一种时域上的窗函数；每帧语音信号的对数幅度谱的点

数为x_i＝

[x_i(1),x_i(2)…,x_i(C)]为第i帧语音信号的对数

幅度谱，对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式

计算得到该帧信号的对数幅度谱，将其逐行存储到矩阵X中，X表示频谱倾斜度

重建网络的输入矩阵，M为X的行数。

4.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S13中，根据第i帧宽带语音信号s_i(n)计算，

得到a_i＝[a_i(1),a_i(2)…,a_i(P)]，

为第i帧宽带语音信号频谱倾斜度的全极点模型参数，P为全极点模型参数的阶数。

5.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S13所述的线性频谱对参数为全极点模型参数的等价形

式，线性频谱对参数具有更强的鲁棒性。

6.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S14采用的评估方法使用的是验证集和测试集的语音资

料，计算公式为：

为第i帧语音信号频谱倾斜度全极点模型参数的估计值，y_i(n)

为第i帧语音信号频谱倾斜度全极点模型参数的真实值，为第i帧语音信

号频谱倾斜度的估计值，Y_i(k)为第i帧语音信号频谱倾斜度的真实值，

对和Y_i(k)使用相同的子带划分方法分别划分成L个子带，

表示第i帧语音信号第j个子带的频谱倾斜度估计值，

Y_i^j(k)表示第i帧语音信号第j个子带的频谱倾斜度真实

值，D_j表示第j个子带的长度，b_j表示计算第j个子带的

感知均方根偏差的感知系数，PR_i表示第i帧语音信号频谱倾斜度的感

知均方根偏差PRMSD。

7.根据权利要1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方

法，其特征在于：步骤S14所述的最优重建网络参数模型的输入层节点数为与步

骤S12中每帧窄带语音信号的对数幅度谱参数的点数相同。

8.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S14中，最优网络参数模型的隐藏层使用的激励函数为

Sigmoid函数、Tanh函数或Linear函数，隐藏层的节点参数为[N/4,N/4,N/8,N/8]、

[N/8,N/8,N/16,N/16]、[N/4,N/4,N/8,N/16]、[N/4,N/8,N/8,N/16]或[N/4,N/8,N/16,N/16]，

每层隐藏层的最优时间步长通过参数调试确定。

9.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，其特征在于：步骤S14中，最优重建网络的输出层数为P，与语音频谱倾斜

度的全极点模型参数的阶数相同。

10.根据权利要求1或2或3或4或5或6或7或8或9所述的用于语音清

晰度增强的宽带语音频谱倾斜度特征参数重建方法，其特征在于：

频谱倾斜度重建网络的使用阶段步骤S21中的提取窄带语音对数幅度谱参数的方

法与频谱倾斜度重建网络的训练阶段步骤S12相同；

频谱倾斜度重建网络的使用阶段步骤S22中的参数转换是将频谱倾斜度重建网络

重建的宽带语音频谱倾斜度的线性频谱对参数转化为全极点模型参数。

说明书

技术领域

本发明提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，涉

及语音信号处理和通信技术领域，适用于所有基于频谱倾斜度特征的语音清晰度增

强系统之中，且可适配多语种、多模态的语音信号。

背景技术

21世纪以来，移动通信技术迅速发展，手机等移动通信设备快速普及。凭借手机

带来的便利，人们得以随时随地使用移动通信设备进行实时语音通信；在这种便利

之下，人们不可避免的在车站、餐馆、工厂等多样化嘈杂环境下通话，嘈杂环境中

的噪声严重降低了语音通话质量。

语音通信流程可以简要分为两个阶段(如图1所示)：第一阶段为说话阶段，说话人

向手机说话，手机麦克风采集语音信号，并将信号编码，最后作为上行信号发送至

通信信道中；第二阶段为听音阶段，手机从信道中接收到由通信网络发出的下行信

号，由手机解码重新生成语音信号，最后由手机播放解码后的语音信号，人耳接收

到播放的语音信号，一条语音信息的通信过程完成了。接收下行信号、收听语音内

容的过程，站在语音收听者的角度来看，称作近端；发生语音信号、发送上行信号

的过程，仍然站在语音收听者的角度来看，称作远端。

远端信号处理过程中，研究者们逐步研究出了语音增强技术用于抑制麦克风采集到

的语音信号中的环境噪声。在语音增强过程中，一方面利用软件算法，根据语音信

号时频特性、声学特性、语言学特性等一系列特征，滤除语音信号之外的能量，并

对滤波后信号成分有所缺失的语音信号进行语音特征重建；另一方面利用硬件辅助，

在手机上安装多个的专用麦克风用于环境声采集，将语音信号与噪声麦克风采集到

的噪声信号进行谱减法或组成自适应滤波系统。凭借一系列的软硬件结合措施，语

音增强技术已经能较为完整的滤除麦克风采集到的语音信号中的噪声成分，并保证

语音失真非常小。

近端信号处理过程中，为了抑制听音过程中的环境噪声，研究者们最先想到的是噪

声抵消策略：使用麦克风采集环境噪声，然后发出与噪声相位相反，频率、振幅相

同的声波与噪声干涉实现相位抵消，降低环境噪声能量。主动降噪耳机就是基于噪

声抵消策略的典型产品，耳机通过物理隔绝方式预先过滤了一部分噪声，剩余噪声

通过在耳机播放的信号中追加反相信号抵消掉。但在听筒接听模式缺少耳机物理隔

绝的情况下，耳朵直接暴露在能量巨大的环境噪声之中，同时伴随着环境混响、听

筒难以保证正对耳朵等一系列问题，抗噪效果大幅度下降。

在手机听筒接听模式下噪声抵消策略失效的情况下，为了保障听音者接收的语音信

号足够清晰，研究者们又提出了近端听音增强技术，基于感知声学、语言学和信号

处理方法，通过改善语音信号感知可懂度的方式，增强语音信号鲁棒性，使语音信

号的在相同噪声条件下更容易被听音者理解；由于其以改善语音信号可懂度为目标，

因而又被称作语音清晰度增强或语音可懂度增强技术。

语音清晰度增强技术的传统方法主要分为两类：基于规则的方法和基于度量的方法。

基于规则的方法不考虑周围的环境噪声，仅根据固定的语音特性调整规则修正语音

信号时频特性，该类方法在不同环境下的清晰度提升幅度差异较大，算法鲁棒性较

差；基于度量的方法是通过特定的度量指标将语音信号与环境噪声事实对比，动态

调整语音信号的增益，对语音清晰度的提升效果较为明显，但是该类方法很大程度

上破坏了语音自然度和舒适度。

基于数据驱动的语音清晰度增强方法是一种全新的语音清晰度增强方法，该方法利

用说话人噪声对抗的发声机理和自然语音生成模型提高语音清晰度。在噪声场景下，

说话人受到噪声的压迫，会自发地改变自己的发声方式来克服周围噪声的影响，这

种改变可以显著提高收听者的感知清晰度，这种说话人噪声对抗发生机理被称作

Lombard效应，这种具备抗噪特性的语音被称为Lombard语音。研究表明，

Lombard语音的频谱倾斜度较对应语句的普通语音的频谱倾斜度在细节上差异巨大，

Lombard语音频谱倾斜度整体也更为平坦，频谱倾斜度的特征有效反应了Lombard

语音和普通语音的差异，可利用频谱倾斜度参数作为提升语音清晰度的关键参数。

在数据驱动的语音清晰度增强系统中，利用不同场景下的Lombard语音和对应安

静环境下的普通语音信号作为训练数据，能够拟合出基于Lombard的语音清晰度

增强系统，可以通过普通语音信号的频谱倾斜度映射出Lombard语音的频谱倾斜

度，进而得到具备抗噪特性的Lombard语音。该系统算法框图如图2所示，具体

过程为：输入窄带普通语音，提取窄带语音频谱倾斜度，利用频谱倾斜度重建网络

重建宽带语音频谱倾斜度特征参数A(z)，将A(z)输入到频谱倾斜度映射模型映射

出宽带抗噪语音(Lombard语音)频谱倾斜度特征参数A′(z)，其中，z为复变函数z

域中的复变量基本表示符号。利用滤波器将窄带普通语音频谱倾斜度替换成映射的

宽带语音抗噪语音频谱倾斜度，然后，为了保证处理前后的语音信号的总能量不变，

对滤波后的语音信号进行增益控制，最后，输出抗噪语音。

基于数据驱动的算法可以利用高斯过程回归、高斯混合模型和深度神经网络等机器

学习算法完成映射模型训练。该映射模型对输入的语音频谱度信息有很高的精度要

求，但实际语音通信环境中的窄带信号由于声学特征缺失加多，用窄带信号直接计

算频谱倾斜度参数较窄带语音信号存在较大误差，导致语音清晰度增强系统无法获

取准确的频谱倾斜度信息使增强效果严重下降。本发明提出一种用于语音清晰度增

强的宽带语音频谱倾斜度特征参数重建方法，重建的特征参数能够应用于所有基于

频谱倾斜度参数的语音清晰度增强系统。

发明内容

本发明通过提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，

解决了由于窄带语音信号声学特征缺失，其直接计算的频谱倾斜度参数较宽带语音

信号存在较大误差，导致语音清晰度增强系统无法获取准确的频谱倾斜度信息使增

强效果严重下降的问题。

本发明技术方案提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建

方法，包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段，

所述的频谱倾斜度重建网络的训练阶段包括以下步骤，

步骤S11，通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料，

建立语音数据集，按比例分成训练集和测试集、验证集语音资料，对数据集中的语

音资料进行预处理，所述预处理包括分帧和加窗；

步骤S12，输入预处理后的窄带语音资料训练集，进行短时傅里叶变换得到窄带语

音频谱，将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入；

步骤S13，输入预处理后的宽带语音资料训练集，提取宽带语音信号频谱倾斜度的

全极点模型参数，转化成线性频谱对参数，作为频谱倾斜度重建网络的输出；

步骤S14，训练频谱倾斜度重建网络，定义感知均方根偏差PRMSD作为评估方法

测试频谱倾斜度网络性能，每次评估使用验证集作为评价标准，调试出最优重建网

络参数模型，并在测试集中验证最终效果；

所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时

信语音号逐帧处理中，

步骤S21，实时逐帧输入窄带语音，提取窄带语音的对数幅度谱参数；

步骤S22，逐帧输入宽带语音对数幅度谱参数，结合频谱倾斜度重建网络和参数转

换重建宽带语音频谱倾斜度的全极点模型参数。

而且，宽带和窄带语音资料均包括普通语音和抗噪语音。

而且，步骤S12中，短时傅里叶变换的点数为N，频谱倾斜度重建网络的训练输入

的计算公式为：

S_i(n)表示第i帧窄带语音信号，n为语音信号帧长，x_i(k)

表示第i帧语音信号的对数幅度谱的值，k为复变函数频域中的复变量基本表示符

号，W_in表示一种时域上的窗函数；每帧语音信号的对数幅度谱的点

数为x_i＝

[x_i(1),x_i(2)…,x_i(C)]为第i帧语音信号的对数

幅度谱，对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式

计算得到该帧信号的对数幅度谱，将其逐行存储到矩阵X中，X表示频谱倾斜度

重建网络的输入矩阵，M为X的行数。

而且，步骤S13中，根据第i帧宽带语音信号s_i(n)计算，

得到a_i＝[a_i(1),a_i(2)…,a_i(P)]，

为第i帧宽带语音信号频谱倾斜度的全极点模型参数，P为全极点模型参数的阶数。

而且，步骤S13所述的线性频谱对参数为全极点模型参数的等价形式，线性频谱

对参数具有更强的鲁棒性。

而且，步骤S14采用的评估方法使用的是验证集和测试集的语音资料，计算公式

为：

为第i帧语音信号频谱倾斜度全极点模型参数的估计值，y_i(n)

为第i帧语音信号频谱倾斜度全极点模型参数的真实值，为第i帧语音信

号频谱倾斜度的估计值，Y_i(k)为第i帧语音信号频谱倾斜度的真实值，

对和Y_i(k)使用相同的子带划分方法分别划分成L个子带，

表示第i帧语音信号第j个子带的频谱倾斜度估计值，表示第i帧

语音信号第j个子带的频谱倾斜度真实值，D_j表示第j个子带的长度，

b_j表示计算第j个子带的感知均方根偏差的感知系数，PR_i

表示第i帧语音信号频谱倾斜度的感知均方根偏差PRMSD。

而且，步骤S14所述的最优重建网络参数模型的输入层节点数为与步骤

S12中每帧窄带语音信号的对数幅度谱参数的点数相同。

而且，步骤S14中，最优网络参数模型的隐藏层使用的激励函数为Sigmoid函数、

Tanh函数或Linear函数，隐藏层的节点参数为[N/4,N/4,N/8,N/8]、

[N/8,N/8,N/16,N/16]、[N/4,N/4,N/8,N/16]、[N/4,N/8,N/8,N/16]或[N/4,N/8,N/16,N/16]，

每层隐藏层的最优时间步长通过参数调试确定。

而且，步骤S14中，最优重建网络的输出层数为P，与语音频谱倾斜度的全极点模

型参数的阶数相同。

而且，频谱倾斜度重建网络的使用阶段步骤S21中的提取窄带语音对数幅度谱参

数的方法与频谱倾斜度重建网络的训练阶段步骤S12相同；频谱倾斜度重建网络

的使用阶段步骤S22中的参数转换是将频谱倾斜度重建网络重建的宽带语音频谱

倾斜度的线性频谱对参数转化为全极点模型参数。

本发明实现了由窄带语音的对数幅度谱信息重建宽带语音频谱倾斜度信息，该频谱

倾斜度信息能够适用于所有基于频谱倾斜度的语音清晰度增强系统，且可适配多语

种、多模态的语音信号，可提升该语音清晰度增强系统的拓展性和实用性。

附图说明

图1为本发明实施例的噪声场景下的语音通信流程示意图；

图2为本发明实施例的基于频谱倾斜度特征的语音清晰度增强系统框图；

图3为本发明实施例的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方

法的流程图。

具体实施方式

以下结合本发明实施例中的附图，对本发明实施例中的进行进一步的详细描述，显

而易见，本文所描述的实施例仅是本发明一部分实施例，并不是所有的实施例。本

领域技术人员在没有做出创造性劳动前提下基于本发明实施例所获取的任何实施例，

均为本发明申请的保护范围。

本发明适用于实时语音通信系统中的语音清晰度增强系统，该语音清晰度增强系统

基于说话人噪声对抗的发声机理(Lombard效应)和自然语音生成模型提高音清晰度。

本发明提供了一种语音清晰度增强系统中语音特征参数恢复方法，即“一种由窄带

语音重建宽带语音频谱倾斜度参数的方法”。

下面结合附图和实施例对本发明作进一步说明，但不作为本发明的限定。

根据现有技术存在的问题，实施例提出了一种由窄带语音重建宽带语音频谱倾斜度

特征参数的方法，适用于基于频谱倾斜度特征的语音清晰度增强系统，该系统框图

如图2所示。

实施例的实现过程包括基于循环神经网络的频谱倾斜度重建网络(RecurrentNeural

Network，RNN)的训练阶段和使用阶段，如图3所示。

训练阶段：提取训练集中窄带语音对数幅度谱参数和宽带语音频谱线性频谱对参数

分别作为频谱倾斜度重建网络训练的输入和输出，训练频谱倾斜度重建网络，并调

试出最优参数模型；使用阶段：逐帧输入窄带语音对数幅度谱参数到频谱倾斜度重

建网络中，重建出宽带语音频谱倾斜度的线性频谱对参数，生成宽带语音频谱倾斜

度的全极点模型参数。

频谱倾斜度重建网络的训练阶段包括如下具体实施步骤：

步骤S11：建立语音数据集，按比例分成训练集和测试集、验证集语音资料，对数

据集中的语音资料进行分帧，使用海明窗加窗等预处理；

步骤S12：输入预处理后的窄带语音资料训练集，进行短时傅里叶变换得到窄带语

音频谱，将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入；

步骤S13：输入预处理后的宽带语音资料训练集，提取宽带语音信号频谱倾斜度的

全极点模型参数，将其转化成线性频谱对参数作为频谱倾斜度重建网络的输出；

步骤S14：训练频谱倾斜重建网络，定义感知均方根偏差(Perceptual Root-Mean-

Square Deviation,PRMSD)作为评估方法测试频谱倾斜度网络性能，，每次评估使用

验证集作为评价标准，调试出最优重建网络参数模型，并在测试集中验证最终效果。

具体的，步骤S11的详细过程为：对高采样率的宽带语音资料降采样获取低采样

率的窄带语音资料，建立语音数据集，所述的宽带语音资料的采样率一般为16000

赫兹、48000赫兹等，窄带语音资料的采样率一般为8000赫兹、6000赫兹等。

本实施例中所述的宽带语音资料的采样率为16000赫兹，窄带语音资料的采样率为

8000赫兹，对应的窄带和宽带语音资料均包括有相同文本内容的普通语音和抗噪

语音。图3中输入的窄带和宽带语音均来自步骤S11中建立的语音数据集。将语音

数据集按照85％、7.5％、7.5％的比例分别分为训练集、验证集和测试集，对训练

集和测试集中的窄带与宽带语音资料进行分帧，本实施例中使用海明窗进行加窗处

理。

所述的宽带和窄带语音资料均包括普通语音和抗噪语音(Lombard语音)。

所述的Lombard语音是人在噪声环境下，受到周围噪声的压迫，自发地改变自己

的发声方式所发出的具有抗噪特性的语音。Lombard语音比普通语音有更强的清晰

度。优选的，窄带和宽带语音资料按照如下设置进行分帧：设置每帧语音信号的时

长为20毫秒，每一帧语音信号同前一帧设置50％的重叠。由于窄带和宽带语音的

采样率不同，所以窄带和宽带语音每帧信号的帧长不同，本实施例中每帧窄带和宽

带语音信号的帧长分别为320和160。

具体的，步骤S12对应图3中训练阶段的计算网络输入的模块，详细过程为：输入

从步骤S11获取的每帧窄带语音信号，进行N点的短时傅里叶变换，N的可能取

值为1024,512,256等，本实施例中N的取值优选512，然后按照如下公式计算每帧

窄带语音信号的对数幅度谱：

S_i(n)表示第i帧窄带语音信号，n为语音信号帧长，取值为160，

x_i(k)表示第i帧窄带语音信号的对数幅度谱的值，k为复变函数频域

中的复变量基本表示符号，M为输入的训练样本的总帧数，W_in表示

一种时域上的窗函数，本实施例对每帧语音信号使用汉宁窗加窗，可供选择的其他

窗函数有海明窗和正弦窗。本发明所取的每帧语音信号的对数幅度谱的点数为

本实施例中C的取值为257。

每帧语音信号的对数幅度谱的点数为x_i＝

[x_i(1),x_i(2)…,x_i(C)]为第i帧语音信号的对数

幅度谱，对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式

计算得到该帧信号的对数幅度谱，将其逐行存储到矩阵X中，X表示频谱倾斜度

重建网络的输入矩阵，M为X的行数，即为输入的训练样本(所有训练集中分帧后

的窄带语音资料)的总帧数。

本实施例中每帧窄带语音信号的257点对数幅度谱参数作为频谱倾斜度重建网络的

训练输入。频谱倾斜度重建网络的输入矩阵X为：

具体的，步骤S13对应图3中训练阶段的计算网络输出的模块，详细过程为：输入

从步骤S11获取的每帧宽带语音信号，计算语音频谱倾斜度参数的全极点模型参

数，本实施例使用的全极点模型参数计算方法的公式为：

a_i＝f(s_i(n))

s_i(n)为第i帧宽带语音信号，a_i＝

[a_i(1),a_i(2)…,a_i(P)]为第i帧宽带语音信号频

谱倾斜度的全极点模型参数。P为全极点模型参数的阶数，

a_i(1),a_i(2)…,a_i(P)分别为第1,2,…,P阶的全极

点模型参数值，本实施例中P＝20。全极点模型参数a_i存在多种计算

方法，f(s_i(n))表示全极点模型参数a_i的计算函数，该计

算函数根据a_i的计算方法相应设置。例如可以使用线性预测算法或其

他基于特定感知加权的线性预测算法。

然后将宽带语音频谱倾斜度的全极点模型参数转化为线性频谱对参数。线性频谱对

参数为全极点模型参数的等价形式，线性频谱对参数具有更强的鲁棒性，在语音信

号处理领域广泛应用。

进一步，参数转化的具体过程为：将第i帧宽带语音频谱倾斜度的全极点模型参数

转化成z域形式，其z域形式为：

定义K_i(z)和Q_i(z)这两个P+1阶的对称和反对称多项式：

K_i(z)＝A_i(z)+z^-

(P+1)A_i(z^-1)

Q_i(z)＝A_i(z)-z^-(P+1)A_i(z^-

第i帧宽带语音频谱倾斜度的线性频谱对的Z域形式为K_i′(z)和

Q_i′(z)两个多项式：

求得K_i′(z)和Q_i′(z)对应的参数为和

每i帧宽带语音频谱倾斜度的线性频谱对参数为b_i＝

[bp_i,bq_i]，每帧宽带语音频谱倾斜度的线性频谱对参数作

为频谱倾斜度重建网络的训练输出。频谱倾斜度重建网络的输出矩阵Y为：

具体的，步骤S14对应图3中训练阶段的训练频谱倾斜度重建网络的模块，详细过

程为：训练频谱倾斜重建网络，定义感知均方根偏差作为评估方法，使用测试集中

的语音资料和评估方法测试频谱倾斜度网络性能，调试出最优重建网络参数模型。

评估方法感知均方根偏差的计算公式为：

为第i帧语音信号频谱倾斜度全极点模型参数的估计值，y_i(n)

为第i帧语音信号频谱倾斜度全极点模型参数的真实值，为第i帧语音信

号频谱倾斜度的估计值，Y_i(k)为第i帧语音信号频谱倾斜度的真实值，

对和Y_i(k)使用相同的子带划分方法分别划分成L个子带，

表示第i帧语音信号第j个子带的频谱倾斜度估计值，表示第i帧语音信号

第j个子带的频谱倾斜度真实值，D_j表示第j个子带的长度，

b_j表示计算第j个子带的感知均方根偏差的感知系数。PR_i

表示第i帧语音信号频谱倾斜度的感知均方根偏差(PRMSD)。

最优频谱倾斜度重建网络的输入层节点数为C，与步骤S12中每帧窄带语音信号的

对数幅度谱参数的点数相同。

具体实施时，最优网络参数模型的隐藏层可使用的激励函数包括Sigmoid函数、

Tanh函数、Linear函数等，隐藏层的节点参数可为[N/4,N/4,N/8,N/8]、

[N/8,N/8,N/16,N/16]、[N/4,N/4,N/8,N/16]、[N/4,N/8,N/8,N/16]和[N/4,N/8,N/16,N/16]，

每层隐藏层的最优时间步长通过参数调试确定。

本实施例中隐藏层使用的激励函数为Tanh函数，输出层使用的激励函数为Linear

函数，隐藏层的节点参数分别为[N/8,N/8,N/16,N/16]，输出层节点数为P，与语音

频谱倾斜度的全极点模型参数的阶数相同。步骤S14所述的最优重建网络的输出

层数为P，与语音频谱倾斜度的全极点模型参数的阶数相同，考虑到算法复杂度，

P的取值一般小于等于20。

实施例中，隐藏层的最优时间步长通过参数调试确定，具体调试过程为：使用上述

重建网络结构，分别训练使用不同的时间步长的重建网络，使用验证集中的语音资

料使用上述训练后网络进行测试，计算不同时间步长的重建网络的感知均方根偏差，

感知均方根偏差最小的重建网络使用得时间步长即为最优的隐藏层时间步长，本实

施例的每个隐藏层时间步长均为6。

当频谱倾斜度重建网络训完成后，即可投入到使用阶段，使用阶段将该网络嵌入到

语音通信系统解码器末端作为后处理技术使用，该网络能对实际通信中的实时语音

信号进行逐帧处理。

频谱倾斜度重建网络的使用阶段的具体实现步骤为：

步骤S21：实时逐帧输入窄带语音，提取窄带语音的对数幅度谱参数。

步骤S22：逐帧输入宽带语音对数幅度谱参数，结合频谱倾斜度重建网络和参数转

换重建宽带语音频谱倾斜度的全极点模型参数。

具体的，步骤S21对应图3中提取窄带语音特征的模块，具体实现过程为：实时输

入一帧窄带语音信号，使用与频谱倾斜度重建网络的训练阶段步骤S12相同的方

法，提取其C点窄带语音对数幅度谱参数。

步骤S22的具体实现过程为：将步骤S21提取的C点窄带语音对数幅度谱参数输

入到训练好的最优频谱倾斜度重建网络中，重建出宽带语音的频谱倾斜度的P阶

线性频谱对参数，最后将得到的P阶线性频谱对参数转化为P阶全极点模型参数，

即获取由窄带语音重建的宽带语音频谱倾斜度特征参数。

综上，本发明提供了一种从窄带语音信号中重建宽带语音信号频谱倾斜度的方法。

该方法具有较强的鲁棒性，能应用于所有基于频谱倾斜度特征的语音清晰度增强系

统之中，且适用于多语种、多模态的语音信号。具体实施时，可采用计算机软件技

术实现自动运行流程。

以上所描述的内容仅是本发明的优先实施例，本发明并不受上述实施例形式上的限

制，本领域的技术人员应当了解，凡是参照本发明的技术核心对上述实施例所作的

任意形式的简单改进、等价变化与修改，均属于本发明技术方案要求保护的发明范

围内。

USB迷 | 专注于互联网分享

用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法

与本文相关的文章

评论列表 (0)