基于希尔伯特黄变换的语音特征系数提取方法及相关设备与流程

2021-01-28 15:01:31|

271|

起点商标网

本发明涉及语音处理技术领域，特别涉及一种基于希尔伯特黄变换的基于希尔伯特黄变换的语音特征系数提取方法及相关设备。

背景技术：

特征系数提取是指从说话人语音中提取出可以表达说话人特性信息的过程，是识别说话人声音中首要环节，具有举足轻重的地位。

目前，应用最为广泛的特征参数是mfcc(mel-scalefrequencycepstralcoefficient，梅尔频率倒谱系数)，mfcc是基于人耳的听觉感知特性提取的，较为准确描述了人耳听觉频率的非线性特性。但是mfcc是基于傅里叶变换的基础上提取的，傅里叶变换在分析语音信时存在一个先验假设，即语音具有短时平稳特性。基于这个假设，将在分析语音信号之前，先将语音信号通过分帧加窗的方式分为若干个短时段，在每个短时段内进行短时傅里叶变换，以此来分析语音信号的时频特性。但是从严格意义上来讲，语音信号是一种非线性非平稳信号，这种分帧截断的方式会导致语音频谱的泄露，导致不能真实反映语音的频谱特性。

技术实现要素：

本发明的目的在于针对现有技术的不足之处，提供一种基于希尔伯特黄变换的基于希尔伯特黄变换的语音特征系数提取方法，旨在解决现有的基于希尔伯特黄变换的语音特征系数提取方法存在语音频谱的泄露，导致不能真实反映语音的频谱特性的问题。

本发明提供了一种基于希尔伯特黄变换的语音特征系数提取方法，包括以下步骤：

将输入的语音信号进行经验模态分解，得到若干个固有模态函数；

将各个固有模态函数进行希尔伯特谱分析，得到各个固有模态函数的希尔伯特边际谱；

将各个固有模态函数的希尔伯特边际谱分别进行滤波，得到语音信号在不同频率分量上的幅值响应；

对所述的幅值响应提取对数能量谱，将得到的对数能量谱进行离散余弦变换变换，得到梅尔倒谱系数。

优选地，在所述将输入语音信号进行经验模态分解，得到若干个固有模态函数之前，还包括：

对输入的初始音频信号进行预处理，使语音信号更纯净、更突出、更易提取特征。其中预加重公式为：

y(n)＝x(n)-μx(n-1)

其中，μ为预加重系数，y(n)是预加重处理以后的语音信号，x(n)及x(n-1)均为初始音频信号。

优选地，所述将语音信号进行经验模态分解，得到若干个固有模态函数，具体包括：

获取初始音频信号的所有的局部极大值和所有的局部极小值；

对所有的局部极大值和所有的局部极小值分别进行预设次数的样条插值，以生成若干个固有模态函数。

优选地，所述对所有的局部极大值和所有的局部极小值分别进行预设次数的样条插值，以生成若干个固有模态函数，具体包括：

根据所有的局部极大值生成上包络线，根据所有的局部极小值生成下包络线；

计算所述上包络线与所述下包络线的平均值；

基于所述平均值及预设规则生成若干个固有模态函数。

优选地，所述基于所述平均值及预设规则生成若干个固有模态函数，具体包括：

基于所述平均值及第一预设公式计算第一模态函数分量；

判断所述第一模态函数分量是否满足预设分量条件；

在第一模态函数分量满足预设分量条件时，将所述第一模态函数分量作为固有模态函数；在第一模态函数分量不满足预设分量条件时，返回至所述根据所有的局部极大值生成上包络线，根据所有的局部极小值生成下包络线的步骤。

优选地，所述根据所述对响应幅值获取对数能量谱，将得到的对数能量谱进行离散余弦变换变换，得到梅尔倒谱系数，具体包括：

对所述幅值响应进行希尔伯特边际谱离散后，取平方得到能量谱；

对所述能量谱通过mel滤波器组进行滤波，得到在不同频率分量上的对数能量谱；

对数能量谱进行离散余弦变换变换，去除参数间的相关性，得到梅尔倒谱系数。

为实现上述目的，本发明还提出一种基于希尔伯特黄变换的基于希尔伯特黄变换的语音特征系数提取装置，所述接入显示装置包括：

分解模块，用于将语音信号进行经验模态分解，得到若干个固有模态函数；

分析模块，用于将各个固有模态函数进行希尔伯特谱分析，得到各个固有模态函数的希尔伯特边际谱；

滤波模块，用于将各个固有模态函数的希尔伯特边际谱分别进行滤波，得到语音信号在不同频率分量上的幅值响应；

变换模块，用于对所述的幅值响应提取对数能量谱，将得到的对数能量谱进行离散余弦变换变换，得到梅尔倒谱系数。

为实现上述目的，本发明还提出一种基于希尔伯特黄变换的基于希尔伯特黄变换的语音特征系数提取设备，其特征在于，所述基于希尔伯特黄变换的语音特征系数提取设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于希尔伯特黄变换的语音特征系数提取程序，所述基于希尔伯特黄变换的语音特征系数提取程序被所述处理器执行时实现如上所述的基于希尔伯特黄变换的语音特征系数提取方法的步骤。

为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于希尔伯特黄变换的语音特征系数提取程序，所述基于希尔伯特黄变换的语音特征系数提取程序被处理器执行时实现如上所述的基于希尔伯特黄变换的语音特征系数提取方法的步骤。

本发明提供的技术方案中，将输入的语音信号进行经验模态分解，得到若干个固有模态函数；将各个固有模态函数进行希尔伯特谱分析，得到各个固有模态函数的希尔伯特边际谱；将各个固有模态函数的希尔伯特边际谱分别进行滤波，得到语音信号在不同频率分量上的幅值响应；对所述的幅值响应提取对数能量谱，将得到的对数能量谱进行离散余弦变换变换，得到一种新的梅尔倒谱系数。本发明利用了希尔伯特黄变换分析非线性非平稳信号的优越性，提出了听觉感知的说话人特征系数提取算法，通过算法得到了一种新的梅尔倒谱系数。新的梅尔倒谱系数能够反映出人耳的听觉感知特性，区分说话人性能较好，而且还反映出了语音信号更真实的频谱特性分布。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明基于希尔伯特黄变换的基于希尔伯特黄变换的语音特征系数提取方法一实施例的流程图；

图2为本发明基于希尔伯特黄变换的基于希尔伯特黄变换的语音特征系数提取方法另一实施例的流程图；

图3为图1中步骤s20的具体流程图；

图4为图3中步骤s220的具体流程图；

图5为图1中步骤s50的具体流程图；

图6为本发明基于希尔伯特黄变换的基于希尔伯特黄变换的语音特征系数提取装置另一实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/或”的含义，包括三个并列的方案，以“a和/或b”为例，包括a方案、或b方案、或a和b同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，图1为本发明基于希尔伯特黄变换基于希尔伯特黄变换的语音特征系数提取方法第一实施例的流程示意图。

在第一实施例中，所述基于希尔伯特黄变换的基于希尔伯特黄变换的语音特征系数提取方法包括以下步骤：

步骤s20：将输入的语音信号进行经验模态分解，得到若干个固有模态函数。

需要说明的是，经验模态分解(empiricalmodedecomposition，缩写emd)是一种新型自适应信号时频处理方法，特别适用于非线性非平稳信号的分析处理。

固有模态函数imf，由瞬时频率的物理意义可知，并不是任意的信号都能用瞬时频率来讨论，只有当信号包括一种震动模式，而没有复杂叠加波的情况时才行。实际上，定义一个有意义的瞬时频率的必要条件就是要求函数关于局部零平均值对称，并且零交叉点和极值数量相同。基于此种原因，提出了固有模态函数概念。

步骤s30：将各个固有模态函数进行希尔伯特谱分析，得到各个固有模态函数的希尔伯特边际谱。值得说明的是，希尔伯特即hilbert。

步骤s40：将各个固有模态函数的希尔伯特边际谱分别进行滤波，得到语音信号在不同频率分量上的幅值响应。本实施例中，采用的mel滤波器来进行滤波。

步骤s50：根据所述对幅值响应获取对数能量谱，将得到的对数能量谱进行离散余弦变换变换，得到梅尔倒谱系数。

离散余弦变换(dctfordiscretecosinetransform)是与傅里叶变换相关的一种变换，它类似于离散傅里叶变换(dftfordiscretefouriertransform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换，这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数)，在有些变形里面需要将输入或者输出的位置移动半个单位。

本发明提供的技术方案中，将输入的语音信号进行经验模态分解，得到若干个固有模态函数；将各个固有模态函数进行希尔伯特谱分析，得到各个固有模态函数的希尔伯特边际谱；将各个固有模态函数的希尔伯特边际谱分别进行滤波，得到语音信号在不同频率分量上的幅值响应；根据所述对幅值响应获取对数能量谱，将得到的对数能量谱进行离散余弦变换变换，得到一种新的梅尔倒谱系数。本发明利用了希尔伯特黄变换分析非线性非平稳信号的优越性，提出了听觉感知的说话人特征系数提取算法，通过算法得到了一种新的梅尔倒谱系数。新的梅尔倒谱系数能够反映出人耳的听觉感知特性，区分说话人性能较好，而且还反映出了语音信号更真实的频谱特性分布

参照图2，进一步地，在所述将输入语音信号进行经验模态分解，得到若干个固有模态函数之前，还包括：

步骤s10:对输入的初始音频信号进行预处理，使语音信号更纯净、更突出、更易提取特征。

本实施例中，对输入的初始音频信号进行预加重处理，使语音信号更纯净、更突出、更易提取特征，其中预加重公式为：

y(n)＝x(n)-μx(n-1)

其中，μ为预加重系数，y(n)是预加重处理以后的语音信号，x(n)及x(n-1)均为初始音频信号。

参照图3，进一步地，所述将语音信号进行经验模态分解，得到若干个固有模态函数，具体包括：

步骤s210：获取初始音频信号的所有的局部极大值和所有的局部极小值；

步骤s220：对所有的局部极大值和所有的局部极小值分别进行预设次数的样条插值，以生成若干个固有模态函数。

参照图4，值得说明地是，步骤s220具体包括：

步骤s221：根据所有的局部极大值生成上包络线，根据所有的局部极小值生成下包络线；

步骤s222：计算所述上包络线与所述下包络线的平均值；

步骤s223：基于所述平均值及预设规则生成若干个固有模态函数。

本实施例中，步骤s223具体包括：

基于所述平均值及第一预设公式计算第一模态函数分量；

判断所述第一模态函数分量是否满足预设分量条件；

现结合具体实施例，对本实施例中步骤s200作进一步说明：

步骤2.1：找出噪声语音信号x(n)的所有局部极大值和极小值；

步骤2.2：对所有局部极大值和极小值分别进行三次样条插值，得到由局部极大值构成的上包络线和所有局部极小值构成的下包络线，分别记为u(t)，l(t)；

步骤2.3：求上下包络线的均值为：

m(t)＝(u(t)+l(t))/2

步骤2.4：令h(t)＝x(t)-m(t)，验证h(t)是否满足imf(intrinsicmodefunction，固有模态函数)分量的条件，若满足，则h(t)为第一模态函数分量；若不满足，将h(t)作为待分解信号，重新开始步骤2.1，直到满足模态函数分量的条件，并将第一模态函数分量记为imf1(t)；

步骤2.5：将第一个信号余量r1(t)＝x(t)-imf1(t)作为分解信号，重复步骤2.1至2.4，得到第二个imf分量imf2(t)，此时r2(t)＝r1(t)-imf2(t)；

步骤2.6：重复步骤2.5，直至得到的余项rn(t)不能继续分解，得到噪声语音信号x(t)的若干个模态函数imf1(t),imf2(t),...,imfn(t)。

参照图5，所述根据所述对响应幅值获取对数能量谱，将得到的对数能量谱进行离散余弦变换变换，得到梅尔倒谱系数，具体包括：

步骤s510：对所述响应幅值进行希尔伯特边际谱离散后，取平方得到能量谱；

步骤s520：对所述能量谱通过mel滤波器组进行滤波，得到在不同频率分量上的对数能量谱；

步骤s530：对数能量谱进行离散余弦变换变换，去除参数间的相关性，得到梅尔倒谱系数。

进一步的，对于上述的步骤s30，具体实现包括以下子步骤：

步骤3.1：根据初始音频信号得到的若干个固有模态函数分别作为待分解信号，重复步骤2.1至2.6，得到第i个固有模态函分量的固有模态函数

步骤3.2：计算第i个固有模态函分量的希尔伯特谱hi(ω,t)和希尔伯特边际谱hi(ω)。

将每个固有模态函的希尔伯特边际谱经过mel滤波器组滤波，得到语音信号在不同频率分量上的幅值响应，再取对数能量谱特征，具体包括以下子步骤：

步骤4.1：将第i个固有模态函分量的希尔伯特边际谱hi(ω)离散后，取平方得到能量谱si(k)；

步骤4.2：将第i个固有模态函的能量谱si(k)通过mel滤波器组进行滤波，得到在不同频率分量上的能量响应e(m)；

步骤5：dct变换：将步骤4得到的对数能量谱进行dct变换，去除参数间的相关性，得到基于希尔伯特边际谱的梅尔倒谱系数h-mfcc：

其中，n、m、m为正整数，e(m)为不同频率分量上的能量响应。

参照图6，为实现上述目的，本发明还提出一种基于希尔伯特黄变换的基于希尔伯特黄变换的语音特征系数提取装置，所述接入显示装置包括：

分解模块200，用于将语音信号进行经验模态分解，得到若干个固有模态函数；

分析模块300，用于将各个固有模态函数进行希尔伯特谱分析，得到各个固有模态函数的希尔伯特边际谱；

滤波模块400，用于将各个固有模态函数的希尔伯特边际谱分别进行滤波，得到语音信号在不同频率分量上的响应幅值；

变换模块500，用于根据所述对响应幅值获取对数能量谱，将得到的对数能量谱进行离散余弦变换变换，得到梅尔倒谱系数。

进一步地，所述基于希尔伯特黄变换的语音特征系数提取装置还包括：

预处理模块100：用于对输入的初始音频信号进行预处理，使语音信号更纯净、更突出、更易提取特征。

进一步地，所述预处理模块100还用于对输入的初始音频信号进行预加重处理，得到语音信号，其中预加重公式为：

y(n)＝x(n)-μx(n-1)

其中，μ为预加重系数，y(n)是预加重处理以后的语音信号，x(n)及x(n-1)均为初始音频信号。

进一步地，所述分析模块300还用于获取初始音频信号的所有的局部极大值和所有的局部极小值；对所有的局部极大值和所有的局部极小值分别进行预设次数的样条插值，以生成若干个固有模态函数。

进一步地，所述分析模块300还用于根据所有的局部极大值生成上包络线，根据所有的局部极小值生成下包络线；计算所述上包络线与所述下包络线的平均值；基于所述平均值及预设规则生成若干个固有模态函数。

进一步地，所述分析模块300还用于基于所述平均值及第一预设公式计算第一模态函数分量；判断所述第一模态函数分量是否满足预设分量条件；在第一模态函数分量满足预设分量条件时，将所述第一模态函数分量作为固有模态函数；在第一模态函数分量不满足预设分量条件时，返回至所述根据所有的局部极大值生成上包络线，根据所有的局部极小值生成下包络线的步骤。

进一步地，所述变换模块500还用于对所述响应幅值进行希尔伯特边际谱离散后，取平方得到能量谱；对所述能量谱通过mel滤波器组进行滤波，得到在不同频率分量上的对数能量谱；对数能量谱进行离散余弦变换变换，去除参数间的相关性，得到梅尔倒谱系数。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词解释为名称。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。