HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种混合语音信号的处理方法及装置与流程

2021-01-28 14:01:53|319|起点商标网
一种混合语音信号的处理方法及装置与流程

本申请属于人工智能中的语音处理的技术领域,尤其涉及一种混合语音信号的处理方法及装置。



背景技术:

人的听觉系统能够在噪声环境中跟踪自己感兴趣的语音信号,即使多种声音同时存在,也能听取所需要的内容。听觉场景分析正是在这一听觉生理现象上提出的理论。听觉场景分析技术利用计算机技术通过对人类心理过程及听觉生理机能的模拟,最终使计算机具备像人耳一样处理声音的能力。听觉场景分析技术具体通过听觉外围分析、语音分离特征提取、听觉分段、语音重组以及语音合成,实现混合语音分离的功能。

但是,在传统的听觉场景分析技术中,针对多人混合语音分离的效果往往较差。其原因在于:在语音重组时,多个听觉片段(听觉片段是指由多个时频单元组成的片段)仅仅依据能量特性进行组合,以分离出多个听觉流(听觉流是指由多个听觉片段组成而成的声音信息)。由于语音信号中,不仅包括目标用户发出的语音信息,也包括其他用户发出的语音信息或环境噪音。若仅仅通过能量特征将多个听觉片段进行组合,容易导致目标听觉流中包含非目标用户对应的听觉片段。因此传统的听觉场景分析技术,匹配目标听觉片段的精准度较低。



技术实现要素:

有鉴于此,本申请实施例提供了一种混合语音信号的处理方法及装置,可以解决由于语音信号中,不仅包括目标用户发出的语音信息,也包括其他用户发出的语音信息或环境噪音。若仅仅通过能量特征将多个听觉片段进行组合。容易导致目标听觉流中包含非目标用户对应的听觉片段。因此传统的听觉场景分析技术,匹配目标听觉片段的精准度较低的技术问题。

本申请实施例的第一方面提供了一种混合语音信号的处理方法,所述处理方法包括:

获取混合语音信号对应的多个第一听觉片段,其中,所述第一听觉片段是指由多个时频单元组成的片段;

在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段;

根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段,所述片段参数包括音色和梅尔频率倒谱系数。

本申请实施例的第二方面提供了一种混合语音信号的处理装置,所述处理装置包括:

获取单元,用于获取混合语音信号对应的多个第一听觉片段,其中,所述第一听觉片段是指由多个时频单元组成的片段;

判断单元,用于在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段;

匹配单元,用于根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段,所述片段参数包括音色和梅尔频率倒谱系数。

本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是:在本申请中,通过获取混合语音信号对应的多个第一听觉片段。在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段。根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段。通过上述方式实现,在混合语音信号中,分别根据目标声源的基音周期以及片段参数,匹配目标声源的目标听觉片段。提高了匹配目标听觉片段的精准度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1示出了本申请提供的一种混合语音信号的处理方法的示意性流程图;

图2示出了本申请提供的一种混合语音信号的处理方法中步骤101的具体示意性流程图;

图3示出了本申请提供的一种混合语音信号的处理方法中步骤103的具体示意性流程图;

图4示出了本申请提供的一种混合语音信号的处理方法中步骤1034的具体示意性流程图;

图5示出了本申请提供的另一种混合语音信号的处理方法的具体示意性流程图;

图6示出了本申请提供的另一种混合语音信号的处理方法的具体示意性流程图;

图7示出了本申请提供的一种混合语音信号的处理装置的示意图;

图8示出了本申请一实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

在多数智能家居等应用场景中,语音唤醒技术是重要的组成部分。用户可通过语音唤醒技术控制家用电器或操控音箱等。语音唤醒技术支持特定语音指令唤醒,唤醒的同时执行指令的操作,支持设置多个唤醒词,打破传统的人机交互方式。而语音唤醒技术往往依附于听觉场景分析,实现在混合语音中,识别用户的声源信息。

在传统的听觉场景分析技术中,针对多人混合语音分离的效果往往较差。其原因在于:在语音重组时,多个听觉片段(听觉片段是指由多个时频单元组成的片段)仅仅依据能量特性进行组合,以分离出多个听觉流(听觉流是指由多个听觉片段组成而成的声音信息)。由于语音信号中,不仅包括目标用户发出的语音信息,也包括其他用户发出的语音信息或环境噪音。若仅仅通过能量特征将多个听觉片段进行组合,容易导致目标听觉流中包含非目标用户对应的听觉片段。因此传统的听觉场景分析技术,匹配目标听觉片段的精准度较低。

有鉴于此,本申请实施例提供了一种混合语音信号的处理方法及装置,可以解决由于语音信号中,不仅包括目标用户发出的语音信息,也包括其他用户发出的语音信息或环境噪音。若仅仅通过能量特征将多个听觉片段进行组合。容易导致目标听觉流中包含非目标用户对应的听觉片段。因此传统的听觉场景分析技术,匹配目标听觉片段的精准度较低的技术问题。

请参见图1,图1示出了本申请提供的一种混合语音信号的处理方法的示意性流程图。

所述方法的执行主体为中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

如图1所示,该方法可以包括如下步骤:

步骤101,获取混合语音信号对应的多个第一听觉片段,其中,所述第一听觉片段是指由多个时频单元组成的片段。

人的听觉系统是十分复杂而又有效的,人们提出了许多理论来解释人类在复杂背景下的听觉感知过程。而这种听觉感知过程,在语音处理领域被称为“听觉场景分析(casa)”。casa根据人类感知并分离语音信号的过程,利用计算机对这一过程进行建模,以期望计算机也能获得人耳一样从复杂环境中分辦提取某一特定声音的能力。

casa技术的具体步骤包括听觉外围分析、语音分离特征提取、听觉分段、语音重组以及语音合成。其中,听觉外围分析是一种语音分解的过程。语音分解是利用计算机模仿人类听觉系统的外围部分声音会在内耳耳蜗中按照不同的频率进行分解。而听觉外围分析通过多种类似的滤波器组,从而实现对混合语音信号不同频率分量的分离。进一步对滤波器输出进行分帧处理,以将混合语音分解为一个个时频单元,对应于听觉中的各个感知单元。当分解后的单元足够小时,可以认为每一个单独的单元,只会被一个音源所主导,这是在后续的处理中能有效分辦目标声源的基础。

将上述时频单元进行特征提取,获得代表不同语音特征的声音线索。依据这些线索,按照casa中同时组合与序列组合两种原则将相似的时频单元组合到一起,形成听觉片段。听觉片段比单独的时频单元大了不少,其特征不易受到噪音的干扰,鲁棒性大大提高,组合形成的每一个听觉片段都认为只来自特定的一个声源。故,本实施例在匹配听觉片段的逻辑上做出改进,以最大程度上保证每一个听觉片段都来自目标声源。

具体地,所述获取混合语音信号对应的多个第一听觉片段,包括以下步骤,请参见图2,图2示出了本申请提供的一种混合语音信号的处理方法中步骤101的具体示意性流程图。

步骤1011,将所述混合语音信号进行滤波处理,得到多个时频单元。

同人耳感知过程一样,接收到的混合语音信号需要通过听觉外围分析,将语音信号从一维的时域信息转化为二维的频域信息。在人类的听觉系统中,这部分功能是在内耳中的基底膜上完成的。而在casa系统中,这部分功能通常是通过使用听觉滤波器组来实现的。其中,所述听觉滤波器组包括但不限于共振滤波器组、roex函数滤波器组以及gammatone滤波器组等中的一种或多种的结合。

通过听觉外围分析,混合语音信号被分解为频域上80赫兹(hz)至5000赫兹(hz)范围内,时间帧长为20ms的一系列二维时频单元,称为t-f单元。

步骤1012,提取多个所述时频单元的听觉特征,所述听觉特征包括短时连续性特征、通道互相关性特征以及能量特征。

在casa系统中,混合语音信号经过听觉外围分析后,形成一个个时频单元。接下来就需要分析每个时频单元的各种听觉特征。根据听觉特征将时频单元组合为听觉片段。所述听觉特征包括但不限于短时连续性特征、通道互相关性特征以及能量特征等中的一种或多种的结合。

步骤1013,根据所述短时连续性特征、所述通道互相关性特征以及所述能量特征,将所述时频单元组成多个第一听觉片段。

将属于同一声源的相邻时频单元聚类到一起,形成第一听觉片段。听觉片段是时频单元和听觉流之间的表达形式。相比于单个的时频单元,听觉片段是由同一声源的时频单元组成,包含更多的声源全局信息,例如短时包络,从听觉片段中提取听觉参数要比单个的时频单元表达听觉参数更具有可靠性。这些信息可以区分来自与不同声源的声音信号。若直接对单个的时频单元进行聚类,则混合语音信号的分离效果较差,不具有鲁棒性。故本实例通过,在时频单元合成听觉片段后,再根据听觉片段的听觉参数,聚合目标声源的听觉片段,进而形成目标声源的听觉流。

由于来自目标声源声音信号的时频单元,其相邻的时频单元也可能来自于目标声源。相邻通道的听觉滤波器带宽相互重叠,一个诸波可能同时作用于多个相邻的滤波器,这些滤波器响应具有很大的相关性。可基于所述听觉特征,将时频单元聚类成第一听觉片段。具体的组合方式如下:

根据每个时频信息的能量特征,计算高频段和低频段的能量值,对于低频段,根据相邻信道互相关图谱和时间连续性,合成第一听觉片段;对于高频段,根据信号高频段能力比值,筛选出符合条件的时频单元,再采用响应包络互相关图谱和时间连续性,合成第一听觉片段。

步骤102,在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段。

由于在多个所述第一听觉片段中包括目标声源的听觉片段以及非目标声源的听觉片段。故需要选择一个符合预设条件的所述第一听觉片段,作为核心片段,以进行后续的听觉片段匹配流程。

所述预设条件包括但不限于预存的目标声源的基音周期等一切可区分目标声源的条件。

优选地,本实施例采用预存的目标声源的基音周期作为预设条件。其中,基音周期是指发浊音时声带振动的周期,基音频率是指声带振动频率,两者呈倒数关系。基音周期是语音信号最重要的特征参数之一,描述了语音激励源的重要特征,在浊音的分离中意义重大。现有的基音检测算法包括自相关函数法、峰值提取算法、平均幅度差法、倒谱法、sift、普图法以及小波分析法等,多数算法采用了滤波处理和峰值提取方法来检测基音周期。

本实施例通过计算多个所述第一听觉片段的基音周期,选择与预存的目标声源的基音周期最相似的第一听觉片段,作为核心片段。也可以根据目标声源的其他特征,选取目标声源的核心片段。

步骤103,根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段,所述片段参数包括音色和梅尔频率倒谱系数。

语音信号是由声源发出的一系列频率、振幅各不相同的振动复合而成的。而由频率最低的振动发出的音就是基音。同一声源的基音基本相同,故本实施例根据所述基音周期匹配目标的听觉片段,进而分离出目标声源的目标听觉片段。

由于声道的易变性及声道特征因人而异,而基音周期的范围又较宽。即使是同一个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音色的影响。且不同用户之间的基音也可能相近。导致基音周期无法准确得区分目标声源和非目标声源的听觉片段。故本实施结合所述核心片段的基音周期和每个所述第一听觉片段的片段参数,匹配目标声源的目标听觉片段。以提高匹配目标听觉片段的精准度。

具体地,所述根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段,包括以下步骤,请参见图3,图3示出了本申请提供的一种混合语音信号的处理方法中步骤103的具体示意性流程图。

步骤1031,获取所述核心片段的基音周期。

现有的基音检测算法包括自相关函数法、峰值提取算法、平均幅度差法、倒谱法、sift、普图法以及小波分析法等,多数算法采用了滤波处理和峰值提取方法来检测基音周期。例如:自相关函数法基于语音信号有着较为明显的周期性。若找到一个与之联系的自相关函数,函数值在每个周期中有一个峰值,根据峰值之间的距离,即可计算出基音周期。

步骤1032,根据所述基音周期,将所述核心片段与所述剩余第一听觉片段匹配,得到所述核心片段对应的一个或多个第二听觉片段,其中,所述第二听觉片段是指由多个时频单元组成的片段。

计算核心片段的基音周期与除去所述核心片段的剩余第一听觉片段的基音周期之间的相似度。当所述相似度满足阈值,则将对应的第一听觉片段作为第二听觉片段。其中,所述阈值可根据人体在不同状态下,基音周期的波动范围而定。

步骤1033,获取所述核心片段和所述第二听觉片段的片段参数。

人的语音可以看作是种特殊的声音,同一声源具有相似的参数,即所述片段参数。所述片段参数包括但不限于音色、梅尔频率倒谱系数以及频谱的连续性参数等语音参数中的一种或多种结合。其中,梅尔频率倒谱系数(mel-scalefrequencycepstralcoefficients,mfcc)是在mel标度频率域提取出来的倒谱参数,所述mel标度描述了人耳频率的非线性特性。

所述片段参数是指片段参数本身的数值或片段参数满足不同条件下对应的数值,例如:频谱的连续性没有对应的数值,可将所述核心片段的频谱的连续性赋值为1。并将核心片段的频谱的连续性与所述第一听觉片段的频谱的连续性进行比较,若两者一致则将所述第一听觉片段的频谱的连续性参数赋值为1;若两者不一致则将所述第一听觉片段的声源方位参数赋值为0。

步骤1034,根据所述片段参数,将所述核心片段与所述第二听觉片段匹配,得到所述目标声源的目标听觉片段。

具体地,所述根据所述片段参数,将所述核心片段与所述第二听觉片段匹配,得到所述目标声源的目标听觉片段,包括以下步骤,请参见图4,图4示出了本申请提供的一种混合语音信号的处理方法中步骤1034的具体示意性流程图。

步骤1034a,获取所述核心片段对应的第一片段参数以及所述第一片段参数对应的第一预设权重。

获取每个第一片段参数对应第一预设权重,所述第一预设权重为预存的权重。可根据第一片段参数与第一预设权重之间的映射关系,获取对应第一预设权重。所述第一预设权重可根据不同参数的特性,预先设定不同的权重。

步骤1034b,获取每个所述第二听觉片段对应的第二片段参数以及所述第二片段参数对应的第二预设权重。

获取每个第二片段参数对应第二预设权重,所述第二预设权重为预存的权重。可根据第二片段参数与第一预设权重之间的映射关系,获取对应第二预设权重。所述第二预设权重可根据不同参数的特性,预先设定不同的权重。所述第二预设权重可根据不同参数的特性,设定不同的权重。

其中,所述第一片段参数可以是单个或多个,所述第二片段参数可以是的单个或多个。优选的,在本实施例中,所述第一片段参数为多个,所述第二片段参数为多个。可以理解的是,由于不同声源的参数在不同时刻的数值可能存在变化。故本实施为了减少单一参数的局限性。采用多个第一片段参数和多个第二片段参数,判断当前第二听觉片段是否为目标声源的听觉片段。以提高匹配目标听觉片段的精准度。

步骤1034c,计算每个所述第一片段参数与每个所述第一片段参数对应的第一预设权重的第一乘积;计算所获得的多个所述第一乘积之间的和,得到第一数值。

步骤1034d,计算每个所述第二片段参数与每个所述第二片段参数对应的第二预设权重的第二乘积;计算所获得的多个所述第二乘积之间的和,得到第二数值。

步骤1034e,计算所述第一数值和所述第二数值之间的差值。

由于同一声源的参数基本相同。故同一声源的第一数值和第二数值之间的差值较小。可根据同一声源的第一数值和第二数值之间的差值,判断当前第二听觉片段是否为目标声源的听觉片段。

步骤1034f,将差值小于第一阈值的所述第二听觉片段,作为所述目标听觉片段。

需要说明的是,传统的casa系统通过二值模,区分目标听觉片段和非目标听觉片段。即通过自相关运算,标记目标听觉片段和非目标听觉片段,进而将目标声源与非目标声源分离。而本申请实施例,是通过选取目标声源的核心片段。根据核心片段的基音周期,在多个第一听觉片段中进行第一次筛选,得到多个第二听觉片段。再根据核心片段和第二听觉片段的片段参数,在多个第二听觉片段中进行第二次筛选,得到目标听觉片段。

在本实施例中,通过获取混合语音信号对应的多个第一听觉片段。在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段。根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段。通过上述方式实现,在混合语音信号中,分别根据目标声源的基音周期以及片段参数,匹配目标声源的目标听觉片段。提高了匹配目标听觉片段的精准度。

可选地,在上述图2所示实施例的基础上,在所述根据所述短时连续性特征、所述通道互相关性特征以及所述能量特征,将所述时频单元组成多个所述第一听觉片段之后,还包括如下步骤,请参见图5,图5示出了本申请提供的另一种混合语音信号的处理方法的具体示意性流程图。其中,本实施例中步骤501至步骤503,与图2所示实施例中步骤201至步骤203相同,具体请参阅图2所示实施例中步骤201至步骤203的相关描述,此处不赘述。本实施例中步骤506至步骤507,与图1所示实施例中步骤102至步骤103相同,具体请参阅图1所示实施例中步骤102至步骤103的相关描述,此处不赘述。

步骤501,将所述混合语音信号进行滤波处理,得到多个时频单元。

步骤502,提取多个所述时频单元的听觉特征,所述听觉特征包括短时连续性特征、通道互相关性特征以及能量特征。

步骤503,根据所述短时连续性特征、所述通道互相关性特征以及所述能量特征,将所述时频单元组成多个所述听觉片段。

步骤504,获取多个所述第一听觉片段的基频。

基音是每个乐音中频率最低的纯音,其强度最大,基音的频率即为基频。基频决定整个声音信号的音高。

步骤505,剔除多个所述听觉片段中,基频超过第二阈值的所述第一听觉片段。

用户语音信号的基频由于生理的局限性,其基频处于一定范围内。故超出人体基频或低于人体基频的第一听觉片段,则认为是非目标听觉片段。可剔除多个所述听觉片段中,基频超过第二阈值的所述第一听觉片段,以减小后续匹配目标听觉片段的计算量。

步骤506,在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段。

步骤507,根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段,所述片段参数包括音色和梅尔频率倒谱系数。

在本实施例中,通过获取多个所述第一听觉片段的基频。剔除多个所述听觉片段中,基频超过第二阈值的所述第一听觉片段。通过上述方式,剔除所述第一听觉片段中,非目标听觉片段,以减小后续匹配目标听觉片段的计算量。

可选地,在上述图1所示实施例的基础上,在所述根据所述实时面部特征,识别所述用户的身体状态之后,还包括如下步骤,请参见图6,图6示出了本申请提供的另一种混合语音信号的处理方法的具体示意性流程图。其中,本实施例中步骤601至步骤603,与图1所示实施例中步骤101和步骤103相同,具体请参阅图1所示实施例中步骤101和步骤103的相关描述,此处不赘述。

步骤601,获取混合语音信号对应的多个第一听觉片段,其中,所述第一听觉片段是指由多个时频单元组成的片段。

步骤602,在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段。

步骤603,根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段,所述片段参数包括音色和梅尔频率倒谱系数。

步骤604,将目标声源的所述目标听觉片段合成,得到目标声源的听觉流。

根据目标听觉片段的时序关系,将目标听觉片段合成,得到目标声源的听觉流。

步骤605,将所述听觉流进行时域转换,得到目标声源的语音信号。

由于混合语音经过gammatone滤波器组滤波处理时,各个滤波器之间存在相位差。所以在合成语音信号波形时,需要消除gammatone滤波器组之间的相位差。首先,将初始gammatone滤波器组输出的语音信号进行一次翻转(时间倒置)。然后,经过gammatone滤波器组进行二次滤波,输出的语音信号再一次进行翻转,回复原来的时间顺序。接下来进行分帧处理,对于各个滤波器中每帧输出的语音信号,用升余玄函数进行加窗。最后,在频率通道上,将目标听觉片段的滤波响应加和,得到目标声源的语音信号。再根据目标声源的语音信号,实现语音唤醒。

在本实施例中,通过将目标声源的所述目标听觉片段合成,得到目标声源的听觉流。将所述听觉流进行时域转换,得到目标声源的语音信号。通过上述方式实现,在混合语音信号中,分别根据目标声源的基音周期以及片段参数,匹配目标声源的目标听觉片段。提高了匹配目标听觉片段的精准度。

如图7本申请提供了一种混合语音信号的处理装置7,请参见图7,图7示出了本申请提供的一种混合语音信号的处理装置的示意图,如图7所示一种混合语音信号的处理装置包括:

获取单元71,用于获取混合语音信号对应的多个第一听觉片段,其中,所述第一听觉片段是指由多个时频单元组成的片段;

判断单元72,用于在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段;

匹配单元73,用于根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段,所述片段参数包括音色和梅尔频率倒谱系数。

本申请提供的一种混合语音信号的处理装置,通过获取混合语音信号对应的多个第一听觉片段。在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段。根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段。通过上述方式实现,在混合语音信号中,分别根据目标声源的基音周期以及片段参数,匹配目标声源的目标听觉片段。提高了匹配目标听觉片段的精准度。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

图8示出了本申请一实施例提供的一种终端设备的示意图。如图8所示,该实施例的一种终端设备8包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82,例如一种混合语音信号的处理程序。所述处理器80执行所述计算机程序82时实现上述各个一种混合语音信号的处理方法实施例中的步骤,例如图1所示的步骤101至步骤103。或者,所述处理器80执行所述计算机程序82时实现上述各装置实施例中各单元的功能,例如图7所示单元71至73。

示例性的,所述计算机程序82可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器81中,并由所述处理器80执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序82在所述一种终端设备8中的执行过程。例如,所述计算机程序82可以被分割单元的具体功能如下:

获取单元,用于获取混合语音信号对应的多个第一听觉片段,其中,所述第一听觉片段是指由多个时频单元组成的片段;

判断单元,用于在多个所述第一听觉片段中,选择一个符合预设条件的所述第一听觉片段,作为核心片段;

匹配单元,用于根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数,将核心片段与除去所述核心片段的剩余第一听觉片段匹配,得到目标声源的目标听觉片段,所述片段参数包括音色和梅尔频率倒谱系数。

所述一种终端设备8可以是掌上电脑等计算设备。所述一种终端设备可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是一种终端设备8的示例,并不构成对一种终端设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述一种终端设备8的内部存储单元,例如一种终端设备8的硬盘或内存。所述存储器81也可以是所述一种终端设备8的外部存储设备,例如所述一种终端设备8上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器81还可以既包括所述一种终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述一种终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的识别终端设备和方法,可以通过其它的方式实现。例如,以上所描述的识别终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之间。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签: 听力信号频率
tips