HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

检测耳机佩戴者的语音的方法、装置及存储介质与流程

2021-01-28 15:01:31|294|起点商标网
检测耳机佩戴者的语音的方法、装置及存储介质与流程

本公开涉及语音检测技术领域,更具体地,涉及一种检测耳机佩戴者的语音的方法、装置及存储介质。



背景技术:

随着耳机性能的提升,越来越多的耳机芯片开始搭载关键词识别模型,作为智能语音系统的触发器。然而,由于环境中可能存在非耳机佩戴者所发出的关键词,导致智能语音系统经常被其他音源所触发,而非佩戴者本人触发,从而影响了耳机佩戴者在使用智能语音时的体验。



技术实现要素:

提供了本公开以解决背景技术中存在的上述缺陷。需要一种检测耳机佩戴者的语音的方法、装置及存储介质,其利用软件算法对耳机佩戴者的语音进行检测,功耗低,且不需要额外增加传感器等硬件设计,简化了耳机结构的同时,也提高了用户体验。

本公开的第一方面提供了一种检测耳机佩戴者的语音的方法,该耳机包括耳内麦克风、耳外麦克风和智能语音系统,所述方法包括:分别由所述耳内麦克风和所述耳外麦克风采集耳内音频信号和耳外音频信号;基于所述耳内音频信号和所述耳外音频信号,计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数;基于内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,利用基于多棵决策树的判别模型,来确定所述耳机佩戴者是否发出语音,以使得所述智能语音系统在确定所述耳机佩戴者发出语音的情况下才开启。

本公开的第二方面提供了一种检测耳机佩戴者的语音的装置,该耳机包括耳内麦克风、耳外麦克风和智能语音系统,所述装置包括:接口,其配置为获取经由所述耳内麦克风和所述耳外麦克风采集的耳内音频信号和耳外音频信号的数据;处理器,其被配置为:基于所述耳内音频信号和所述耳外音频信号的数据,计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数;基于内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,利用基于多棵决策树的判别模型,来确定所述耳机佩戴者是否发出语音,以使得所述智能语音系统在确定所述耳机佩戴者发出语音的情况下才开启。

本公开的第三方面提供了一种检测耳机佩戴者的语音的装置,该耳机包括耳内麦克风、耳外麦克风和智能语音系统,所述装置包括:获取模块,其配置为:获取经由所述耳内麦克风和所述耳外麦克风采集的耳内音频信号和耳外音频信号的数据;参数计算模块,其配置为:基于所述耳内音频信号和所述耳外音频信号的数据,计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数;语音判定模块,其配置为:基于内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,利用基于多棵决策树的判别模型,来确定所述耳机佩戴者是否发出语音,以使得所述智能语音系统在确定所述耳机佩戴者发出语音的情况下才开启。

本公开的第四方面提供了一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行如上任一所述的方法。

本公开实施例提供的方法由耳内麦克风和耳外麦克风分别采集耳内音频信号和耳外音频信号,基于采集的耳内音频信号和耳外音频信号计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,再根据内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,利用基于多棵决策树的判别模型,来确定耳机佩戴者是否发出语音,从而实现了对耳机佩戴者的语音的实时检测。该检测结果可作为智能语音系统的辅助,使得智能语音系统在确定耳机佩戴者发出语音的情况下才开启;可替代地,智能语音系统还可综合语音识别模型(例如,通过关键词识别语音的关键词识别模型)的识别结果和该检测结果而选择是否开启,这样,可以只有在语音识别模型识别出语音的同时,检测出耳机佩戴者发出了语音的情况下,才确定该语音是由耳机佩戴者所发出的,继而触发智能语音系统开启,从而避免了智能语音系统只依靠语音识别模型的识别所引起的容易被非佩戴者本人触发的问题,减少了误触发发生的概率,有效提高了耳机佩戴者在使用智能语音时的体验。此外,本公开实施例利用软件算法对耳机佩戴者的语音进行检测,功耗低,且不需要额外增加传感器等额外的硬件设计,从而不受电路设计上的约束,实现方式灵活且成本低,简化了耳机结构的同时,也符合耳机芯片的低功耗需求。另外,该检测方法选用了运算量小,鲁棒性高且泛化能力强的判别模型,并且综合多棵决策树的结果作为耳机佩戴者是否发出了语音的判断结果,大幅提升了检测的准确率。

附图说明

在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。

图1所示为根据本公开实施例的检测耳机佩戴者的语音的方法的流程图。

图2所示为根据本公开一实施例的方法中步骤120的流程图。

图3所示为根据本公开另一实施例的方法中步骤120的流程图。

图4所示为本公开一示例性实施例提供的一种lightgbm判别模型的示意图。

图5示为根据本公开实施例的检测耳机佩戴者的语音的装置的结构示意图。

具体实施方式

为使本领域技术人员更好的理解本公开的技术方案,下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述,但不作为对本公开的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

图1所示为根据本公开实施例的检测耳机佩戴者的语音的方法的流程图。该耳机包括耳内麦克风、耳外麦克风和智能语音系统,如图1所示,该方法包括如下步骤:

步骤110:分别由耳内麦克风和耳外麦克风采集耳内音频信号和耳外音频信号。

其中,采集耳内音频信号和耳外音频信号的频率可以根据具体需要而作不同设定,如每5ms、10ms或20ms等采集一次信号,本公开对此不作具体限定。

步骤120:基于耳内音频信号和耳外音频信号,计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数。

该相位差异相关参数和能量差异相关参数可以表示由于声音在耳内和耳外传输过程中传输通路的传输差异所引起的耳内音频信号和耳外音频信号的差异的相关特征参数,例如耳外音频信号相对于耳内音频信号的相移、能量差以及相关性等等,但是并不限于此。不同的音源会导致耳内音频信号和耳外音频信号的不同差异,进而由上述相位差异相关参数和能量差异相关参数来体现。

步骤130:基于内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,利用基于多棵决策树的判别模型,来确定耳机佩戴者是否发出语音,以使得智能语音系统在确定耳机佩戴者发出语音的情况下才开启。

决策树是一种树形结构,例如二叉树或非二叉树,其包括一个根节点、若干内部节点和若干叶节点。决策树的根节点和每个内部节点代表一个属性上的判断,每个分支代表一个判断结果的输出,最后的每个叶节点代表一种分类结果,决策树的本质是一棵由多个判断节点组成的树。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶节点,将叶节点存放的类别作为决策结果。此类判别模型运算量小,模型的鲁棒性高,且泛化能力强。

本公开实施例采用多棵决策树作为判别模型,该多棵决策树可以相同也可不同。将内外耳频谱向量之间的相位差异相关参数和能量差异相关参数分别输入多棵决策树中的每棵树并运行,会得到多个不同的决策结果,综合所有树的输出,便会得到最后的判断值以确定耳机佩戴者是否发出语音。这样综合多棵决策树的结果作为最后的判断结果,会避免采用单棵树而引起准确率低的问题,使得准确率大幅提升。

本公开实施例提供的方法由耳内麦克风和耳外麦克风分别采集耳内音频信号和耳外音频信号,基于采集的耳内音频信号和耳外音频信号计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,再根据内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,利用基于多棵决策树的判别模型,来确定耳机佩戴者是否发出语音,从而实现了对耳机佩戴者的语音的实时检测。该检测结果可作为智能语音系统的辅助,使得智能语音系统在确定耳机佩戴者发出语音的情况下才开启;可替代地,智能语音系统还可综合语音识别模型(例如,通过关键词识别语音的关键词识别模型)的识别结果和该检测结果而选择是否开启,这样,可以只有在语音识别模型识别出语音的同时,检测出耳机佩戴者发出了语音的情况下,才确定该语音是由耳机佩戴者所发出的,继而触发智能语音系统开启,从而避免了智能语音系统只依靠语音识别模型的识别所引起的容易被非佩戴者本人触发的问题,减少了误触发发生的概率,有效提高了耳机佩戴者在使用智能语音时的体验。此外,本公开实施例利用软件算法对耳机佩戴者的语音进行检测,功耗低,且不需要额外增加传感器等额外的硬件设计,从而不受电路设计上的约束,实现方式灵活且成本低,简化了耳机结构的同时,也符合耳机芯片的低功耗需求。另外,该检测方法选用了运算量小,鲁棒性高且泛化能力强的判别模型,并且综合多棵决策树的结果作为耳机佩戴者是否发出了语音的判断结果,大幅提升了检测的准确率。

在一些实施例中,内外耳频谱向量之间的相位差异相关参数和能量差异相关参数采用如下的至少一种:多个预设时间段的每个预设时间段内针对预设频段的内外耳频谱向量之间的相位差异相关参数和能量差异相关参数;至少一个预设时间段内针对整个频段中各个频段的内外耳频谱向量之间的相位差异相关参数和能量差异相关参数。

在采用多个预设时间段的每个预设时间段内针对预设频段的相位差异相关参数和能量差异相关参数的情况下,如图2所示,步骤120可包括如下步骤:

1201:对采集的耳内音频信号和耳外音频信号分别进行滤波采样处理,以滤除掉除预设频段以外的其他频段的信号。

对于预设频段,可根据具体需要而作不同设定,如100hz-400hz、100hz-500hz、200hz-500hz、200hz-600hz等频段。优选地,可将200hz-500hz频段的信号作为预设频段的信号进行检测,因为经过发明人的多次实验测量发现此频段的语音信号存在比较明显的相位差异,这样,利用200hz-500hz这一频段上的相位差异相关参数结合相应的能量差异相关参数,能够获得准确的检测结果。

以200hz-500hz频段的信号为例,可采用带通滤波器对耳内音频信号和耳外音频信号进行滤波采样处理,以滤除掉除200hz-500hz频段以外的其他频段的信号。

1203:针对预设频段,利用预设时间段内对耳内音频信号和耳外音频信号分别进行采样的采样点的幅值计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,以获得对应多个预设时间段的多个相位差异相关参数和能量差异相关参数。

对于预设时间段,如可采用一帧的时间作为预设时间段,以一帧的时间为10ms,采样率为16khz(即1s内包括16k个采样点)为例,则一帧包括160个采样点。这样,针对预设频段,可利用一帧时间内对耳内音频信号和耳外音频信号进行采样所得的160个采样点的幅值计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,即可获得该帧数据对应的相位差异相关参数和能量差异相关参数。针对多个预设时间段,即利用多帧时间内对耳内音频信号和耳外音频信号分别进行采样所得的160个采样点的幅值计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,即可获得对应该多帧数据的多个相位差异相关参数和能量差异相关参数。由于语音的连续性,采用多帧的数据可以获得更为准确的检测结果。

在一些具体的实施例中,内外耳频谱向量之间的相位差异相关参数和能量差异相关参数可以分别为预设频段内的耳内音频信号与耳外音频信号之间的相关性和能量比。该相关性correlation和能量比ratio可分别通过如下公式(1)-公式(2)计算得到,i是1到m之间的任何整数,m为预设时间段内的采样点的个数:

其中,inneri为对耳内音频信号进行采样的各个采样点i的幅值,outeri为对耳外音频信号进行采样的各个采样点i的幅值。

仍以一帧的时间作为预设时间段,以一帧的时间为10ms,采样率为16khz为例,则此时m为160,相关性correlation代表一帧内(160个采样点)的耳内音频信号与耳外音频信号之间的相关性,能量比ratio代表一帧内(160个采样点)的耳内音频信号与耳外音频信号之间的能量比。

可以理解,采样率等参数只是以上述数据作为示例进行说明,并不用于限定本公开,本领域的技术人员可以根据具体情况和需求而作不同设定。

由于本实施例只采用了整个频段中的一个频段作为检测信号进行处理,所需的计算量较小,功耗较低,节省了资源的消耗。

在采用至少一个预设时间段内针对整个频段中各个频段的内外耳频谱向量之间的相位差异相关参数和能量差异相关参数的情况下,如图3所示,步骤120可包括如下步骤:

1202:对采集的耳内音频信号和耳外音频信号分别进行傅里叶变换,以获得耳内音频信号和耳外音频信号的频谱。

1204:针对整个频段中的各个频段,基于频谱分别计算耳内音频信号和耳外音频信号的相位角和能量。

这里,将整个频段分为多个不同的频段,如50或65个频段等,针对每个频段分别计算耳内音频信号和耳外音频信号的相位角和能量。

在一些具体的实施例中,各个频段的耳内音频信号和耳外音频信号的相位角angle和能量energy分别表示为公式(3)和公式(4):

其中,bandreal和bandimage分别表示相应频段的频谱向量的实部和虚部。

1206:基于耳内音频信号和耳外音频信号的相位角和能量计算相应频段的内外耳频谱向量之间的相位差和能量比,作为相位差异相关参数和能量差异相关参数。

即,通过公式(3)和公式(4)计算出耳内音频信号和耳外音频信号的相位角angle和能量energy后,可基于此计算计算相应频段的内外耳频谱向量之间的相位差和能量比,作为相位差异相关参数和能量差异相关参数。具体地,相应频段的内外耳频谱向量之间的相位差angledifference和能量比energyratio分别通过如下公式(5)-公式(6)计算得到:

angledifference=angleinner-angleouter公式(5)

其中,angleinner和angleouter分别为相应频段的耳内音频信号和耳外音频信号的相位角,energyinner和energyouter分别为相应频段的耳内音频信号和耳外音频信号的能量。

本实施例考虑整个频段内的信号,并将所有频段分开计算,可以获得更好的内外耳差异,从而得到更为准确的检测结果。由于本实施例所采用的方法已经较为全面地考虑了整个频段内所有频段的信号,采用一个预设时间段内的数据即可得到较为理想的检测结果,同时也减小了运算量。另外,也可采用多个预设时间段内的数据进行检测,可进一步提高检测的正确率。

在一些实施例中,步骤130可包括如下步骤:将相位差异相关参数和能量差异相关参数作为特征值输入到每棵决策树;对各棵决策树输出的结果进行求和处理,并将该求和的结果归一化,作为耳机佩戴者发出语音的概率值;当该概率值大于或等于预设概率阈值时,判断耳机佩戴者发出了语音,当该概率值小于预设概率阈值时,判断耳机佩戴者没有发出语音。

其中,基于多棵决策树的判别模型中用于判别特征值的阈值门限和预设概率阈值在耳机的设计阶段通过多种使用场景预先测量获得。该使用场景例如由佩戴状况(佩戴耳机的松紧)、用户或人工耳的耳道结构、语音音量的大小以及环境噪音的大小中的任一种或其组合来定义。

在设计阶段,针对特定的耳机,可以在多种使用场景下分别录制佩戴者语音和非佩戴者语音作为采集数据。有些场景(例如佩戴松紧)需要在录制时充分考虑,有些可以使用仿真手段做近似情况的增广,例如音量增广和噪音增广等,设计人员可以根据具体情况做不同的处理。这样,训练所得的模型可在大部分日常场景下正常使用,例如播音乐,噪声环境,不同语音音量等,都可以取得不错的效果。

然后对采集的数据可做如下两种情况的处理:(1)采用多个预设时间段的每个预设时间段内针对预设频段的相位差异相关参数和能量差异相关参数;(2)采用至少一个预设时间段内针对整个频段中各个频段的内外耳频谱向量之间的相位差异相关参数和能量差异相关参数。

如上所述,情况(1)功耗较小,可称为低功耗版本,情况(2)功耗因其相对情况(1)而言所需处理的运算量较大,功耗较大,可称为高功耗版本。对于低功耗版本,可采用步骤1201和1203进行数据的处理以得到多个预设时间段的每个预设时间段内针对预设频段的相位差异相关参数和能量差异相关参数;对于高功耗版本,可采用步骤1202、1204和1206以得到至少一个预设时间段内针对整个频段中各个频段的内外耳频谱向量之间的相位差异相关参数和能量差异相关参数。对于上述两种情况所获得的数据,可分别输入至判别模型中进行两种版本的训练。

对于决策树,例如可选择梯度提升树模型,其具有高的训练效率和准确率,并且对训练硬件的需求低,可以训练大规模数据。对于模型的算法,例如可采用lightgbm算法或xgboost算法等,本公开对此不作具体限定。

下面将以高功耗版本中将一帧内整个频段信号分为65个频段,将内外耳频谱向量之间的相位差和能量比作为相位差异相关参数和能量差异相关参数为例进行说明。由于每个频段对应相位差和能量比两个参数,所以一共有130个参数。再进行模型训练时,可将这130个参数作为特征值(即包括130个特征向量的一组特征向量)输入至每棵决策树中,其中可将第一频段的相位差作为第一属性,将第一频段的能量比作为第二属性,将第二频段的相位差作为第三属性,将第二频段的能量比作为第四属性,……,以此类推。

图4所示为本公开一示例性实施例提供的一种lightgbm判别模型的示意图。将上述特征值输入至lightgbm判别模型后,该模型可从根节点开始,到每层内部节点,分别从特征值中随机抽取一个特征向量进行特征属性的测试,在此过程中,按照对每个节点的判断值选择输出分支,直到到达叶节点,最后将叶节点存放的类别作为决策结果。这里,可将决策结果进行量化,例如针对不同的决策结果可取数值1、0或-1等。如图4所示,在根节点,以第一属性作为特征属性进行测试,当第一属性小于第一阈值时,选择“是”的分支,输出结果“-1”,当第一属性大于第一阈值时,选择“否”的分支,则到达第一内部节点,在该处,以第四属性作为特征属性进行测试,当第四属性小于第四阈值时,选择“是”的分支,输出结果“-1”,当第四属性大于第四阈值时,选择“否”的分支,到达第二内部节点继续进行判断,直至输出最终的决策结果。

可以理解,图4中只是以第一属性、第四属性等具体参数进行示例性说明,在实际训练中,判别模型针对根节点和每个内部节点中对属性的选择是随机的,树的深度(根节点和内部节点总的层数)也可根据具体情况可作不同设定,而用于判别各特征属性的阈值门限是在多种使用场景下通过对模型的训练获得的。

多棵决策树中的其他树的结构和判别原理与图4中的判别模型相类似,但是与图4中的判别模型的层数可以相同,也可以不同,本公开对此不作限定。

得到各棵决策树的输出结果后,可对其进行求和处理,并将该求和的结果归一化,作为耳机佩戴者发出语音的概率值。在一个实施例中,可采用如下公式(7)作为归一化公式求取概率值p,其中,average表示各棵决策树的输出结果的平均值:

p=1/(1+exp(-average))(7)

当概率值p大于或等于预设概率阈值时,判断耳机佩戴者发出了语音,当概率值p小于预设概率阈值时,判断耳机佩戴者没有发出语音,其中,预设概率阈值也是在多种使用场景下通过对判断模型的多次训练得到的。

在对模型训练的过程中,可通过在预设的树深度的情况下调节树的数量,使得达到要求的准确率,以得到调优后的树的数量。因为经过发明人的多次实验发现,树的深度在内存占用上起主导作用,但是在准确度上起次要作用,例如,在增加相同数量和深度的情况,树的数量对准确度的提升更多,而树的深度对内存的占用更多。所以,可以选用较浅深度和较多数量的决策树,具体地,可在预设的树深度(例如5-8层等)的情况下调节树的数量(例如20-30棵树等)来保证准确率的同时减少资源的占用。由于模型最终要部署于耳机芯片上,其对内存占用和运算量都有比较严苛的约束,所以通过上述调优可使耳机芯片在最低限额的资源下获得最好的效果。

可以理解,上述树的深度和数量的具体数量只是用作示例,而不用于限定本公开。

低功耗版本的训练过程与高功耗版本的训练过程相类似,只是用作特征值的参数不同,此处不再赘述。

调优后的模型经固化即可部署于耳机芯片中运行,针对不同的耳机,可以根据不同情况选择低功耗版本或高功耗版本模型。例如,如果耳机芯片的内存相对较大,在设计阶段可选择配置高功耗版本模型,如果耳机芯片的内存相对较小,在设计阶段可选择配置低功耗版本模型。另外,在模型的训练过程中,可采用双精度浮点类型,但是在部署中,双精度浮点的精度和运算对于耳机芯片来说占用的空间较大,本公开实施例将所有浮点数做了更低比特(如8比特)的量化,这样可以大大减小编译后的代码大小,从而减小模型的内存消耗。

在实际应用场景中,如果耳机内配置的模型为高功耗版本模型,可采用上述步骤1202、1204和1206获得相位差异相关参数和能量差异相关参数作为特征值输入模型中进行耳机佩戴者是否发出语音的判断;如果耳机内配置的模型为低功耗版本模型,可采用上述步骤1201和1203获得相位差异相关参数和能量差异相关参数作为特征值输入模型中进行耳机佩戴者是否发出语音的判断。具体模型判断的过程与上述模型训练的过程相类似,为避免累赘,此处不再赘述。

在一些实施例中,该方法还包括:当耳机在播放音乐时,对耳内音频信号进行消回声处理。由于播音乐场景下耳内麦克风会收到一个额外的音乐信号,这样会干扰特征的提取,通过消回声处理可以过滤耳内麦克风收到的音乐回声信号,从而避免对特征提取的干扰。

具体地,在耳机内配置的模型为高功耗版本模型的情况下,可采用较高的采样率进行消回声处理,如8k的采样率,其效果理想。在耳机内配置的模型为低功耗版本模型的情况下,可采用较低的采样率进行消回声处理。由于采样频率高于声音信号最高频率的两倍时,可以将数字信号表示的声音还原成为原本的声音,而低功耗版本对语音信息进行了滤波处理,如只选择了200hz-500hz频段的信号进行了训练,则在实际应用中,可采用1k采样率下的消回声处理。这样在保证运算量小的前提下,能够获得可以接受的消回声效果。

在一些实施例中,基于多棵决策树的判别模型是在非主动降噪的情况下训练的,则该方法还包括:在耳机进行主动降噪的情况下,获取参考信号,计算参考信号在进行主动降噪和非主动降噪的情况下的差异,并根据该差异对耳内音频信号进行补偿,以消除主动降噪对耳内音频信号的影响。相对于单独使用不同的数据集来专门训练主动降噪情况下的模型,这样的方式效率更高,减少了人力和时间的消耗。

在一些实施例中,该方法还包括:同时向耳内音频信号和耳外音频信号添加一定比例的白噪声信号,此白噪声信号可在训练和部署时采用如下公式添加:

signalinner=signalinnerraw+a*whitenoise(8)

signalouter=signalouterraw+b*whitenoise(9)

其中,signalinnerraw和signalouterraw分别为原始的耳内音频信号和耳外音频信号;whitenoise为白噪声信号;signalinner和signalouter分别为添加白噪声之后的耳内音频信号和耳外音频信号;a和b为可调节参数,其可以根据实际情况作不同设定。

通过这样的方式可有效避免由于训练模型的数据和真实数据存在差异而带来的误差问题。其不仅可以做噪声增广,还可以避开安静时和非安静时的差异,统一使用非安静场景作为训练数据。另外,如果在播放音乐的场景下,还可以部分削弱对音乐信号进行消回声处理之后的回声残留,而且可以在部署时通过控制噪音的比例和大小来中和主动降噪的差异。

本公开实施例还提供了一种检测耳机佩戴者的语音的装置。该耳机包括耳内麦克风、耳外麦克风和智能语音系统,如图5所示,该装置500包括处理器510、存储器520和接口530。接口530配置为获取经由耳内麦克风和耳外麦克风采集的耳内音频信号和耳外音频信号的数据,处理器510执行存储在存储器520中的指令时可实现:基于耳内音频信号和耳外音频信号的数据,计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数;基于内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,利用基于多棵决策树的判别模型,来确定耳机佩戴者是否发出语音,以使得所述智能语音系统在确定所述耳机佩戴者发出语音的情况下才开启。

在一些实施例中,内外耳频谱向量之间的相位差异相关参数和能量差异相关参数采用如下的至少一种:多个预设时间段的每个预设时间段内针对预设频段的内外耳频谱向量之间的相位差异相关参数和能量差异相关参数;至少一个预设时间段内针对整个频段中各个频段的内外耳频谱向量之间的相位差异相关参数和能量差异相关参数。

在采用多个预设时间段的每个预设时间段内针对预设频段的相位差异相关参数和能量差异相关参数的情况下,处理器510还被配置为:对采集的所述耳内音频信号和所述耳外音频信号分别进行滤波采样处理,以滤除掉除所述预设频段以外的其他频段的信号;针对所述预设频段,利用所述预设时间段内对所述耳内音频信号和所述耳外音频信号分别进行采样的采样点的幅值计算所述内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,以获得对应多个所述预设时间段的多个相位差异相关参数和能量差异相关参数。

其中,内外耳频谱向量之间的相位差异相关参数和能量差异相关参数分别为预设频段内的耳内音频信号与耳外音频信号之间的相关性和能量比,所述相关性correlation和所述能量比ratio分别通过如下公式(1)-公式(2)计算得到,i是1到m之间的任何整数,m为所述预设时间段内的采样点的个数:

其中,inneri为对所述耳内音频信号进行采样的各个采样点i的幅值,outeri为对所述耳外音频信号进行采样的各个采样点i的幅值。

在采用至少一个预设时间段内针对整个频段中各个频段的相位差异相关参数和能量差异相关参数的情况下,处理器510还被配置为:对采集的所述耳内音频信号和所述耳外音频信号分别进行傅里叶变换,以获得所述耳内音频信号和所述耳外音频信号的频谱;针对整个频段中的各个频段,基于所述频谱分别计算所述耳内音频信号和所述耳外音频信号的相位角和能量;基于所述耳内音频信号和所述耳外音频信号的相位角和能量计算相应频段的内外耳频谱向量之间的相位差和能量比,作为所述相位差异相关参数和所述能量差异相关参数。

具体地,所述各个频段的耳内音频信号和所述耳外音频信号的相位角angle和能量energy分别表示为公式(3)和公式(4):

其中,bandreal和bandimage分别表示相应频段的频谱向量的实部和虚部,所述相应频段的内外耳频谱向量之间的相位差angledifference和能量比energyratio分别通过如下公式(5)-公式(6)计算得到:

angledifference=angleinner-angleouter公式(5)

其中,angleinner和angleouter分别为相应频段的耳内音频信号和耳外音频信号的相位角,energyinner和energyouter分别为相应频段的耳内音频信号和耳外音频信号的能量。

在一些实施例中,处理器510还被配置为:将相位差异相关参数和能量差异相关参数作为特征值输入到每棵决策树;对各棵决策树输出的结果进行求和处理,并将所述求和的结果归一化,作为所述耳机佩戴者发出语音的概率值;当所述概率值大于或等于预设概率阈值时,判断所述耳机佩戴者发出了语音,当所述概率值小于预设概率阈值时,判断所述耳机佩戴者没有发出语音。

在一些实施例中,处理器510还被配置为:当所述耳机在播放音乐时,对所述耳内音频信号进行消回声处理;其中,在采用多个预设时间段的每个预设时间段内针对预设频段的内外耳频谱向量之间的相位差异相关参数和能量差异相关参数进行训练的情况下,采用第一采样率进行消回声处理;在采用至少一个预设时间段内针对整个频段中各个频段的内外耳频谱向量之间的相位差异相关参数和能量差异相关参数进行训练的情况下,采用第二采样率进行消回声处理;所述第二采样率大于所述第一采样率。

在一些实施例中,基于多棵决策树的判别模型是在非主动降噪的情况下训练的,处理器510还被配置为:在所述耳机进行主动降噪的情况下,获取参考信号,计算所述参考信号在进行主动降噪和非主动降噪的情况下的差异,并根据所述差异对所述耳内音频信号进行补偿,以消除主动降噪对所述耳内音频信号的影响。

在一些实施例中,处理器510还被配置为:同时向所述耳内音频信号和所述耳外音频信号添加白噪声信号。

处理器510可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(cpu)、图形处理单元(gpu)等。更具体地,处理器510可以是复杂指令集计算(cisc)微处理器、精简指令集计算(risc)微处理器、超长指令字(vliw)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器510还可以是一个以上专用处理设备,诸如专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)、片上系统(soc)等。处理器510可以通信地耦合到存储器520并且被配置为执行存储在其上的计算机可执行指令,以执行上述实施例的耳机的方法。

存储器520可以是非暂时性计算机可读的介质,诸如只读存储器(rom)、随机存取存储器(ram)、相变随机存取存储器(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、电可擦除可编程只读存储器(eeprom)、其他类型的随机存取存储器(ram)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(cd-rom)、数字通用光盘(dvd)或其他光学存储器、盒式磁带或其他磁存储设备,或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。

本公开实施例还提供了一种检测耳机佩戴者的语音的装置,该耳机包括耳内麦克风、耳外麦克风和智能语音系统,所述装置包括:获取模块,其配置为:获取经由所述耳内麦克风和所述耳外麦克风采集的耳内音频信号和耳外音频信号的数据;参数计算模块,其配置为:基于所述耳内音频信号和所述耳外音频信号的数据,计算内外耳频谱向量之间的相位差异相关参数和能量差异相关参数;语音判定模块,其配置为:基于内外耳频谱向量之间的相位差异相关参数和能量差异相关参数,利用基于多棵决策树的判别模型,来确定所述耳机佩戴者是否发出语音,以使得所述智能语音系统在确定所述耳机佩戴者发出语音的情况下才开启。其中,获取模块可可通过接口等硬件或软件实现,参数计算模块和语音判定模块可通过软件算法实现,其对耳机芯片的功耗需求低,实现方式简单且灵活,成本低。

本公开实施例还提供了一种存储有指令的非暂时性计算机可读介质,当指令由处理器执行时,执行根据如上任一所述的方法。

此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本公开的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips