语音信号筛选方法、装置、音频设备和系统与流程

2021-01-28 15:01:46|

254|

起点商标网

本发明涉及音频数据处理领域，具体涉及一种语音信号筛选方法、装置、音频设备和系统。

背景技术：

随着影音设备、移动通信的流行，人们需要在各种场所进行语音信号采集，例如，接打电话，语音控制等。然而，现实环境中噪声无处不在，比如餐厅噪声、地铁噪声、飞机噪声、风噪、机器噪声等等。在这些环境中接听电话或者采集语音信号，如果噪声大到一定程度，语音信号往往会被淹没在噪声中，为了保证采集的语音尽量清晰就需要降噪，降噪的前提就需要检测语音信号，也就是要筛选出含有语音信号的音频信号帧，从而保证降噪的同时不能损伤语音信号。

传统的方案有：

设置能量阈值，通过计算能量、采用阈值的办法判断是否是语音。对于这种方案，需要根据适用场景不同来设置不同的阈值，定义的标准不同，只适用于噪声比较单一的环境，当环境比较嘈杂的时，整个信号的能量都会持续比较大。此时能量阈值的方法基本失效。

通过神经网络算法区分语音与非语音信号，通过收集语音及不同噪声信号，进行训练得到语音检测神经网络模型，而后，通过将采集的信号输入神经网络计算出是语音信号还是噪声信号。对于这种方式，神经网络运算需要建立大量的运算数据库，及存储资源不利于越来越多的低功耗产品使用；其次要训练一个比较好的语音判别神经网络模型需要大量的语音及不同噪声的语料库进行训练、收集的噪声库需要覆盖所有情况，工作量及成本都是巨大的。

基于对音频信号的特征进行分析，得出了语音信号与环境信号(也就是噪声信号)在时域、频域上的音频特征差别，例如，在时域的信号过零率、短时能量，在频域的谱平度等。基于音频特征的差别来区分语音信号与噪声信号。现有技术中，常用的一种方式是，对多个帧的音频信号在时域或者在频域上统计存在的特征，例如，在频域上统计一段频点信号的谱平度(或者均方误差)，通过谱平度(或者均方误差)来确定信号分布是否平坦，以此来区分语音信号和噪声信号；再如，在连续的时域上分析音频信号的分布特性，以此来区分语音信号和噪声信号。这些都是采用相关性的方式来确定是否存在语音信号。

现有技术的方案中，采用相关性的方式来确定语音，将不同帧的频点信号融合在一起进行分析，然而，环境噪声可能会影响音频的相关性，从而影响识别语音信号的准确性，因此，采用相关性的方式不适用于嘈杂的环境。

因此，如何有效、准确地筛选具有语音信号的音频信号帧，成为亟待解决的技术问题。

此外，在音频信号中筛选出连续的语音信号，排除瞬间语音信号特征的干扰成为亟待解决的第二技术问题。

技术实现要素：

基于上述现状，本发明的主要目的在于提供一种语音信号晒出方法、装置、音频设备和系统，以有效、准确地筛选具有语音信号的音频信号帧。

为实现上述目的，本发明采用的技术方案如下：

根据第一方面，本发明实施例公开了一种语音信号筛选方法，包括：

步骤s101，在时域上获取连续的若干帧原始音频信号，原始音频信号包含噪声信号和语音信号；步骤s103，将若干帧原始音频信号分别变换为频域中的若干帧对数谱信号，若干帧对数谱信号中的各个对数谱信号帧内具有多个频点；步骤s105，确定若干帧对数谱信号中满足峰值条件的频点得到峰值频点；步骤s107，统计每一帧对数谱信号中满足峰值条件的峰值频点的数目；步骤s109，将具有超过预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为语音信号帧，语音信号帧为包含了语音信号的帧。

可选地，步骤s105包括：通过预设长度的第一观察窗在若干帧对数谱信号滑动，在第一观察窗内确定每一帧对数谱信号中的峰值频点。

可选地，步骤s105包括：步骤s1051，在当前对数谱信号帧开始处于第一观察窗内时，确定当前对数谱信号帧中出现峰值的频点；步骤s1052，滑动第一观察窗，并重新确定当前对数谱信号帧中出现峰值的频点；步骤s1053，在当前对数谱信号帧处于第一观察窗之外后，确定当前对数谱信号帧中各个频点出现峰值的频点次数，频点次数为当前对数谱信号帧中的频点在第一观察窗内出现峰值的次数；及步骤s1054，将频点次数超过预设次数的频点确定为当前对数谱信号帧中满足峰值条件的峰值频点。

可选地，在步骤s1052中，采用迭代替换的滑动方式滑动第一观察窗，以使当前对数谱信号帧之后一帧处于第一观察窗内，当前对数谱信号帧之前一帧滑出第一观察窗。

可选地，在步骤s107之后，还包括：步骤s111，将未具有预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为非语音信号帧，非语音信号帧为未包含语音信号的帧。

可选地，在步骤s109之后，还包括：步骤s113，对若干帧原始音频信号在时域上进行分组得到多个音频信号组；及步骤s115，当音频信号组中存在语音信号帧后，将音频信号组内的音频信号确定为语音信号。

可选地，步骤s113包括：通过预设长度的第二观察窗在若干帧原始音频信号滑动，在第二观察窗滑动过程中，处于第二观察窗内的原始音频信号帧为一组。

可选地，在步骤s113中，采用迭代替换的滑动方式滑动第二观察窗，以使处于第二观察窗内的前n帧原始音频信号帧滑出第二观察窗，处于第二观察窗外的后n帧原始音频信号帧滑入第二观察窗内，其中，n为大于或等于1的整数。

可选地，n为1。

根据第二方面，本发明实施例公开了一种语音信号筛选装置，包括：

时域信号获取模块，用于在时域上获取连续的若干帧原始音频信号，原始音频信号包含噪声信号和语音信号；信号变换模块，用于将若干帧原始音频信号分别变换为频域中的若干帧对数谱信号，若干帧对数谱信号中的各个对数谱信号帧内具有多个频点；峰值频点确定模块，用于确定若干帧对数谱信号中满足峰值条件的频点得到峰值频点；数目统计模块，用于统计每一帧对数谱信号中满足峰值条件的峰值频点的数目；及语音信号帧确定模块，用于将具有超过预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为语音信号帧，语音信号帧为包含了语音信号的帧。

可选地，峰值频点确定模块用于通过预设长度的第一观察窗在若干帧对数谱信号滑动，在第一观察窗内确定每一帧对数谱信号中的峰值频点。

可选地，峰值频点确定模块包括：当前频点确定单元，用于在当前对数谱信号帧开始处于第一观察窗内时，确定当前对数谱信号帧中出现峰值的频点；重新确定单元，用于滑动第一观察窗，并重新确定当前对数谱信号帧中出现峰值的频点；频点次数确定单元，用于在当前对数谱信号帧处于第一观察窗之外后，确定当前对数谱信号帧中各个频点出现峰值的频点次数，频点次数为当前对数谱信号帧中的频点在第一观察窗内出现峰值的次数；及当前峰值频点确定单元，用于将频点次数超过预设次数的频点确定为当前对数谱信号帧中满足峰值条件的峰值频点。

可选地，重新确定单元用于采用迭代替换的滑动方式滑动第一观察窗，以使当前对数谱信号帧之后一帧处于第一观察窗内，当前对数谱信号帧之前一帧滑出第一观察窗。

可选地，还包括：非语音帧确定模块，用于将未具有预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为非语音信号帧，非语音信号帧为未包含语音信号的帧。

可选地，还包括：时域分组模块，用于对若干帧原始音频信号在时域上进行分组得到多个音频信号组；及语音信号确定模块，用于当音频信号组中存在语音信号帧后，将音频信号组内的音频信号确定为语音信号。

可选地，时域分组模块用于通过预设长度的第二观察窗在若干帧原始音频信号滑动，在第二观察窗滑动过程中，处于第二观察窗内的原始音频信号帧为一组。

可选地，时域分组模块用于采用迭代替换的滑动方式滑动第二观察窗，以使处于第二观察窗内的前n帧原始音频信号帧滑出第二观察窗，处于第二观察窗外的后n帧原始音频信号帧滑入第二观察窗内，其中，n为大于或等于1的整数。

可选地，n为1。

根据第三方面，本发明实施例公开了一种音频设备，包括：处理器，用于实现上述第一方面任意公开的方法。

可选地，音频设备为具有音频数据采集功能的耳机、移动终端或智能穿戴设备。

根据第四方面，本发明实施例公开了一种语音信号处理系统，包括：第一设备和第二设备；第一设备用于采集音频数据得到原始音频信号，并发送给第二设备；第二设备用于实现上述第一方面任意公开的方法。

可选地，第一设备为耳机，第二设备为移动终端。

根据第五方面，本发明实施例公开了一种计算机可读存储介质，其上存储有计算机程序，存储介质中存储的计算机程序用于被执行实现上述第一方面任意公开的方法。

根据第六方面，本发明实施例公开了一种音频设备的芯片，其上具有集成电路，集成电路被设计成用于实现上述第一方面任意公开的方法。

依据本发明实施例公开的一种语音信号晒出方法、装置、音频设备和系统，将在时域上连续的若干帧原始音频信号分别变换为频域中的若干帧对数谱信号，在频域中，各个对数谱信号帧内具有多个频点；而后，在若干帧对数谱中确定满足峰值条件的频点得到峰值频点，统计每一帧对数谱信号中满足峰值条件的峰值频点的数目，并将具有超过预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为语音信号帧。相对于现有技术中，将不同帧的频点信号融合在一起，来分析各频点之间的相关性，因环境噪声会影响音频的相关性，因此，会削弱识别语音信号的准确性；而本发明实施例的方案中，基于语音信号存在共振峰的特性，通过统计每一帧对数谱信号中满足峰值条件的峰值频点的数目，由此可以找到具有共振峰的对数谱信号帧，从而，能够确定包含部分语音信号的原始音频信号帧；并且，分析对象是单个频点，也就是，不同的频点之间是独立分析的，因此，减少了噪声对频点在时间上干扰的持续性，也就是，不同时间点的频点不会受彼此的影响，从而，能够减小噪声的影响，减小了误排除具有语音信号的音频信号帧的误排率，提高了筛选的准确性，也就是，有效、准确地筛选具有语音信号的音频信号帧。

作为可选的方案，通过滑动第一观察窗确定当前对数谱信号帧中出现峰值的频点，并确定当前对数谱信号帧中各个频点出现峰值的频点次数，将频点次数超过预设次数的频点确定为当前对数谱信号帧中满足峰值条件的峰值频点，从而能够统计出持续一定时长的、出现峰值的频点，继而，可以排除单频的峰值信号，也就是，排除了没有出现共振峰的频点，提高了筛选语音信号频点的准确性。

作为可选的方案，采用迭代替换的滑动方式滑动第一观察窗，以使当前对数谱信号帧之后一帧处于第一观察窗内，当前对数谱信号帧之前一帧滑出第一观察窗，相对于割裂分组对数谱信号帧的方式，可以带来更高的筛选分辨率，提高了筛选语音信号帧的准确性。

作为可选的方案，对若干帧原始音频信号在时域上进行分组得到多个音频信号组，当音频信号组中存在语音信号帧后，将音频信号组内的音频信号确定为语音信号，由此，可以判断一个在时域上连续的原始音频信号是否为完整的语音，也就是，能够排除某一瞬间具备语音信号特征，而实际上不是语音信号的情形，从而，筛选出了时域上是连续的语音信号，排除了某一瞬间具备语音信号特征的干扰。

作为可选的方案，采用迭代替换的滑动方式滑动第二观察窗，相对于割裂分组对数谱信号帧的方式，可以带来更高的筛选分辨率，提高了筛选语音信号帧的准确性。

本发明的其他有益效果，将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述，本领域技术人员通过这些技术特征和技术方案的介绍，应能理解所述技术特征和技术方案带来的有益技术效果。

附图说明

以下将参照附图对根据本发明实施例进行描述。图中：

图1为本实施例公开的一种语音信号筛选方法流程图；

图2为本实施例公开的一种基于第一观察窗确定峰值频点的方法流程图；

图3为本实施例公开的一种当前对数谱信号帧滑入、滑出第一观察窗的状态示意图，其中，图3a为当前对数谱信号帧开始处于第一观察窗内时的状态示意图，图3b和图3c分别示意了滑动第一观察窗后的状态示意图，图3d为本实施例中当前对数谱信号帧滑出第一观察窗的状态示意图；

图4为本实施例公开的一种语音信号筛选装置结构示意图。

具体实施方式

为了有效、准确地筛选具有语音信号的音频信号帧，本实施例公开了一种语音信号筛选方法，请参考图1，为本实施例公开的一种语音信号筛选方法流程图，该语音信号筛选方法包括：

步骤s101，在时域上获取连续的若干帧原始音频信号。本实施例中，所称原始音频信号包含噪声信号和语音信号，具体地，若干帧原始音频信号帧中，可以存在一些帧是纯粹的语音信号；也可以存在一些帧是纯粹的噪声信号；还可以存在一些帧中既包含了语音信号，也包含了噪声信号，也就是，噪声信号和语音信号同时存在于同一帧中。在具体实施过程中，获取的若干帧原始音频信号，可以是，获取一段原始音频信号，然后，再将该段原始音频信号划分为若干帧；也可以是，直接获取在时域上已经划分了若干帧的原始音频信号帧。

步骤s103，将若干帧原始音频信号分别变换为频域中的若干帧对数谱信号。本实施例中，若干帧对数谱信号中的各个对数谱信号帧内具有多个频点。具体地，可以进行时频域变换，例如通过fft变换，将时域的若干帧原始音频信号分别变换为频域信号，而后，计算每一帧频域信号对应的功率谱，并取对数，从而得到若干帧对数谱信号。在变换为若干帧对数谱信号后，每个对数谱信号帧内均会具有多个频点，具体的频点数目与频率分辨率有关，例如，如果时频转换一帧以512采样点做fft变换，得到的对数谱信号是含有257(512/2+1＝257)个值的一维数组，也就是，对数谱信号内具有257个频点。需要说明的是，本实施例及下述实施例中，所提及到的具体数值，除有特殊说明外，不能理解为对本实施例的技术方案构成限制，应当理解为示例性描述，以便于本领域技术人员理解本实施例的技术方案。

步骤s105，在若干帧对数谱信号中确定满足峰值条件的频点得到峰值频点。本实施例中，所称峰值条件是指能够持续一定时长的峰值，也就是，满足峰值条件的频点能够持续在一定帧数的对数谱信号帧中出现峰值。本实施例中，将能够持续在一定帧数的对数谱信号帧中出现峰值的频点称为峰值频点，例如，某个频点仅在当前帧出现了峰值，在当前帧的之前、之后帧都没有出现峰值，那么，该频点持续出现峰值的帧数为1，则，该频点因为没有持续一定帧数，因此，不是峰值频点。持续具有峰值的对数谱信号帧的数目可以根据实际需要来确定，在具体实施例中，可以结合相邻的多帧来确定当前对数谱信号帧是否存在峰值频点，具体地，请参见下述实施例的描述。在具体实施过程中，每一帧对数谱信号帧中可能存在多个峰值频点，也可能不存在峰值频点。本实施例中，通过确定出现峰值的频点能否持续一定帧数，可以有效地确定该频点是否为共振峰，从而，能够准确地筛选语音信号的频点。

步骤s107，统计每一帧对数谱信号中满足峰值条件的峰值频点的数目。在具体实施例中，在分别确定各对数谱信号帧内的峰值频点后，可以确定各对数谱信号帧具有峰值频点的具体数目，也就是，第n帧对数谱信号帧有多少个峰值频点，n为正整数，且小于或等于上述“若干帧”的总的帧数。

步骤s109，将具有超过预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为语音信号帧。本实施例中，所称语音信号帧为包含了语音信号的帧，也就是，被确定为包含语音信号的原始音频信号帧中，可以是包含纯粹的语音信号，也可以是包含了语音信号和噪声信号；对数谱信号帧对应的原始音频信号帧是指，在时频域变换时，一个原始音频信号帧变换为对数谱信号帧，则变换得到的对数谱信号帧与该原始音频信号帧是对应的。在具体实施过程中，可以根据实际需要或经验来确定具体的预设数目。

在具体实施例中，在执行步骤s105时，可以通过预设长度的第一观察窗来确定峰值频点，具体地，在若干帧对数谱信号中确定满足峰值条件的频点得到峰值频点可以包括：通过预设长度的第一观察窗在若干帧对数谱信号滑动，在第一观察窗内确定每一帧对数谱信号中的峰值频点。具体地，第一观察窗可以是例如3帧、5帧，等等。本实施例中，并不限制第一观察窗的具体长度。

请参考图2，为本实施例公开的一种基于第一观察窗确定峰值频点的方法流程图，步骤s105包括：

步骤s1051，在当前对数谱信号帧开始处于第一观察窗内时，确定当前对数谱信号帧中出现峰值的频点。以第一观察窗的长度为3帧为例进行说明，请参考图3a，为本实施例中，当前对数谱信号帧开始处于第一观察窗内时的状态示意图，图中，虚线框为第一观察窗，其长度为3帧对数谱信号帧，a(i)为当前对数谱信号帧，a(i-1)、a(i-2)为当前帧之前1帧、2帧的对数谱信号帧，a(i+1)、a(i+2)为当前帧之后1帧、2帧的对数谱信号帧，其中，a(i-2)、a(i-1)、a(i)处于第一观察窗内，a(i+1)、a(i+2)处于第一观察窗外。图3a示意的状态中，当前对数谱信号帧a(i)开始处于第一观察窗内，基于处于第一观察窗内的a(i-2)、a(i-1)、a(i)，确定当前对数谱信号帧a(i)出现峰值的频点。具体地，针对某一频点，可以比较该频点在a(i)的对数谱与同样的频点在a(i-2)、a(i-1)的对数谱大小，如果该频点在a(i)的对数谱大于同样的频点在a(i-2)、a(i-1)的对数谱，则可以确定当前对数谱信号帧中的该频点出现了峰值；由此，可以分别确定当前对数谱信号帧中的各个频点是否出现峰值，继而确定在该状态下，当前对数谱信号帧中出现峰值的频点。

步骤s1052，滑动第一观察窗，并重新确定当前对数谱信号帧中出现峰值的频点。在具体实施例中，为提高筛选分辨率，可以采用迭代替换的滑动方式滑动第一观察窗，以使当前对数谱信号帧之后一帧处于第一观察窗内，当前对数谱信号帧之前一帧滑出第一观察窗。为便于本领域技术人员理解，请参考图3b和图3c，分别示意了滑动第一观察窗后的状态示意图，其中，图3b示意了a(i-2)滑出第一观察窗外的状态示意图，此时，a(i+1)滑入了第一观察窗内，处于第一观察窗内的是a(i-1)、a(i)和a(i+1)；图3c示意了a(i-1)滑出第一观察窗外的状态示意图，此时，a(i+2)滑入了第一观察窗内，处于第一观察窗内的是a(i)、a(i+1)和a(i+2)。在图3b示意的状态中，基于处于第一观察窗内的a(i-1)、a(i)和a(i+1)，可以分别确定当前对数谱信号帧中的各个频点是否出现峰值，继而确定在该状态下，当前对数谱信号帧中出现峰值的频点。同样地，在图3c示意的状态中，基于处于第一观察窗内的a(i)、a(i+1)和a(i+2)，可以分别确定当前对数谱信号帧中的各个频点是否出现峰值，继而确定在该状态下，当前对数谱信号帧中出现峰值的频点。具体地，可以参见上述实施例的介绍，在此不再赘述。

步骤s1053，在当前对数谱信号帧处于第一观察窗之外后，确定当前对数谱信号帧中各个频点出现峰值的频点次数。本实施例中，所称频点次数为当前对数谱信号帧中的频点在第一观察窗内出现峰值的次数。请参考图3d，为本实施例中，当前对数谱信号帧a(i)滑出第一观察窗的状态示意图，在该状态下，当前对数谱信号帧a(i)处于第一观察窗之外，也就意味着，当前对数谱信号帧a(i)在第一观察窗内的各个状态下，出现峰值的频点均已确定，此时，可以确定a(i)的各个频点在第一观察窗内出现峰值的次数，也就是确定当前对数谱信号帧中各个频点出现峰值的频点次数。需要特别说明的是，本实施例中，所称“当前对数谱信号帧处于第一观察窗之外后”是指，在第一观察窗内已经完成确定当前对数谱信号帧中出现峰值的频点，在第一观察窗内不再确定当前对数谱信号帧中出现峰值的频点；根据该认识，本领域技术人员应当清楚，当当前对数谱信号帧a(i)处于图3c的状态下，也可以确定当前对数谱信号帧中各个频点出现峰值的频点次数，应当认为是本实施例所称“当前对数谱信号帧处于第一观察窗之外后”。

步骤s1054，将频点次数超过预设次数的频点确定为当前对数谱信号帧中满足峰值条件的峰值频点。本实施例中，对于当前对数谱信号帧中的各个出现峰值的频点，在上述步骤统计出频点次数后，可以判断频点次数是否超过预设次数，如果某个频点出现峰值的频点次数超过预设次数，则表明该频点是能够持续一定时长出现峰值的，也就意味着该频点具有共振峰，从而，可以将该频点确定为满足峰值条件的峰值频点。继而，可以排除单频的峰值信号，也就是，排除了没有出现共振峰的频点，提高了筛选语音信号频点的准确性。

请参考图1，在可选的实施例中，在步骤s107之后，还包括：

步骤s111，将未具有预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为非语音信号帧。本实施例中，所称非语音信号帧为未包含语音信号的帧，也就是被确定为非语音信号帧的原始音频信号帧中，不存在语音信号。需要说明的是，本实施例中，并不限制步骤s109和步骤s111执行的先后顺序。需要说明的是，在具体实施过程中，步骤s109和步骤s111也可以是基于一个判断步骤，得到判断结果的两种情形，亦即，在统计每一帧对数谱信号中峰值频点的数目后，判断峰值频点的数目是否大于预设数目，如果大于预设数目，则将该帧确定为语音信号帧，否则，将该帧确定为非语音信号帧。

请参考图1，为了排除某一瞬间具备语音信号特征，而实际上不是语音信号的情形，在可选的实施例中，在步骤s109之后，还包括：

步骤s113，对若干帧原始音频信号在时域上进行分组得到多个音频信号组。在具体实施过程中，可以依据时间的先后顺序，对原始音频信号帧进行分组，得到多个音频信号组。作为示例，例如以5帧原始音频信号帧为一组，当然，本实施例中，并不限制每组音频信号组所包含信号帧的具体帧数，在具体实施过程中，可以依据实际需要来确定具体帧数。

步骤s115，当音频信号组中存在语音信号帧后，将音频信号组内的音频信号确定为语音信号。具体地，在某一组音频信号组中存在一帧或多帧语音信号帧时，即可以将该组音频信号组内的音频信号确定为语音信号，也就是，该组内的所有原始音频信号帧都筛选出来，用于后续的进一步处理。

本实施例中，通过在时域上对连续的原始音频信号帧进行分组分析，由于组内的信号是连续的信号，因此，可以判断一个在时域上连续的原始音频信号是否为完整的语音，也就是，能够排除某一瞬间具备语音信号特征，而实际上不是语音信号的情形，从而，筛选出了时域上是连续的语音信号，排除了某一瞬间具备语音信号特征的干扰。

在可选的实施例中，可以通过预设长度的第二观察窗进行滑窗分组，具体地，步骤s113包括：通过预设长度的第二观察窗在若干帧原始音频信号滑动，在第二观察窗滑动过程中，处于第二观察窗内的原始音频信号帧为一组。本实施例中，可以根据经验和/或需求来确定第二观察窗的预设长度。

为了提高更高的筛选分辨率，提高筛选语音信号帧的准确性，可以采用迭代替换的滑动方式滑动第二观察窗，以使处于第二观察窗内的前n帧原始音频信号帧滑出第二观察窗，处于第二观察窗外的后n帧原始音频信号帧滑入第二观察窗内，其中，n为大于或等于1的整数，n的取值可以为例如1。为便于本领域技术人员理解，作为示例，第二观察窗的预设长度示例性为5帧，第二观察窗在时域上连续的原始音频信号帧进行滑窗分组，例如，编号1至5的原始音频信号帧为第一组，编号2至6的原始音频信号帧为第二组，编号3至7的原始音频信号帧为第三组，编号4至8的原始音频信号帧为第四组，以此类推。当某组中存在语音信号帧时，则可以确定该组的音频信号为语音信号，反之，当某组中所有的原始音频信号帧都是非语音信号帧时，则可以确定该组的音频信号为非语音信号。例如，假设编号为2、8的原始音频信号帧为语音信号帧，编号3至7都是非语音信号帧，那么，第一组、第二组包含了语音信号帧(编号为2的原始音频信号帧)，因此，第一组、第二组的原始音频信号是语音信号；第四组包含了语音信号帧(编号为8的原始音频信号帧)，因此，第四组的原始音频信号是语音信号；而第三组包含的编号3至7都是非语音信号帧，因此，第三组的原始音频信号是非语音信号。

本实施例还公开了一种语音信号筛选装置，请参考图4，为本实施例公开的一种语音信号筛选装置结构示意图，该语音信号筛选装置包括：时域信号获取模块401、信号变换模块402、峰值频点确定模块403、数目统计模块404和语音信号帧确定模块405，其中：

时域信号获取模块401用于在时域上获取连续的若干帧原始音频信号，原始音频信号包含噪声信号和语音信号；信号变换模块402用于将若干帧原始音频信号分别变换为频域中的若干帧对数谱信号，若干帧对数谱信号中的各个对数谱信号帧内具有多个频点；峰值频点确定模块403用于确定若干帧对数谱信号中满足峰值条件的频点得到峰值频点；数目统计模块404用于统计每一帧对数谱信号中满足峰值条件的峰值频点的数目；语音信号帧确定模块405用于将具有超过预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为语音信号帧，语音信号帧为包含了语音信号的帧。

在可选的实施例中，峰值频点确定模块用于通过预设长度的第一观察窗在若干帧对数谱信号滑动，在第一观察窗内确定每一帧对数谱信号中的峰值频点。

在可选的实施例中，峰值频点确定模块包括：当前频点确定单元、重新确定单元、频点次数确定单元和当前峰值频点确定单元，其中：

当前频点确定单元用于在当前对数谱信号帧开始处于第一观察窗内时，确定当前对数谱信号帧中出现峰值的频点；重新确定单元用于滑动第一观察窗，并重新确定当前对数谱信号帧中出现峰值的频点；频点次数确定单元用于在当前对数谱信号帧处于第一观察窗之外后，确定当前对数谱信号帧中各个频点出现峰值的频点次数，频点次数为当前对数谱信号帧中的频点在第一观察窗内出现峰值的次数；当前峰值频点确定单元用于将频点次数超过预设次数的频点确定为当前对数谱信号帧中满足峰值条件的峰值频点。

在可选的实施例中，重新确定单元用于采用迭代替换的滑动方式滑动第一观察窗，以使当前对数谱信号帧之后一帧处于第一观察窗内，当前对数谱信号帧之前一帧滑出第一观察窗。

在可选的实施例中，该语音信号筛选装置还包括：非语音帧确定模块，用于将未具有预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为非语音信号帧，非语音信号帧为未包含语音信号的帧。

在可选的实施例中，该语音信号筛选装置还包括：时域分组模块，用于对若干帧原始音频信号在时域上进行分组得到多个音频信号组；语音信号确定模块，用于当音频信号组中存在语音信号帧后，将音频信号组内的音频信号确定为语音信号。

在可选的实施例中，时域分组模块用于通过预设长度的第二观察窗在若干帧原始音频信号滑动，在第二观察窗滑动过程中，处于第二观察窗内的原始音频信号帧为一组。

在可选的实施例中，时域分组模块用于采用迭代替换的滑动方式滑动第二观察窗，以使处于第二观察窗内的前n帧原始音频信号帧滑出第二观察窗，处于第二观察窗外的后n帧原始音频信号帧滑入第二观察窗内，其中，n为大于或等于1的整数。

在可选的实施例中，n为1。

本实施例还公开了一种音频设备，音频设备为具有音频数据采集功能的设备，具体地，音频设备可以是例如耳机、移动终端或智能穿戴设备，该音频设备包括：处理器，用于实现上述任意实施例公开的方法。

本实施例还公开了一种语音信号处理系统，包括：第一设备和第二设备；

第一设备用于采集音频数据得到原始音频信号，并发送给第二设备；第二设备用于实现上述任意实施例公开的方法。

在可选的实施例中，第一设备为耳机，第二设备为移动终端，移动终端可以是平板电脑、手机、笔记本电脑等具有数据处理功能的终端。

本实施例中，第一设备采集音频数据得到原始音频信号，并发送给第二设备，由第二设备来实现上述任意实施例公开的方法，可以减小第一设备的数据处理量。

本实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，存储介质中存储的计算机程序用于被执行实现上述任意实施例公开的方法。

本实施例还公开了一种音频设备的芯片，其上具有集成电路，集成电路被设计成用于实现上述任意实施例公开的方法。

依据本实施例公开的一种语音信号晒出方法、装置、音频设备和系统，将在时域上连续的若干帧原始音频信号分别变换为频域中的若干帧对数谱信号，在频域中，各个对数谱信号帧内具有多个频点；而后，在若干帧对数谱中确定满足峰值条件的频点得到峰值频点，统计每一帧对数谱信号中满足峰值条件的峰值频点的数目，并将具有超过预设数目峰值频点的对数谱信号帧对应的原始音频信号帧确定为语音信号帧。相对于现有技术中，将不同帧的频点信号融合在一起，来分析各频点之间的相关性，因环境噪声会影响音频的相关性，因此，会削弱识别语音信号的准确性；而本发明实施例的方案中，基于语音信号存在共振峰的特性，通过统计每一帧对数谱信号中满足峰值条件的峰值频点的数目，由此可以找到具有共振峰的对数谱信号帧，从而，能够确定包含部分语音信号的原始音频信号帧；并且，分析对象是单个频点，也就是，不同的频点之间是独立分析的，因此，减少了噪声对频点在时间上干扰的持续性，也就是，不同时间点的频点不会受彼此的影响，从而，能够减小噪声的影响，减小了误排除具有语音信号的音频信号帧的误排率，提高了筛选的准确性，也就是，有效、准确地筛选具有语音信号的音频信号帧。

作为可选的实施例，通过滑动第一观察窗确定当前对数谱信号帧中出现峰值的频点，并确定当前对数谱信号帧中各个频点出现峰值的频点次数，将频点次数超过预设次数的频点确定为当前对数谱信号帧中满足峰值条件的峰值频点，从而能够统计出持续一定时长的、出现峰值的频点，继而，可以排除单频的峰值信号，也就是，排除了没有出现共振峰的频点，提高了筛选语音信号频点的准确性。

作为可选的实施例，采用迭代替换的滑动方式滑动第一观察窗，以使当前对数谱信号帧之后一帧处于第一观察窗内，当前对数谱信号帧之前一帧滑出第一观察窗，相对于割裂分组对数谱信号帧的方式，可以带来更高的筛选分辨率，提高了筛选语音信号帧的准确性。

作为可选的实施例，对若干帧原始音频信号在时域上进行分组得到多个音频信号组，当音频信号组中存在语音信号帧后，将音频信号组内的音频信号确定为语音信号，由此，可以判断一个在时域上连续的原始音频信号是否为完整的语音，也就是，能够排除某一瞬间具备语音信号特征，而实际上不是语音信号的情形，从而，筛选出了时域上是连续的语音信号，排除了某一瞬间具备语音信号特征的干扰。

作为可选的实施例，采用迭代替换的滑动方式滑动第二观察窗，相对于割裂分组对数谱信号帧的方式，可以带来更高的筛选分辨率，提高了筛选语音信号帧的准确性。

本领域的技术人员能够理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。

应当理解，上述的实施方式仅是示例性的，而非限制性的，在不偏离本发明的基本原理的情况下，本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换，都将包含于本发明的权利要求范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除