实时检测音频信号中的语音活动的制作方法

2021-01-28 13:01:31|

356|

起点商标网

实施例涉及实时检测音频信号中的语音活动。

背景技术：

语音活动检测是依赖于语音信号的系统、尤其是交互式语音系统中的重要组成部分，所述交互式语音系统诸如自动语音识别系统、语音记录系统、自动消息检测系统、移动通信技术等。现有技术系统利用诸如能量、过零和频谱之类的特征来探知音频信号中的语音。一些先进的系统采用预先训练的模型来在音频信号中的语音帧与非语音帧之间进行区分。然而，取决于接收的音频信号的非语音或背景噪声的特性，用于端点检测的现有技术系统的性能可能显著变化。

技术实现要素：

本发明描述了一种用以实时鲁棒地检测音频信号中语音的开始和结束点的轻量方法和系统。从音频信号开始处的短音频区段观察背景音频环境，并且然后基于音频信号频谱的所计算的熵统计量来确定音频信号的语音和非语音部分。然后，基于从音频信号的所确定的语音和非语音部分累积的熵统计量来确定活动语音的开始和结束点。

一个实施例提供了一种用于自动检测音频信号中语音的开始和结束点的系统。该系统包括音频源和电子处理器。电子处理器被配置为从音频源接收第一音频信号，缓冲第一音频信号，向缓冲的第一音频信号添加随机噪声，以及对第一音频流滤波以创建滤波信号。电子处理器然后确定滤波信号的每个帧的信号熵，确定在滤波信号的开始处出现的滤波信号的第一多个帧的平均信号熵，并且将滤波信号的每个帧的信号熵与平均信号熵进行比较。基于该比较，电子处理器确定位于滤波信号的第一帧中的第一语音端点。

另一个实施例提供了一种用于自动检测音频信号中语音的开始和结束点的方法。该方法包括经由电子处理器从音频源接收第一音频信号；经由电子处理器缓冲第一音频信号；以及经由电子处理器向缓冲的第一音频信号添加随机噪声。该方法还包括经由电子处理器对第一音频流滤波以创建滤波信号；经由电子处理器确定滤波信号的每个帧的信号熵；以及经由电子处理器确定滤波信号的第一多个帧的平均信号，其中第一多个帧出现在滤波信号的开始处。该方法还包括经由电子处理器将滤波信号的每个帧的信号熵与平均信号熵进行比较；以及基于该比较，经由电子处理器确定位于滤波信号的第一帧中的第一语音端点。

这些和其他特征、方面和优点将从阅读以下详细描述和查阅相关联的附图而清楚。将理解的是，前述的一般描述和以下详细描述二者都是解释性的，并且不局限如要求保护的方面。

附图说明

图1图示了根据一个实施例的用于实时检测音频信号中的语音端点的系统。

图2图示了根据一个实施例的用于检测音频信号中的语音端点的方法的框图。

图3是图示了根据一个实施例的语音的开端（onset）和偏移（offset）阈值以及语音的起始和结束点的绘图。

具体实施方式

在以下描述和附图中描述和图示了一个或多个实施例。这些实施例不限于本文中提供的具体细节，并且可以以各种方式被修改。此外，可以存在本文中未描述的其他实施例。此外，本文中描述为由一个组件执行的功能性可以由多个组件以分布式方式执行。同样，由多个组件执行的功能性可以被合并，并由单个组件执行。类似地，被描述为执行特定功能性的组件也可以执行本文中未描述的附加功能性。例如，以某种方式“配置”的设备或结构至少以该方式配置，但是也可以以未列出的方式配置。此外，本文中描述的一些实施例可以包括一个或多个电子处理器，所述一个或多个电子处理器被配置为通过执行被存储在非暂时性计算机可读介质中的指令来执行所描述的功能性。类似地，本文中描述的实施例可以被实现为非暂时性计算机可读介质，其存储由一个或多个电子处理器可执行以执行所描述的功能性的指令。如在本申请中使用的，“非暂时性计算机可读介质”包括所有计算机可读介质，但不包含暂时性传播信号。因此，非暂时性计算机可读介质可以包括例如硬盘、cd-rom、光存储设备、磁存储设备、rom（只读存储器）、ram（随机存取存储器）、寄存器存储器、处理器高速缓存或其任何组合。

此外，本文中使用的措辞和术语是为了描述的目的，并且不应该被视为是限制性的。例如，本文中对“包括”、“包含”、“包括有”、“具有”及其变型的使用意指涵盖其后列出的项目及其等同物以及附加项目。术语“连接的”和“耦合的”被宽泛地使用，并且涵盖直接和间接的连接和耦合二者。此外，“连接的”和“耦合的”不局限于物理或机械连接或耦合，并且可以包括无论直接还是间接的电连接或耦合。此外，电子通信和通知可以使用有线连接、无线连接或其组合来执行，并且可以通过各种类型的网络、通信信道和连接而直接或通过一个或多个中间设备来传输。此外，诸如第一和第二、顶部和底部等之类的关系术语在本文中可以仅用于将一个实体或动作与另一个实体或动作进行区分，而不一定要求或暗示这样的实体或动作之间的任何实际的这样的关系或顺序。

图1图示了根据一个实施例的用于实时检测音频信号中的语音端点的系统100。系统100包括计算设备110，诸如智能电话、台式计算机、膝上型计算机、智能可穿戴设备、服务器或其他计算设备。

计算设备110包括向计算设备110内的组件和模块提供电力、操作控制和保护的多个电气和电子组件。如图1中所图示的，计算设备110包括电子处理器120、存储器130和输入-输出接口140。电子处理器120可以是可编程电子微处理器、微控制器、专用集成电路（“asic”）等。电子处理器120电子地耦合到存储器130和输入-输出接口140。存储器130是非暂时性计算机可读存储器，诸如随机存取存储器（“ram”）、电可擦除可编程只读存储器（“eeprom”）等。输入-输出接口140允许外部电子组件与电子处理器120通信。

计算设备110可以利用若干个电子处理器，每个电子处理器被配置为执行特定的功能或子功能。附加地，计算设备110可以包含子模块，所述子模块包括用于处置输入-输出功能、信号处理和下面列出的方法的应用的电子处理器、存储器或asic。在其他实施例中，计算设备110包括附加的、更少的或不同的组件。

计算设备150还包括音频源150。一般而言，音频源150向电子处理器120提供音频信号（模拟或数字）以供分析。在一些实施例中，音频源150是供在环境中使用的麦克风或一些其他声音收集装置。在其他实施例中，音频源150可以是可以从中检索音频信号的存储器或其他存储装置。在这些实施例中，音频源150被配置为将检索到的音频信号提供给电子处理器120以供处理。

图2图示了根据一个实施例的用于检测音频信号中的语音端点的方法200的框图。方法200包括利用电子处理器120缓冲音频信号201（在框203处）。如下所述，音频信号201被放置到临时音频缓冲器中，以依次存储音频信号201来用于稍后处理并且用于检测语音端点。临时音频缓冲器是存储器130的一部分，其专用于保持音频信号201以供处理。在缓冲音频信号201之后，可以使用基于帧的信号处理将音频信号201划分成多个帧。

方法200还包括一旦音频信号201已经被缓冲，就利用电子处理器120向音频信号201添加随机噪声（在框205处）。通过向音频信号201添加随机噪声，在信号中建立噪声基线，从而去除了在不同频率和噪声水平处确定阈值的缺点。如下所述，背景噪声的特性也被添加到现有的音频信号，以帮助滤波和熵估计。

接下来，经由电子处理器120对缓冲的音频信号201滤波（在框207处）。通过对音频信号201滤波，从音频信号201中去除人类语音之外的频率。结果，诸如电子噪声、自然噪声等之类的额外声音不被处理且不被误标识为人类语音。在一些实施例中，为了去除非常高和非常低的频率二者，利用带限滤波器。带限滤波器同时对非常高和非常低的频率二者滤波。例如，被应用于音频信号201的带限滤波器可以具有250赫兹的下限（例如，滤除在250赫兹以下的所有频率），并且还具有6000赫兹的上限（例如，滤除在6000赫兹以上的所有频率），以便捕获可用的声音频带。

方法200还包括利用电子处理器120估计音频信号201的每个帧的熵统计量（在框209处）。音频信号201的每个帧的熵由以下等式定义

等式1。

在等式1中，，并且是帧t处幅度谱的频带w的概率。|y(w,t)|是被分析的帧t的幅度谱。一旦每个帧的熵被估计，每个计算的熵就经历平滑，这通过对每个帧的所计算的熵执行自动回归来完成。

人类语音的信号谱比非语音或随机噪声更具结构性。因此，使用帧的所计算的熵来在音频信号201的语音与非语音区段之间进行区分是可能的。

为了区分音频信号201中的语音与非语音，电子处理器120首先确定平均信号熵（ent）（在框211处）。平均信号熵是通过对从音频信号201的开始起预定数量的帧或预定信号长度的信号熵取平均来确定的。例如，电子处理器120可以对来自音频信号201的前半秒（0.5秒）内的每个帧的信号熵取平均。通过计算音频信号201的开始的平均熵，可以确定当前声学环境（例如，不存在语音时信号的平均熵），并且将其与稍后帧的熵进行比较，以标识语音何时开始。此外，通过仅利用信号的短持续时间，可以减少计算开销。

一旦计算出平均信号熵，电子处理器120就基于平均信号熵来计算开端阈值（eb）和偏移阈值（ee）（在框213处）。通过将平均信号熵乘以权重因子，并且然后将该值与平均信号熵相加，来计算开端阈值。针对开端阈值的计算在等式2中说明。

等式2。

通过将平均信号熵乘以权重因子，并且然后从平均信号熵中减去该值来计算偏移阈值。针对偏移阈值的计算在等式3中说明。

等式3。

在一些实施例中，权重因子是小的权重因子（例如，0.1-0.3）。通过使权重因子为小值，可以准确地确定包含语音的音频信号201的帧，同时仍然允许在音频信号201中捕获的人类声音的变化。在一些实施例中，用于计算开端阈值的权重因子和用于计算偏移阈值的权重因子具有相同的值。在其他实施例中，两个权重因子可以具有不同的值。权重参数可以由系统100的用户可调谐，或者可以是静态值。

一旦计算出开端阈值和偏移阈值，电子处理器120就将音频信号201的每个帧的熵（e）与开端阈值和偏移阈值进行比较（在框215处）。如果被分析的帧的熵在两个阈值之间，则不采取任何动作，并且电子处理器120继续分析音频信号120的下一帧。

如果被分析的帧的熵在开端阈值以上，则语音帧计数器递增，并且语音帧被累积（在框217处）。在累积了最小数量的语音帧之后，确定语音起始点219。对确定语音已经开始所必要的语音帧的最小数量由最小语音帧阈值a定义。一旦语音帧的数量在最小语音帧阈值a以上，该数量的语音帧的第一帧就被标识为语音起始点219。该数量的语音帧的第一帧被存储在存储器130中，并且由电子处理器120可访问以供将来访问。

最小语音帧阈值a可以由系统100的用户可调整，或者可以是预定义的值。在一些实施例中，基于音频信号201的长度，电子处理器120可以确定最小语音帧阈值a。

在一些实施例中，可以被标识为语音起始点219的第一帧必须出现在框211处曾被分析的第一多个帧之后，因为该第一多个帧曾被用于建立音频信号201的平均信号熵，并且表示音频信号201中的平均背景噪声。这说明音频信号201代表例如在喧闹环境中说话的人类。

如果第一帧之后的帧具有在开端阈值以下的熵，则不重置所累积语音帧的数量。这允许在人类语音中自然出现的小间歇，诸如用于呼吸的暂停、通告（annunciation）和人类语音中的其他正常间歇。

如果被分析的帧具有在偏移阈值以下的熵，则累积非语音帧（在框221处）。非常像累积语音帧，当非语音帧被确定时，非语音帧计数器递增。在累积了最小数量的非语音帧之后，确定语音结束点223。对确定语音已经结束所必要的非语音帧的最小数量由最小非语音帧阈值b定义。一旦非语音帧的数量在最小非语音帧阈值b以上，该数量的非语音帧的第一帧就被标识为语音结束点223。该数量的非语音帧的第一帧被存储在存储器130中，并且由电子处理器120可访问以供将来访问。

在检测并存储语音起始点219之后，电子处理器120被配置为将累积的非语音帧的数量重置为0。这允许在语音起始点219之前累积的任何非语音帧或者在该数量的语音帧的第一帧之后标识的任何非语音帧被清除并且语音结束点223被准确地标识。在检测并存储语音起始点219之后，电子处理器120返回分析音频信号201的帧。

非语音帧的第一帧（语音结束点223）出现在语音帧的第一帧（语音起始点219）之后，并且为了说明的目的也可以被称为第二帧。

图3是图示了如何检测语音起始点219和语音结束点223的绘图300。如参考图2所描述的，计算开端阈值eb和偏移阈值ee，并且然后将音频信号201的每个帧的熵e与阈值进行比较。在某个数量的帧出现在开端阈值以上之后，确定语音起始点219。当在语音起始点219之后的帧的熵在开端阈值以上时，仍然检测到语音。一旦帧的熵落在偏移阈值以下达到预定数量的帧，就检测到语音结束点223。

因此，本文中描述的实施例除了其他事物之外还提供了用于检测音频信号中的语音端点的系统和方法。在以下权利要求中阐述了各种特征、优点和实施例。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。