语音检测方法、装置、计算机设备和存储介质与流程
本申请涉及音频处理技术领域,特别是涉及一种语音检测方法、装置、计算机设备和存储介质。
背景技术:
随着数字音频技术的发展,人们对音频数据的修改操作变得越来越容易,对音频片段进行复制粘贴是修改音频最简单的方式之一。一些不法分子使用此方法恶意篡改音频,伪造录音证据,给办案人员进行音频取证增加了难度,严重妨碍司法公正。因此,在此类情况中,对音频数据进行复制检测就显得尤为重要。
传统的语音复制检测方法为了确保检测的准确性,在没有复制片段先验信息的条件下,需要对全部语音采样数据进行无遗漏的复制片段匹配检测,计算量巨大,特别是对于较长的音频,这种检测的方法非常耗时,导致检测效率低下。
技术实现要素:
基于此,有必要针对上述技术问题,提供一种能够提高检测效率的语音检测方法、装置、计算机设备和存储介质。
一种语音检测方法,所述方法包括:
获取音频数据,对所述音频数据进行波形特征提取,得到所述音频数据的波形宽度特征序列;
获取所述波形宽度特征序列对应的滑动重叠窗口,根据所述滑动重叠窗口的波形宽度特征进行匹配检测;
当通过所述滑动重叠窗口检测得到所述音频数据的波形宽度特征序列中存在至少一组相同波形宽度特征序列片段时,确定各组相同波形宽度特征序列片段的位置信息;
在所述音频数据中,根据所述各组相同波形宽度特征序列片段的位置信息确定对应的各组音频数据片段;
将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为所述音频数据中的语音复制片段。
在其中一个实施例中,对所述音频数据进行波形特征提取,得到所述音频数据的波形宽度特征序列,包括:
根据所述音频数据各个采样点的值及其连续性,将所述音频数据划分得到各个子波形,所述各个子波形按其中采样点的个数定义波形宽度,按其中采样点的值定义波形方向,所述波形方向包括正向波形和负向波形;
统计所述各个子波形对应的采样点数,得到所述各个子波形对应的波形宽度特征;
根据所述各个子波形的波形方向和所述各个子波形对应的波形宽度特征得到所述波形宽度特征序列,所述波形宽度特征序列包括正向波形宽度特征序列、负向波形宽度特征序列和双向波形宽度特征序列。
在其中一个实施例中,对所述音频数据进行波形特征提取,得到所述音频数据的波形宽度特征序列,包括:
根据采样点的值大于正向波形预设阈值的各个采样点,从所述音频数据中提取得到多个正向波形,统计各个正向波形对应的采样点数,得到正向波形宽度特征序列;
根据采样点的值小于正向波形预设阈值的各个采样点,从所述音频数据中提取得到多个负向波形,统计各个负向波形对应的采样点数,得到负向波形宽度特征序列;
统计各个正向波形对应的采样点数和各个负向波形对应的采样点数,得到双向波形宽度特征序列。
在其中一个实施例中,所述获取所述波形宽度特征序列对应的滑动重叠窗口,根据所述滑动重叠窗口的波形宽度特征进行匹配检测,包括:
获取波形宽度特征复制序列;所述波形宽度特征复制序列和所述波形宽度特征序列为相同序列;
将所述波形宽度特征序列和波形宽度特征复制序列首尾相接,开始相向滑动,将所述波形宽度特征序列和波形宽度特征复制序列在滑动过程中重叠区域作为所述滑动重叠窗口;
在当前滑动重叠窗口中,计算所述波形宽度特征序列对应的第一子特征序列和所述波形宽度特征复制序列对应的第二子特征序列的差值,得到当前滑动重叠窗口对应的波形宽度特征差值序列;
获取所述波形宽度特征差值序列中符合预设差值的片段位置对应的第一子特征序列片段和第二子特征序列片段,将第一子特征序列片段和第二子特征序列片段作为相同波形宽度特征序列片段。
在其中一个实施例中,将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为所述音频数据中的语音复制片段,包括:
在同一组音频数据片段中,当当前音频片段的各个待匹配采样点的值与其他音频片段的各个待匹配采样点的值对应相等时,确定所述当前音频片段和所述其他音频片段为一组语音复制片段,将各组语音复制片段作为所述音频数据中的语音复制片段。
在其中一个实施例中,所述将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为所述音频数据中的语音复制片段,包括:
在同一组音频数据片段中,当当前音频片段的各个待匹配采样点的值与其他音频片段的各个待匹配采样点的值呈比例关系时,确定所述当前音频片段和所述其他音频片段为一组语音复制片段,将各组语音复制片段作为所述音频数据中的语音复制片段。
在其中一个实施例中,所述确定所述当前音频片段和所述其他音频片段为一组语音复制片段之后,所述方法还包括:
在所述音频数据中,获取所述当前音频片段的相邻采样点和所述其他音频片段的相邻采样点;
将所述当前音频片段的相邻采样点和所述其他音频片段的相邻采样点对应匹配;
当匹配成功时,将所述当前音频片段与所述当前音频片段的相邻采样点合并得到扩展后的当前音频片段,将所述其他音频片段与所述其他音频片段的相邻采样点合并得到扩展后的其他音频片段;
将所述扩展后的当前音频片段和所述扩展后的其他音频片段作为一组语音复制片段。
一种语音检测装置,所述装置包括:
特征提取模块,用于获取音频数据,对所述音频数据进行波形特征提取,得到所述音频数据的波形宽度特征序列;
特征匹配模块,用于获取所述波形宽度特征序列对应的滑动重叠窗口,根据所述滑动重叠窗口的波形宽度特征进行匹配检测;当通过所述滑动重叠窗口检测得到所述音频数据的波形宽度特征序列中存在至少一组相同波形宽度特征序列片段时,确定各组相同波形宽度特征序列片段的位置信息;
音频片段提取模块,用于在所述音频数据中,根据所述各组相同波形宽度特征序列片段的位置信息确定对应的各组音频数据片段;
音频片段匹配模块,用于将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为所述音频数据中的语音复制片段。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取音频数据,对所述音频数据进行波形特征提取,得到所述音频数据的波形宽度特征序列;
获取所述波形宽度特征序列对应的滑动重叠窗口,根据所述滑动重叠窗口的波形宽度特征进行匹配检测;
当通过所述滑动重叠窗口检测得到所述音频数据的波形宽度特征序列中存在至少一组相同波形宽度特征序列片段时,确定各组相同波形宽度特征序列片段的位置信息;
在所述音频数据中,根据所述各组相同波形宽度特征序列片段的位置信息确定对应的各组音频数据片段;
将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为所述音频数据中的语音复制片段。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取音频数据,对所述音频数据进行波形特征提取,得到所述音频数据的波形宽度特征序列;
获取所述波形宽度特征序列对应的滑动重叠窗口,根据所述滑动重叠窗口的波形宽度特征进行匹配检测;
当通过所述滑动重叠窗口检测得到所述音频数据的波形宽度特征序列中存在至少一组相同波形宽度特征序列片段时,确定各组相同波形宽度特征序列片段的位置信息;
在所述音频数据中,根据所述各组相同波形宽度特征序列片段的位置信息确定对应的各组音频数据片段;
将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为所述音频数据中的语音复制片段。
上述语音检测方法、装置、计算机设备和存储介质,通过获取音频数据,对音频数据进行波形特征提取,得到音频数据的波形宽度特征序列;获取波形宽度特征序列对应的滑动重叠窗口,根据滑动重叠窗口的波形宽度特征进行匹配检测;当通过滑动重叠窗口检测得到音频数据的波形宽度特征序列中存在至少一组相同波形宽度特征序列片段时,确定各组相同波形宽度特征序列片段的位置信息;在音频数据中,根据各组相同波形宽度特征序列片段的位置信息确定对应的各组音频数据片段;将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为音频数据中的语音复制片段。与传统方案对全部语音采样数据进行复制片段匹配检测不同,上述方法通过提取得到的波形宽度特征序列对音频数据进行预检测,从音频数据中提取得到可能是复制片段的音频片段,再对音频片段进一步地校验,能够在保证检测准确性的同时,减少匹配检测的计算量,减少检测时间,提高检测效率。
附图说明
图1为一个实施例中语音检测方法的流程示意图;
图2为一个实施例中音频数据的波形示意图;
图3为一个实施例中波形宽度特征序列生成方法的流程示意图;
图4为另一个实施例中波形宽度特征序列生成方法的流程示意图;
图5为一个实施例中根据滑动重叠窗口进行匹配检测的流程示意图;
图6为一个实施例中根据滑动重叠窗口进行匹配检测的示意图;
图7为一个实施例中音频数据片段校验方法的流程示意图;
图8为另一个实施例中语音检测方法的流程示意图;
图9为一个实施例中语音检测装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种语音检测方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,获取音频数据,对音频数据进行波形特征提取,得到音频数据的波形宽度特征序列。
其中,波形特征是指音频信号时域波形的统计特征。波形宽度特征序列是指由波形宽度特征组成的序列。波形宽度特征可以是音频数据信号中各个波形的时间宽度值,也可以是各个波形中的采样点数。
具体地,终端可以通过音频采集设备获取得到音频数据。终端可以对音频数据进行波形特征提取。其中,波形宽度特征序列可以是特定向波形宽度特征序列,即特定方向上的波形宽度特征序列,例如正向和负向。终端对音频数据进行采样,得到各个采样点的值。如图2所示的音频数据的波形示意图,终端可以根据采样点的值对音频数据信号的波形进行划分,将采样点的值连续大于正向波形预设阈值的采样点集合作为正向波形;将采样点的值连续小于负向波形预设阈值的采样点集合作为负向波形。用于判定波形方向的预设阈值可以根据音频数据采样点的统计特征进行灵活设定,例如计算音频数据所有正采样点值的平均值再乘以一个系数作为正向波形的预设阈值、所有负采样点值的平均值再乘以一个系数作为负向波形的预设阈值,计算音频数据所有正采样点值的中间值再乘以一个系数作为正向波形的预设阈值、所有负采样点值的中间值再乘以一个系数作为负向波形的预设阈值,也可以设置其他小于波形最大正采样点值的正数值作为正向波形的预设阈值、大于波形最小负采样点值的负数值作为负向波形的预设阈值,或者将正负向预设阈值均设置为0。进一步地,终端统计各个波形的采样点数,将各个波形的采样点数作为各个波形的宽度,得到音频数据的波形宽度特征序列。
在一个实施例中,波形宽度特征序列可以是单独的正向波形宽度特征序列,正向波形宽度特征序列包括音频数据中各个正向波形对应的波形宽度。例如,波形宽度特征序列为[32,19,……]。波形宽度特征序列也可以是单独的负向波形宽度特征序列,负向波形宽度特征序列包括音频数据中各个负向波形对应的波形宽度。例如,波形宽度特征序列为[-26,-30,……]。可以理解,这里为了区分正负波形的宽度,在负向波形宽度前加了负号,实际宽度为负数的绝对值。波形宽度特征序列还可以是双向波形宽度特征序列,双向波形宽度特征序列包括音频数据中各个正向波形和负向波形分别对应的波形宽度,各个波形宽度按照对应波形出现的顺序排列。例如,双向波形宽度特征序列为[32,-26,19,-30,……]。
步骤104,获取波形宽度特征序列对应的滑动重叠窗口,根据滑动重叠窗口的波形宽度特征进行匹配检测。
其中,当两个相同的波形宽度特征序列首尾相接、相向滑动时,两个波形宽度特征序列的重叠区域为滑动重叠窗口。
具体地,终端将两个相同的波形宽度特征序列首尾相接、相向滑动,根据两个波形宽度特征序列的重叠区域确定波形宽度特征序列对应的滑动重叠窗口,根据滑动重叠窗口对应的两个波形宽度特征子序列进行匹配检测,其中波形宽度特征子序列为波形宽度特征序列在滑动重叠窗口中的部分。
步骤106,当通过滑动重叠窗口检测得到音频数据的波形宽度特征序列中存在至少一组相同波形宽度特征序列片段时,确定各组相同波形宽度特征序列片段的位置信息。
其中,波形宽度特征序列片段是指波形宽度特征序列中的片段。一组相同波形宽度特征序列片段包括两个波形宽度特征序列片段,各个波形宽度特征序列片段的每个波形宽度特征值都相等。在滑动过程中,可以得到多个滑动重叠窗口。同一个滑动重叠窗口可以检测得到一组或多组相同波形宽度特征序列片段。同一个滑动重叠窗口可以检测得到各组相同波形宽度特征序列片段可以相同可以不同。不同的滑动重叠窗口可以分别检测得到一组或多组相同波形宽度特征序列片段。不同的滑动重叠窗口检测得到的各组相同波形宽度特征序列片段可以相同可以不同。波形宽度特征序列片段的位置信息包括波形宽度特征序列片段在波形宽度特征序列中的起始位置和终止位置以及在音频数据中对应的起始位置和终止位置中的至少一种。当波形宽度特征序列片段的位置信息为波形宽度特征序列片段在音频数据中对应的起始位置和终止位置时,起始位置由波形宽度特征序列片段对应的第一个波形决定,终止位置由波形宽度特征序列片段对应的最后一个波形决定。
具体地,终端通过滑动重叠窗口对音频数据的波形宽度特征序列进行匹配检测,当检测到音频数据中存在至少一组相同波形宽度特征序列片段时,确定各组相同波形宽度特征序列片段在波形宽度特征序列中的起始位置和终止位置,进一步确定各组相同波形宽度特征序列片段在音频数据中的起始位置和终止位置。例如,音频数据的波形宽度特征序列为[24,32,-25,17,28,37,24,32,-25,17],检测得到一组相同波形宽度特征序列片段[24,32,-25,17]。终端可以确定第一个波形宽度特征序列片段[24,32,-25,17]在音频数据中的起始位置为第一个波形,终止位置为第四个波形;第二个波形宽度特征序列片段[24,32,-25,17]在音频数据中的起始位置为第七个波形,终止位置为第十个波形。可以理解,当波形宽度特征序列是特定向波形宽度特征序列时,起始位置和终止位置指的是对应位置的特定向的波形。
步骤108,在音频数据中,根据各组相同波形宽度特征序列片段的位置信息确定对应的各组音频数据片段。
具体地,终端在确定各组相同波形宽度特征序列片段的位置信息后,可以根据各组位置信息从音频数据中提取得到各组相同波形宽度特征序列片段对应的各组音频数据片段。例如,从音频数据中提取得到第一个正向波形的起点到第四个正向波形的终点对应的音频数据片段。
步骤110,将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为音频数据中的语音复制片段。
其中,语音复制片段是指音频数据中通过复制粘贴得到的语音片段。具体包括直接复制粘贴得到的语音片段,以及通过复制、等比缩放后再进行粘贴得到的语音片段。
具体地,终端对提取得到的各组音频数据片段分别进行校验。在同组音频数据片段内,终端对各个音频数据片段之间对应采样点的值进行校验。终端将校验成功的各组音频数据片段作为音频数据中的语音复制片段。
在一个实施例中,当语音复制片段是直接复制粘贴得到的语音片段时,校验成功的条件可以为相同位置下,各个音频数据片段的采样点的值相等。例如,一组音频数据片段包括音频数据片段a(1,2,3,4,5)和音频数据片段b为(1,2,3,4,5),由于音频数据片段a(1,2,3,4,5)和音频数据片段b为(1,2,3,4,5)相同位置的采样点的值相等,因此可以将音频数据片段a和音频数据片段b作为音频数据中的语音复制片段。当语音复制片段是通过复制、等比缩放后再进行粘贴得到的语音片段时,校验成功的条件可以为相同位置下,各个音频数据片段的采样点的值呈一定比例。例如,一组音频数据片段包括音频数据片段a为(1,2,3,4,5)和音频数据片段b为(2,4,6,8,10),音频数据片段a为(1,2,3,4,5)和音频数据片段b为(2,4,6,8,10)相同位置的采样点呈相同比例,因此可以将音频数据片段a和音频数据片段b作为音频数据中的语音复制片段。
上述语音检测方法中,通过获取音频数据,对音频数据进行波形特征提取,得到音频数据的波形宽度特征序列;获取波形宽度特征序列对应的滑动重叠窗口,根据滑动重叠窗口的波形宽度特征进行匹配检测;当通过滑动重叠窗口检测得到音频数据的波形宽度特征序列中存在至少一组相同波形宽度特征序列片段时,确定各组相同波形宽度特征序列片段的位置信息;在音频数据中,根据各组相同波形宽度特征序列片段的位置信息确定对应的各组音频数据片段;将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为音频数据中的语音复制片段。与传统方案对全部语音采样数据进行复制片段匹配检测不同,上述方法通过提取得到的波形宽度特征序列对音频数据进行预检测,从音频数据中提取得到可能是复制片段的音频片段,再对音频片段进一步地校验,能够在保证检测准确性的同时,减少匹配检测的计算量,减少检测时间,提高检测效率。
在一个实施例中,如图3所示,对音频数据进行波形特征提取,得到音频数据的波形宽度特征序列,包括:
步骤302,根据音频数据各个采样点的值及其连续性,将音频数据划分得到各个子波形,各个子波形按其中采样点的个数定义波形宽度,按其中采样点的值定义波形方向,波形方向包括正向波形和负向波形。
步骤304,统计各个子波形对应的采样点数,得到各个子波形对应的波形宽度特征。
步骤306,根据各个子波形的波形方向和各个子波形对应的波形宽度特征得到波形宽度特征序列,波形宽度特征序列包括正向波形宽度特征序列、负向波形宽度特征序列和双向波形宽度特征序列。
其中,子波形是指音频数据信号中的一个波。波形方向由采样点的值决定,波形方向包括正向波形和负向波形。当子波形中各个采样点的值大于正向波形预设阈值时,该子波形的波形方向为正向波形。当子波形中各个采样点的值小于负向波形预设阈值时,该子波形的波形方向为负向波形。
具体地,终端在获取到音频数据之后,可以根据音频数据各个采样点的值及其连续性,将音频数据划分得到各个子波形。如图2所示,根据各个采样点的值及其连续性,终端可以将音频数据划分得到多个子波形,可以设定正负向波形预设阈值均为0,将采样点的值连续大于0的各个采样点组成正向波形,将采样点的值连续小于0的各个采样点组成负向波形。终端统计各个子波形对应的采样点数,得到各个子波形对应的波形宽度特征。例如,一个子波形为正向波形,该子波形包括25个采样点,那么该子波形对应的波形宽度特征为25。
终端根据各个子波形的波形方向和各个子波形对应的波形宽度特征得到波形宽度特征序列。为了区分正向波形和负向波形,当波形为正向波形时,可以在子波形对应的采样点数前加上正号;当波形为负向波形时,可以在子波形对应的采样点数前加上负号。在其他实施例中,终端也可以通过其他方式来区分正向波形和负向波形。
本实施例中,通过音频数据各个采样点的值和采样点数,能够提取得到音频数据的波形宽度特征序列,通过波形宽度特征序列可以快速地检测到音频数据中可能是语音复制片段的音频片段,减少语音复制片段检测的计算量,提高语音复制片段检测的效率。
在一个实施例中,如图4所示,对音频数据进行波形特征提取,得到音频数据的波形宽度特征序列,包括:
步骤402,根据采样点的值大于正向波形预设阈值的各个采样点,从音频数据中提取得到多个正向波形,统计各个正向波形对应的采样点数,得到正向波形宽度特征序列。
具体地,终端在获取到音频数据之后,将各个采样点的值和正向波形预设阈值进行比较,可以从音频数据中提取得到多个正向波形。即将音频数据中连续大于正向波形预设阈值的各个采样点组成音频数据的一个正向波形。终端统计各个正向波形中的采样点数,将各个正向波形对应的采样点数作为正向波形宽度特征序列。例如,正向波形宽度特征序列为[31,23,18,……]。
步骤404,根据采样点的值小于负向波形预设阈值的各个采样点,从音频数据中提取得到多个负向波形,统计各个负向波形对应的采样点数,得到负向波形宽度特征序列。
具体地,终端在获取到音频数据之后,将各个采样点的值和负向波形预设阈值进行比较,可以从音频数据中提取得到多个负向波形。即将音频数据中连续小于负向波形预设阈值的采样点组成音频数据的一个负向波形。终端统计各个负向波形中的采样点数,将各个负向波形对应的采样点数作为负向波形宽度特征。例如,负向波形宽度特征序列为[-25,-33,-28,……]。
步骤406,统计各个正向波形对应的采样点数和各个负向波形对应的采样点数,得到双向波形宽度特征序列。
具体地,终端在获取到音频数据之后,将各个采样点的值分别和正负向波形预设阈值进行比较,可以从音频数据中提取得到多个正向波形和负向波形。终端统计各个正向波形和负向波形中的采样点数,将各个正向波形和负向波形对应的采样点数作为双向波形宽度特征。例如,双向波形宽度特征序列为[31,25,-33,-28,11,-15,……]。
在本实施例中,通过音频数据各个采样点的值和采样点数,能够提取得到音频数据的正向波形宽度特征序列、负向波形宽度特征序列和双向波形宽度特征序列。通过任意一种波形宽度特征序列都能够快速地检测到音频数据中可能是语音复制片段的音频片段,减少语音复制片段检测的计算量,提高语音复制片段检测的效率。
在一个实施例中,如图5所示,获取波形宽度特征序列对应的滑动重叠窗口,根据滑动重叠窗口的波形宽度特征进行匹配检测,包括:
步骤502,获取波形宽度特征复制序列;波形宽度特征复制序列和波形宽度特征序列为相同序列。
步骤504,将波形宽度特征序列和波形宽度特征复制序列首尾相接,开始相向滑动,将波形宽度特征序列和波形宽度特征复制序列在滑动过程中重叠区域作为滑动重叠窗口。
步骤506,在当前滑动重叠窗口中,计算波形宽度特征序列对应的第一子特征序列和波形宽度特征复制序列对应的第二子特征序列的差值,得到当前滑动重叠窗口对应的波形宽度特征差值序列。
步骤508,获取波形宽度特征差值序列中符合预设差值的片段位置对应的第一子特征序列片段和第二子特征序列片段,将第一子特征序列片段和第二子特征序列片段作为相同波形宽度特征序列片段。
具体地,终端可以复制波形宽度特征序列,得到波形宽度特征复制序列,将波形宽度特征序列和波形宽度特征复制序列首尾相接,开始相向滑动,其中滑动重叠窗口为波形宽度特征序列和波形宽度特征复制序列在滑动过程中的重叠区域。参考图6,特征序列和特征序列副本的重叠部分为滑动重叠窗口。在滑动重叠窗口中,终端计算波形宽度特征序列对应的第一子特征序列和波形宽度特征复制序列对应的第二子特征序列的差值,得到当前滑动重叠窗口的波形宽度特征差值序列。参考图6,将滑动重叠窗口中特征序列对应的子序列和特征序列副本对应的子序列相减,得到特征差值序列。终端获取波形宽度特征差值序列中符合预设差值的片段位置对应的第一子特征序列片段和第二子特征序列片段,将第一子特征序列片段和第二子特征序列片段作为一组相同波形宽度特征序列片段。参考图6,预设差值可以设置为0,特征差值序列中包含的全零片段即为特征差值序列中等于预设差值0的片段,片段的长度可以为1及以上,将特征差值序列中全零片段对应的特征序列中的子序列片段和特征序列副本中的子序列片段作为一组相同波形宽度特征序列片段。
可以理解,在滑动过程中,可以得到多个滑动重叠窗口。不同滑动重叠窗口的波形宽度特征差值序列中可以分别存在不同的符合预设差值的片段。同一个滑动重叠窗口的波形宽度特征差值序列中也可以存在不止一个符合预设差值的片段。例如,音频数据的波形宽度特征序列为[24,32,23,16,28,37,24,32,25,17,32,28,37,15,29,25,17,32,13],将波形宽度特征序列a([24,32,23,16,28,37,24,32,25,17,32,28,37,15,29,25,17,32,13])和波形宽度特征复制序列b([24,32,23,16,28,37,24,32,25,17,32,28,37,15,29,25,17,32,13])首尾相接、相向滑动。在滑动过程中,存在一个滑动重叠窗口使得波形宽度特征序列a中的第一个[24,32]片段和波形宽度特征复制序列b中的第二个[24,32]片段重叠,该滑动重叠窗口的波形宽度特征差值序列对应[24,32]片段的差值序列片段为符合预设差值0的全零片段[0,0],因此可以确定该滑动重叠窗口中存在一组相同波形宽度特征序列片段[24,32]。在滑动过程中,还存在另一个滑动重叠窗口使得波形宽度特征序列a的片段[28,37,24,32,25,17,32]和波形宽度特征复制序列b的片段[28,37,15,29,25,17,32]重叠,该滑动重叠窗口的波形宽度特征差值序列对应上面两个波形宽度特征序列片段的差值序列片段为[0,0,9,3,0,0,0],其中包含两个符合预设差值0的全零片段,一个为波形宽度特征序列片段[28,37]对应的差值序列片段[0,0],另一个为波形宽度特征序列片段[25,17,32]对应的差值序列片段[0,0,0],因此可以确定当前滑动重叠窗口中存在两组相同的波形宽度特征序列片段,分别为[28,37]和[25,17,32]。综上,在音频数据的波形宽度特征序列中存在三组波形宽度特征复制片段,分别为[24,32]、[28,37]、[25,17,32]。
在本实施例中,通过根据滑动重叠窗口的波形宽度特征进行匹配检测,可以快速提取得到相同波形宽度特征序列片段,可以有效保障提取到全部的相同波形宽度特征序列片段。
在一个实施例中,将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为所述音频数据中的语音复制片段,包括:在同一组音频数据片段中,当当前音频片段的各个待匹配采样点的值与其他音频片段的各个待匹配采样点的值对应相等时,确定当前音频片段和其他音频片段为一组语音复制片段,将各组语音复制片段作为音频数据中的语音复制片段。
具体地,一组音频数据片段包括两个音频数据片段,其中一个音频数据片段作为当前音频数据片段,另一个音频数据片段作为其他音频数据片段。在同一组音频数据片段中,终端将两个音频数据片段的各个待匹配采样点对应地进行匹配。例如,一组音频数据片段包括音频数据片段a和音频数据片段b。音频数据片段a的待匹配采样点包括(1,2,3,4,5),音频数据片段b的待匹配采样点包括(1,2,3,4,5),音频数据片段a和音频数据片段b中相同位置上的待匹配采样点的值相等,那么,终端可以将音频数据片段a和音频数据片段b作为一组语音复制片段。各组音频数据片段分别进行校验,得到多组语音复制片段,将各组语音复制片段作为音频数据中的语音复制片段。
在本实施例中,通过对提取得到的可能是语音复制片段的音频片段进一步检测,能够提高语音复制片段检测的准确性,并且,检测的音频片段是通过波形宽度特征序列预检测得到的,相比于传统方案,能够减少检测的计算量,提高检测效率。
在一个实施例中,将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为所述音频数据中的语音复制片段,包括:在同一组音频数据片段中,当当前音频片段的各个待匹配采样点的值与其他音频片段的各个待匹配采样点的值呈比例关系时,确定当前音频片段和其他音频片段为一组语音复制片段,将各组语音复制片段作为音频数据中的语音复制片段。
具体地,在同一组音频数据片段中,终端将两个音频数据片段的各个待匹配采样点对应地进行匹配。例如,一组音频数据片段包括音频数据片段a和音频数据片段b。音频数据片段a的待匹配采样点包括(1,2,3,4,5),音频数据片段b的待匹配采样点包括(2,4,6,8,10),音频数据片段b中各个待匹配采样点的值都是音频数据片段a中对应位置上的待匹配采样点的值的两倍,那么,终端可以将音频数据片段a和音频数据片段b作为一组语音复制片段。各组音频数据片段分别进行校验,得到多组语音复制片段,将各组语音复制片段作为音频数据中的语音复制片段。
在一个实施例中,当前音频数据片段与其他音频数据片段中各个待匹配采样点的值呈比例关系也可以是分段呈现。例如,音频数据片段a的待匹配采样点包括(1,2,3,4,5,6,7,8,9,10),音频数据片段b的待匹配采样点包括(3,6,9,12,15,12,14,16,18,20)。对于前5个采样点,音频数据片段b的待匹配采样点的值是音频数据片段a中对应位置上的待匹配采样点的值的3倍。对于后5个采样点,音频数据片段b的待匹配采样点的值是音频数据片段a中对应位置上的待匹配采样点的值的2倍。
在本实施例中,通过对提取得到的可能是语音复制片段的音频片段进一步检测,能够提高语音复制片段检测的准确性,并且,检测的音频片段是通过波形宽度特征序列预检测得到的,相比于传统方案,能够减少检测的计算量,提高检测效率。
在一个实施例中,如图7所示,确定当前音频片段和其他音频片段为一组语音复制片段之后,所述方法还包括:
步骤702,在音频数据中,获取当前音频片段的相邻采样点和其他音频片段的相邻采样点。
步骤704,将当前音频片段的相邻采样点和其他音频片段的相邻采样点对应匹配。
步骤706,当匹配成功时,将当前音频片段与当前音频片段的相邻采样点合并得到扩展后的当前音频片段,将其他音频片段与其他音频片段的相邻采样点合并得到扩展后的其他音频片段。
步骤708,将扩展后的当前音频片段和扩展后的其他音频片段作为一组语音复制片段。
其中,音频片段相邻采样点指的是在音频数据中,音频数据片段的前续相邻采样点和后续相邻采样点。前续相邻采样点是在音频数据中,音频数据片段第一个采样点之前的一定范围内的采样点。后续相邻采样点是在音频数据中,音频数据片段最后一个采样点之后的一定范围内的采样点。
具体地,在同一组音频数据片段中,若当前音频数据片段和其他音频数据片段匹配成功后,终端在音频数据中获取当前音频数据片段前续相邻的第一个采样点和后续相邻的第一个采样点、其他音频数据片段前续相邻的第一个采样点和后续相邻的第一个采样点,将当前音频数据片段前续相邻的第一个采样点与其他音频数据片段前续相邻的第一个采样点进行校验,将当前音频数据片段后续相邻的第一个采样点与其他音频数据片段后续相邻的第一个采样点进行校验。例如,若当前音频数据片段前续相邻的第一个采样点与其他音频数据片段前续相邻的第一个采样点的值相同时,确定校验成功。
当当前音频数据片段前续相邻的第一个采样点和其他音频数据片段前续相邻的第一个采样点校验成功时,终端继续在音频数据中获取当前音频数据片段前续相邻的上一个采样点和其他音频数据片段前续相邻的上一个采样点,将当前音频数据片段前续相邻的上一个采样点与其他音频数据片段前续相邻的上一个采样点进行校验。持续从音频数据中获取当前音频数据片段的前续相邻采样点和其他音频数据片段的前续相邻采样点,将当前音频数据片段的前续相邻采样点和其他音频数据片段的前续相邻采样点对应校验,直至校验失败。
同样地,当当前音频数据片段后续相邻的第一个采样点和其他音频数据片段后续相邻的第一个采样点校验成功时,终端继续在音频数据中获取当前音频数据片段后续相邻的下一个采样点和其他音频数据片段后续相邻的下一个采样点,将当前音频数据片段后续相邻的下一个采样点与其他音频数据片段后续相邻的下一个采样点进行校验。持续从音频数据中获取当前音频数据片段的后续相邻采样点和其他音频数据片段的后续相邻采样点,将当前音频数据片段的后续相邻采样点和其他音频数据片段的后续相邻采样点对应校验,直至校验失败。
进一步地,终端将校验成功的当前音频片段的前续相邻采样点以及后续相邻采样点与当前音频片段合并,将校验成功的其他音频片段的前续相邻采样点以及后续相邻采样点与其他音频片段合并,将合并后的当前音频片段和合并后的其他音频片段作为一组语音复制片段,作为音频数据中的语音复制片段。
举例说明,假设音频数据为(1,6,8,2,7,10,……,-17,-8,-5,-1,2,8,2,7,10,……,-17,-8,-6……),当前音频数据片段为(10,……,-17),其他音频数据片段为(10,……,-17),当前音频数据片段与其他音频数据片段已确定校验成功。那么,通过上述方法,可以得到扩展后的当前音频数据片段和其他音频数据片段为(8,2,7,10,……,-17,-8)那么,将音频片段(8,2,7,10,……,-17,-8)作为音频数据中的语音复制片段。
在本实施例中,通过在音频数据中获取当前音频片段的相邻采样点和其他音频片段的相邻采样点,将当前音频片段的相邻采样点和其他音频片段的相邻采样点对应校验,将校验成功的相邻采样点和当前音频片段、其他音频片段对应合并,将合并后的当前音频片段和合并后的其他音频片段作为音频数据中的语音复制片段,能够避免检测遗漏,提高语音复制检测的完整性。
在一个具体的实施例中,如图8所示,提供了一种语音检测方法,该方法包括以下步骤:
1、特征提取
终端获取音频数据,对音频数据进行波形特征提取,得到音频数据的正向波形宽度特征序列。具体可以是根据音频数据各个采样点的值及其连续性,将音频数据划分得到各个子波形,各个子波形按其中采样点的个数定义波形宽度,按其中采样点的值定义波形方向,波形方向包括正向波形和负向波形。统计音频数据中所有正向波形的采样点数,得到音频数据的正向波形宽度特征序列。同理也可根据需要得到负向波形宽度特征序列或双向波形宽度特征序列。通过波形宽度特征序列对音频数据进行预检测,可以大大降低检测的数据量。
2、特征匹配
终端对提取到的正向波性特征序列进行滑窗匹配,当匹配到至少一组相同的波形特征序列片段时,对各组波形特征序列片段内的两个波形特征序列片段的起始与结束位置进行记录。
3、复制片段定位
终端通过各组波形特征序列片段内的两个相同波形特征序列片段的位置信息,在音频数据中定位各组波形特征序列片段对应的各组候选语音复制片段。
4、数据校验
终端对各组候选语音复制片段中的两个候选语音复制片段进行数据校验,确定各组目标语音复制片段,以确保复制检测的准确性。校验分为两种:一种为两个候选语音复制片段为完全相同的片段,一种为两个候选语音复制片段为等比缩放的片段。
5、边界拓展
终端对各组目标语音复制片段进行边缘扩展,对边缘扩展部分进行数据校验,以确保语音复制片段的完整性。
在本实施例中,提取得到音频数据的波形宽度特征序列,通过检测波形宽度特征序列可以得到音频数据中波形宽度特征序列相同的音频片段。由于波形宽度特征序列的数据量比音频数据的数据量小,所以,相比于音频数据,波形宽度特征序列的检测效率更快。并且,波形宽度特征序列的检测实际上是对音频数据做了筛选,从音频数据中筛选得到可能是语音复制片段的音频片段,再对筛选得到的音频片段进行采样点的精确检测,从筛选得到的音频片段中确定语音复制片段,减少精确检测的计算量,提高检测效率。进一步地,将确定为语音复制片段的音频片段的相邻采样点进行匹配,根据匹配结果对语音复制片段进行边界扩展,进一步提高语音复制片段检测的完整性。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种语音检测装置,包括:特征提取模块902、特征匹配模块904、音频片段提取模块906和音频片段匹配模块908,其中:
特征提取模块902,用于获取音频数据,对音频数据进行波形特征提取,得到音频数据的波形宽度特征序列。
特征匹配模块904,用于获取波形宽度特征序列对应的滑动重叠窗口,根据滑动重叠窗口的波形宽度特征进行匹配检测;当通过滑动重叠窗口检测得到音频数据的波形宽度特征序列中存在至少一组相同波形宽度特征序列片段时,确定各组相同波形宽度特征序列片段的位置信息。
音频片段提取模块906,用于在音频数据中,根据各组相同波形宽度特征序列片段的位置信息确定对应的各组音频数据片段。
音频片段匹配模块908,用于将各组音频数据片段分别进行校验,将校验成功的音频数据片段作为音频数据中的语音复制片段。
在一个实施例中,特征提取模块还用于根据音频数据各个采样点的值及其连续性,将音频数据划分得到各个子波形,各个子波形按其中采样点的个数定义波形宽度,按其中采样点的值定义波形方向,波形方向包括正向波形和负向波形;统计各个子波形对应的采样点数,得到各个子波形对应的波形宽度特征;根据各个子波形的波形方向和所述各个子波形对应的波形宽度特征得到波形宽度特征序列,波形宽度特征序列包括正向波形宽度特征序列、负向波形宽度特征序列和双向波形宽度特征序列。
在一个实施例中,特征提取模块还用于根据采样点的值大于正向波形预设阈值的各个采样点,从音频数据中提取得到多个正向波形,统计各个正向波形对应的采样点数,得到正向波形宽度特征序列;根据采样点的值小于负向波形预设阈值的各个采样点,从音频数据中提取得到多个负向波形,统计各个负向波形对应的采样点数,得到负向波形宽度特征序列;统计各个正向波形对应的采样点数和各个负向波形对应的采样点数,得到双向波形宽度特征序列。
在一个实施例中,特征匹配模块还用于获取波形宽度特征复制序列;波形宽度特征复制序列和波形宽度特征序列为相同序列;将波形宽度特征序列和波形宽度特征复制序列首尾相接,开始相向滑动,将波形宽度特征序列和波形宽度特征复制序列在滑动过程中重叠区域作为所述滑动重叠窗口;在当前滑动重叠窗口中,计算波形宽度特征序列对应的第一子特征序列和波形宽度特征复制序列对应的第二子特征序列的差值,得到当前滑动重叠窗口对应的波形宽度特征差值序列;获取波形宽度特征差值序列中符合预设差值的片段位置对应的第一子特征序列片段和第二子特征序列片段,将第一子特征序列片段和第二子特征序列片段作为相同波形宽度特征序列片段。
在一个实施例中,音频片段匹配模块还用于在同一组音频数据片段中,当当前音频片段的各个待匹配采样点的值与其他音频片段的各个待匹配采样点的值对应相等时,确定所述当前音频片段和所述其他音频片段为一组语音复制片段,将各组语音复制片段作为所述音频数据中的语音复制片段。
在一个实施例中,音频片段匹配模块还用于在同一组音频数据片段中,当当前音频片段的各个待匹配采样点的值与其他音频片段的各个待匹配采样点的值呈比例关系时,确定所述当前音频片段和所述其他音频片段为一组语音复制片段,将各组语音复制片段作为所述音频数据中的语音复制片段。
在一个实施例中,音频片段匹配模块还用于在音频数据中,获取当前音频片段的相邻采样点和其他音频片段的相邻采样点;将当前音频片段的相邻采样点和其他音频片段的相邻采样点对应匹配;当匹配成功时,将当前音频片段与当前音频片段的相邻采样点合并得到扩展后的当前音频片段,将其他音频片段与其他音频片段的相邻采样点合并得到扩展后的其他音频片段;将扩展后的当前音频片段和扩展后的其他音频片段作为一组语音复制片段。
关于语音检测装置的具体限定可以参见上文中对于语音检测方法的限定,在此不再赘述。上述语音检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,也可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除