音频拼接检测方法、系统、移动终端及存储介质与流程

2021-01-28 15:01:10|

301|

起点商标网

本发明音频检测技术领域，尤其涉及一种音频拼接检测方法、系统、移动终端及存储介质。

背景技术：

声纹识别技术是实现通过声音来判断说话人身份的技术，主要应用于银行、金融和安防等领域，声纹识别技术有成本低，效率高等特点，并且易于部署在各种嵌入式设备当中。

但是由于声音容易被手机或录音笔等录音设备录制，导致由声纹识别构成的身份验证系统容易受到不法分子的攻击，常见的攻击方式有录音重放、语音合成、语音生成和语音转换等技术，而录音重放攻击方式需要通过剪辑用户的原始音频，然后拼接成为系统所需要的文本形式，因此，声纹识别系统使用过程中，针对音频的拼接检测就尤为重要。

现有的音频拼接检测方法均需要人工进行声波特征选择后，通过采用声波匹配的方式，以对应进行待测音频的拼接检测，即通过基于人工声波特征的选取，以使将待测音频的声波与预设声波进行波纹匹配，以得到音频拼接检测结果，但由于基于人工特征选取的声波匹配方式使得音频拼接检效率低下，且音频拼接检测精准度差。

技术实现要素：

本发明实施例的目的在于提供一种音频拼接检测方法、系统、移动终端及存储介质，旨在解决现有的音频拼接检测方法使用过程中，由于采用cosine公式或欧式距离公式进行声纹向量的相似度比对，所导致的声纹识别准确性低下的问题。

本发明实施例是这样实现的，一种音频拼接检测方法，所述方法包括：

获取原始音频数据，并分别对所述原始音频数据中的原始音频进行切分，得到切分音频；

对所述切分音频进行拼接，得到拼接音频，分别对所述拼接音频和所述原始音频进行音频特征提取，得到拼接音频特征和原始音频特征；

分别对所述原始音频特征和所述拼接音频特征进行归一化处理，并根据归一化处理后的所述原始音频特征和所述拼接音频特征对预设循环神经网络进行训练，得到音频检测模型；

将待测音频输入所述音频检测模型，并控制所述音频检测模型进行音频拼接检测，以输出检测结果。

更进一步的，所述分别对所述原始音频数据中的原始音频进行切分的步骤包括：

根据预设切分数量分别对每个所述原始音频进行随机切分，得到所述切分音频；

具体的，所述对所述切分音频进行拼接的步骤包括：

根据所述预设切分数量对所述切分音频进行抽取，将抽取到的所述切分音频进行拼接，得到所述拼接音频。

更进一步的，所述分别对所述原始音频特征和所述拼接音频特征进行归一化处理的步骤包括：

分别对所述原始音频特征和所述拼接音频特征进行数值标准化处理，以得到原始音频原数值和拼接音频原数值；

分别对所述原始音频原数值和所述拼接音频原数值进行平均值计算和标准差计算，以得到原始音频平均值、原始音频标准差、拼接音频平均值和拼接音频标准差；

根据标准化计算公式分别对所述原始音频原数值和所述拼接音频原数值进行计算，以得到原始音频归一值和拼接音频归一值。

更进一步的，所述据归一化处理后的所述原始音频特征和所述拼接音频特征对预设循环神经网络进行训练的步骤包括：

将所述原始音频归一值设置为正样本，并所述拼接音频归一值设置为负样本；

根据所述正样本和所述负样本对所述预设循环神经网络进行模型训练，并对所述预设循环神经网络进行损失计算，得到损失值；

根据所述损失值对所述预设循环神经网络进行优化迭代，直至所述预设循环神经网络满足预设结束条件，将所述预设循环神经网络进行输出，得到所述音频检测模型。

更进一步的，所述检测结果包括原始音频分数值和拼接音频分数值，所述输出检测结果的步骤之后，所述方法还包括：

采用softmax函数对所述原始音频分数值和所述拼接音频分数值进行概率计算，以得到拼接概率值；

若所述拼接概率小于概率阈值，则判定所述待测音频是拼接的音频。

更进一步的，所述分别对所述拼接音频和所述原始音频进行音频特征提取的步骤包括：

分别对所述拼接音频和所述原始音频进行短时傅里叶变换处理，得到拼接stft特征和原始stft特征。

本发明实施例的另一目的在于提供一种音频拼接检测系统，所述系统包括：

音频切分模块，用于获取原始音频数据，并分别对所述原始音频数据中的原始音频进行切分，得到切分音频；

音频拼接模块，用于对所述切分音频进行拼接，得到拼接音频，分别对所述拼接音频和所述原始音频进行音频特征提取，得到拼接音频特征和原始音频特征；

模型训练模块，用于分别对所述原始音频特征和所述拼接音频特征进行归一化处理，并根据归一化处理后的所述原始音频特征和所述拼接音频特征对预设循环神经网络进行训练，得到音频检测模型；

音频检测模块，用于将待测音频输入所述音频检测模型，并控制所述音频检测模型进行音频拼接检测，以输出检测结果。

更进一步的，所述音频切分模块还用于：

根据预设切分数量分别对每个所述原始音频进行随机切分，得到所述切分音频。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的音频拼接检测方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的音频拼接检测方法的步骤。

本发明实施例，无需进行人工特征选择，通过所述音频检测模型自动学习最合适的音频特征来作为判断是否为拼接音频的方式，提高了特征的代表性，进而提高了音频拼接检测效率和音频拼接检测的准确性，通过拼接切分音频的方式来生成拼接音频，使得根据较少的原始音频数据可以生成大量的训练数据，提高了数据的收集效率，节省了数据采集时间。

附图说明

图1是本发明第一实施例提供的音频拼接检测方法的流程图；

图2是本发明第二实施例提供的音频拼接检测方法的流程图；

图3是本发明第三实施例提供的音频拼接检测方法的流程图；

图4是本发明第四实施例提供的音频拼接检测系统的结构示意图；

图5是本发明第五实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的音频拼接检测方法的流程图，包括步骤：

步骤s10，获取原始音频数据，并分别对所述原始音频数据中的原始音频进行切分，得到切分音频；

其中，该原始音频数据为真实音频数据，该原始音频数据中原始音频的音频数量和音频时长可以根据需求进行设置，例如，该音频数量可以设置为5千条、1万条或2万条等，该音频时长可以设置为3秒、4秒或5秒等，不同原始音频之间的音频时长可以不相同，但所有原始音频的音频时长均在预设时长范围内。

可选的，该步骤中，若检测到任一原始音频的音频时长不在该预设时长范围内，则对该原始音频进行音频裁剪或音频填充，以使音频裁剪或音频填充后原始音频的音频时长在该预设时长范围内。

进一步的，该步骤中，通过分别对原始音频进行切分得到切分音频的设计，有效的方便了后续拼接音频生成，进而保障了后续预设循环神经网络的训练数据。

步骤s20，对所述切分音频进行拼接，得到拼接音频，分别对所述拼接音频和所述原始音频进行音频特征提取，得到拼接音频特征和原始音频特征；

其中，通过随机对该切分音频进行拼接，以得到该拼接音频，该拼接音频用于作为预设循环神经网络的负样本数据，以保障该预设循环神经网络的训练效果；

可选的，该步骤中，可以通过采用函数计算公式或函数矩阵等方式，以自动进行该拼接音频和原始音频的音频特征的提取，该音频特征可以根据需求进行选择，例如，可以提取该拼接音频和原始音频中的stft特征、mfcc特征或语谱图特征等。

步骤s30，分别对所述原始音频特征和所述拼接音频特征进行归一化处理，并根据归一化处理后的所述原始音频特征和所述拼接音频特征对预设循环神经网络进行训练，得到音频检测模型；

其中，通过对所述原始音频特征和所述拼接音频特征进行归一处理的设计，有效的降低了极值或者噪声对音频特征的影响，进而提高了所述音频检测模型训练数据的准确性；

该步骤中，通过将所有经归一化处理后的原始音频特征作为正样本数据、拼接音频特征作为负样本数据编写入预设循环神经网络中进行训练，以得到音频检测模块。

具体的，该原始音频特征的标签设置为1，拼接音频特征的标签设置为0，并将该拼接音频特征进行随机排序，将75％的总样本数据设置为训练集，15％的总样本数据设置为测试集对该预设循环神经网络进行训练，以得到音频检测模型；

可选的，该预设循环神经网络可以为gru循环神经网络，该gru循环神经网络包括3层lstm结构，隐藏层神经元个数300。

步骤s40，将待测音频输入所述音频检测模型，并控制所述音频检测模型进行音频拼接检测，以输出检测结果；

其中，该音频检测模型为一个二分类的模型，该音频检测模型的输出结果为两个数值，第一个数值是待测音频是拼接音频的分数，第二个数值是待测音频为原始音频的分数，本实施例中，通过使用gru网络来作为网络结构，使得可以充分利用时序方面的信息，结合前后的信息来做出概率的判断，而音频数据恰好就是建立在时序关系上面的，将所有的训练集的音频特征输入到网络当中，输出的就是每个音频特征数据对应的二分类数值。

本实施例，无需进行人工特征选择，通过所述音频检测模型自动学习最合适的音频特征来作为判断是否为拼接音频的方式，提高了特征的代表性，进而提高了音频拼接检测效率和音频拼接检测的准确性，通过拼接切分音频的方式来生成拼接音频，使得根据较少的原始音频数据可以生成大量的训练数据，提高了预设循环神经网络训练过程中数据的收集效率，节省了数据采集时间。

实施例二

请参阅图2，是本申请第二实施例提供的音频拼接检测方法的流程图，包括步骤：

步骤s11，获取原始音频数据，并根据预设切分数量分别对每个所述原始音频进行随机切分，得到切分音频；

其中，该预设切分数量可以根据需求进行设置，例如，该预设切分数量可以设置为4、5或10等；

优选的，本实施例中，该预设切分数量设置为5，即将分别将每个原始音频随机切分为5个切分音频，当该原始音频数据中原始音频的数量为n个时，则切分得到的切分音频数量为5n。

步骤s21，根据所述预设切分数量对所述切分音频进行抽取，将抽取到的所述切分音频进行拼接，得到拼接音频；

其中，分别在所有切分音频中抽取5个切分音频，并将每次抽取到的5个切分音频进行拼接，以得到该拼接音频；

可选的，该步骤中，还可以通过分别在每个原始音频中抽取一个切分音频，并根据抽取结果进行音频拼接，以得到n个数量的拼接音频。

具体的，该步骤中，通过将抽取到的切分音频进行拼接得到拼接音频的设计，有效的保障了对预设循环神经网络的训练效果。

步骤s31，分别对所述拼接音频和所述原始音频进行短时傅里叶变换处理，得到拼接stft特征和原始stft特征；

可选的，该步骤中，可以直接采用python的kaldi工具库分别对该拼接音频和原始音频进行特制提取，以将拼接音频和原始音频转化为257维的stft特征。

步骤s41，分别对所述拼接stft特征和所述原始stft特征进行归一化处理，并根据归一化处理后的所述拼接stft特征和所述原始stft特征对预设循环神经网络进行训练，得到音频检测模型；

其中，通过对原始stft特征和stft音频特征进行归一处理的设计，有效的降低了极值或者噪声对音频特征的影响，进而提高了音频检测模型训练数据的准确性。

步骤s51，将待测音频输入所述音频检测模型，并控制所述音频检测模型进行音频拼接检测，以输出检测结果；

其中，所述检测结果包括原始音频分数值和拼接音频分数值。

步骤s61，采用softmax函数对所述原始音频分数值和所述拼接音频分数值进行概率计算，以得到拼接概率值；

其中，通过softmax函数将所述音频检测模型输出层输出的两个数值转为概率，概率的意义为待测音频是真实音频的概率值和为拼接音频的概率值，softmax函数计算方式用意在于可以将音频检测模型输出的数值转为0-1的范围中，因此，本实施例可以根据该0-1的概率值直接判定该待测音频是否是拼接的音频。

步骤s71，若所述拼接概率小于概率阈值，则判定所述待测音频是拼接的音频。

本实施例，无需进行人工特征选择，通过所述音频检测模型自动学习最合适的音频特征来作为判断是否为拼接音频的方式，提高了特征的代表性，进而提高了音频拼接检测效率和音频拼接检测的准确性，通过拼接切分音频的方式来生成拼接音频，使得根据较少的原始音频数据可以生成大量的训练数据，提高了数据的收集效率，节省了数据采集时间。

实施例三

请参阅图3，是本申请第三实施例提供的音频拼接检测方法的流程图，该第三实施例用于对第一实施例中步骤s30进行细化，以细化描述如何分别对所述原始音频特征和所述拼接音频特征进行归一化处理，并根据归一化处理后的所述原始音频特征和所述拼接音频特征对预设循环神经网络进行训练，得到音频检测模型的步骤，包括步骤：

步骤s301，分别对所述原始音频特征和所述拼接音频特征进行数值标准化处理，以得到原始音频原数值和拼接音频原数值；

其中，通过原始音频原数值和拼接音频原数值的计算，有效的方便了后续针对原始音频特征和拼接音频特征的归一处理；

步骤s302，分别对所述原始音频原数值和所述拼接音频原数值进行平均值计算和标准差计算，以得到原始音频平均值、原始音频标准差、拼接音频平均值和拼接音频标准差；

步骤s303，根据标准化计算公式分别对所述原始音频原数值和所述拼接音频原数值进行计算，以得到原始音频归一值和拼接音频归一值；

其中，所述标准化计算公式为：

d1＝(a1-b1)/c1；

其中，a1为所述原始音频原数值、b1为所述原始音频平均值、c1为所述原始音频标准差、d1为所述原始音频归一值；

d2＝(a2-b2)/c2；

其中，a2为所述拼接音频原数值、b2为所述拼接音频平均值、c2为所述拼接音频标准差、d2为所述拼接音频归一值。

步骤s304，将所述原始音频归一值设置为正样本，并所述拼接音频归一值设置为负样本；

步骤s305，根据所述正样本和所述负样本对所述预设循环神经网络进行模型训练，并对所述预设循环神经网络进行损失计算，得到损失值；

其中，可以采用交叉熵损函数进行该预设循环神经网络的损失计算，以得到该损失值，该损失值用于更新预设循环神经网络中的参数权重，以提高该预设循环神经网络的识别效率。

步骤s306，根据所述损失值对所述预设循环神经网络进行优化迭代，直至所述预设循环神经网络满足预设结束条件，将所述预设循环神经网络进行输出，得到所述音频检测模型；

其中，可以根据该损失值采用adam算法来优化迭代预设循环神经网络的参数权重,学习率为0.00005,每个批次传入64个音频stft特征数据,一个epoch训练150个批次,总共训练30个epoch；

具体的，该步骤中，若检测到该预设循环神经网络的迭代次数等于次数阈值，或检测到该预设循环神经网络中的损失值小于损失阈值，则判定该预设循环神经网络满足预设结束条件，将预设循环神经网络进行输出，以得到该音频检测模型，该音频检测模型用于接收待测音频，并判断该待测音频是否为拼接的音频。

本实施例中，通过对原始音频特征和拼接音频特征进行归一处理的设计，有效的降低了极值或者噪声对音频特征的影响，进而提高了音频检测模型训练数据的准确性，且通过对预设循环神经网络进行损失计算得到损失值，并根据损失值对预设循环神经网络进行优化迭代的设计，能有效的对该预设循环神经网络中的参数权值进行更新，以提高该音频检测模型对该待测音频的拼接检测的准确性。

实施例四

请参阅图4，是本发明第四实施例提供的音频拼接检测系统100的结构示意图，包括：音频切分模块10、音频拼接模块11、模型训练模块12和音频检测模块13，其中：

音频切分模块10，用于获取原始音频数据，并分别对所述原始音频数据中的原始音频进行切分，得到切分音频。

其中，所述音频切分模块10还用于：根据预设切分数量分别对每个所述原始音频进行随机切分，得到所述切分音频。

音频拼接模块11，用于对所述切分音频进行拼接，得到拼接音频，分别对所述拼接音频和所述原始音频进行音频特征提取，得到拼接音频特征和原始音频特征。

其中，所述音频拼接模块11还用于：根据所述预设切分数量对所述切分音频进行抽取，将抽取到的所述切分音频进行拼接，得到所述拼接音频。

优选的，所述音频拼接模块11还用于：分别对所述拼接音频和所述原始音频进行短时傅里叶变换处理，得到拼接stft特征和原始stft特征。

模型训练模块12，用于分别对所述原始音频特征和所述拼接音频特征进行归一化处理，并根据归一化处理后的所述原始音频特征和所述拼接音频特征对预设循环神经网络进行训练，得到音频检测模型。

其中，所述模型训练模块12还用于：分别对所述原始音频特征和所述拼接音频特征进行数值标准化处理，以得到原始音频原数值和拼接音频原数值；

根据标准化计算公式分别对所述原始音频原数值和所述拼接音频原数值进行计算，以得到原始音频归一值和拼接音频归一值。

优选的，所述模型训练模块12还用于：将所述原始音频归一值设置为正样本，并所述拼接音频归一值设置为负样本；

根据所述正样本和所述负样本对所述预设循环神经网络进行模型训练，并对所述预设循环神经网络进行损失计算，得到损失值；

音频检测模块13，用于将待测音频输入所述音频检测模型，并控制所述音频检测模型进行音频拼接检测，以输出检测结果。

其中，所述音频检测模块13还用于：采用softmax函数对所述原始音频分数值和所述拼接音频分数值进行概率计算，以得到拼接概率值；

若所述拼接概率小于概率阈值，则判定所述待测音频是拼接的音频。

实施例五

请参阅图5，是本发明第五实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的音频拼接检测方法，该移动终端101可以为机器人。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

获取原始音频数据，并分别对所述原始音频数据中的原始音频进行切分，得到切分音频；

对所述切分音频进行拼接，得到拼接音频，分别对所述拼接音频和所述原始音频进行音频特征提取，得到拼接音频特征和原始音频特征；

将待测音频输入所述音频检测模型，并控制所述音频检测模型进行音频拼接检测，以输出检测结果。所述的存储介质，如：rom/ram、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图4中示出的组成结构并不构成对本发明的音频拼接检测系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-3中的音频拼接检测方法亦采用图4中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述当前音频拼接检测系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述当前音频拼接检测系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。