人工合成语音检测方法、装置、计算机设备及存储介质与流程

2021-01-28 12:01:00|

184|

起点商标网

本发明涉及语音识别技术领域，特别是涉及人工合成语音检测方法、装置、计算机设备及存储介质。

背景技术：

语音识别是人工智能语音领域中的一个重要方向，近年来，随着计算机硬件能力提升以及深度学习模型的不断完善，语音合成技术已经有了非常完善的发展。其合成速度越来越快，模拟人声的能力也越来越强。因此，虚假语音识别技术近年来也逐渐成为研究的热点。

目前对于虚假语音识别的论文和产品依然很少，还没有十分具有突破性的技术与进展。所以，急需一种用于预防聊天语音诈骗的、基于语音合成及声音转换技术产生的数字语音与真实语音的判别技术设计合成语音检测系统。

技术实现要素：

本发明提供人工合成语音检测方法、装置、计算机设备及存储介质，能够基于对抗生成网络对用户接收到的语音数据的真实性进行识别，帮助用户更好地提高对语音诈骗的防范意识。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种人工合成语音检测方法，包括：

采集用户接收到的语音数据；

将所述语音数据输入预训练深度卷积对抗生成网络中，对所述语音数据进行分帧、加窗处理并提取所述语音数据的音频特征；

对所述音频特征进行识别分析并获得所述语音数据的可信度；

根据所述可信度判别所述语音数据的真实性。

根据本发明的一个实施例，所述将所述语音数据输入预训练深度卷积对抗生成网络中的步骤之前，还包括：

接收随机噪声并通过所述随机噪声生成合成语音；

利用所述合成语音和预设真实语音对深度卷积对抗生成网络进行训练，获得预训练深度卷积对抗生成网络。

根据本发明的一个实施例，所述利用所述合成语音和预设真实语音对深度卷积对抗生成网络进行训练，获得预训练深度卷积对抗生成网络的步骤还包括：

计算所述合成语音预测为真实的期望值以及所述预设真实语音预测为虚假的期望值；

将所述合成语音预测为真实的期望值以及所述预设真实语音预测为虚假的期望值之和作为所述深度卷积对抗生成网络的损失函数并对所述深度卷积对抗生成网络进行优化。

根据本发明的一个实施例，所述根据所述可信度判别所述语音数据的真实性的步骤包括：

将所述可信度与预设阈值作比对；

当可信度低于预设阈值时，确定所述语音数据为虚假语音；

当可信度高于预设阈值时，确定所述语音数据为真实语音。

根据本发明的一个实施例，在所述根据所述可信度判别所述语音数据的真实性的步骤之后，还包括：

当确定所述语音数据为虚假语音时，通过文本信息或短信的方式向用户发送预警信号；

当确定所述语音数据为真实语音时，删除所述语音数据。

根据本发明的一个实施例，在所述通过文本信息或短信的方式向用户发送预警信号的步骤之后，还包括：

获取用户对反馈所述语音数据的判别结果的意见；

若用户同意反馈所述判别结果，将所述语音数据发送至服务器，在预设间隔时间内采用所述语音数据优化所述深度卷积对抗生成网络；

若用户不同意反馈所述判别结果，删除所述语音数据。

根据本发明的一个实施例，所述在预设间隔时间内采用所述语音数据优化所述深度卷积对抗生成网络的步骤还包括：

计算所述预设真实语音预测为虚假的期望值以及确定为虚假语音的所述语音数据预测为真实的期望值；

将所述预设真实语音预测为虚假的期望值以及确定为虚假语音的所述语音数据预测为真实的期望值之和作为所述深度卷积对抗生成网络的损失函数并对所述深度卷积对抗生成网络进行优化。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种人工合成语音检测装置，包括：

采集模块，用于采集用户接收到的语音数据；

特征提取模块，用于将所述语音数据输入预训练深度卷积对抗生成网络中，对所述语音数据进行分帧、加窗处理并提取所述语音数据的音频特征；

检测模块，用于对所述音频特征进行识别分析并获得所述语音数据的可信度；

判别模块，用于根据所述可信度判别所述语音数据的真实性。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种计算机设备，存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的人工合成语音检测方法。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种存储介质，存储有能够实现上述人工合成语音检测方法的程序文件。

本发明的有益效果是：通过对抗生成网络对用户接收到的语音数据的真实性进行识别，帮助用户更好地提高对语音诈骗的防范意识；并在后续根据用户反馈数据不断优化对抗生成网络，从而更加准确的判别用户接收到的语音数据的准确性，同时仅在用户同意反馈的情况下才将语音数据用于优化对抗生成网络，在安全防范的基础上保护了用户的隐私安全。

附图说明

图1是本发明第一实施例的人工合成语音检测方法的流程示意图；

图2是本发明第二实施例的人工合成语音检测方法的流程示意图；

图3是本发明第三实施例的人工合成语音检测方法的流程示意图；

图4是本发明第四实施例的人工合成语音检测方法的流程示意图；

图5是本发明第五实施例的人工合成语音检测方法的流程示意图；

图6是本发明第一实施例的人工合成语音检测装置的架构示意图；

图7是本发明第二实施例的人工合成语音检测装置的架构示意图；

图8是本发明第三实施例的人工合成语音检测装置的架构示意图；

图9是本发明第四实施例的人工合成语音检测装置的架构示意图；

图10是本发明第五实施例的人工合成语音检测装置的架构示意图；

图11是本发明实施例的终端设备的结构示意图；

图12是本发明实施例的存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的人工合成语音检测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤s101：采集用户接收到的语音数据。

在步骤s101中，对开通防诈骗功能的用户安装本地合成语音检测模型，本地合成语音检测模型首先采集用户接收到的所有语音数据。

步骤s102：将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

在步骤s102中，本实施例采用分帧、加窗方法对语音数据进行处理，将语音数据分为若干语音帧，再提取每一个语音帧的音频特征。因为后期语音数据处理需要平稳的语音信号，而一端语音信号整体看是不平稳的，但是局部信号是平稳的，所以将一段语音数据进行分帧处理，另外，由于每一语音帧的起始端和末尾端会出现不连续的地方，所以分帧越多，与原始信号的误差也就越大，用加窗的方法能够使分帧后的语音信号变得连续。

步骤s103：对音频特征进行识别分析并获得语音数据的可信度。

在步骤s103中，采用预训练深度卷积对抗生成网络中的判别网络对音频特征进行识别并获得语音数据的可信度。

步骤s104：根据可信度判别语音数据的真实性。

在步骤s104中，将可信度与预设阈值作比对；当可信度低于预设阈值时，确定语音数据为虚假语音；当可信度高于预设阈值时，确定语音数据为真实语音。

本发明第一实施例的人工合成语音检测方法通过预训练深度卷积对抗生成网络对用户接收到的语音数据的真实性进行识别，帮助用户更好地提高对语音诈骗的防范意识。

图2是本发明第二实施例的人工合成语音检测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，该方法包括步骤：

步骤s201：采集用户接收到的语音数据。

在本实施例中，图2中的步骤s201和图1中的步骤s101类似，为简约起见，在此不再赘述。

步骤s202：接收随机噪声并通过随机噪声生成合成语音。

步骤s203：利用合成语音和预设真实语音对深度卷积对抗生成网络进行训练，获得预训练深度卷积对抗生成网络。

在步骤s203中，深度卷积对抗生成网络的结构包括生成网络和判别网络，生成网络用于生成合成语音，判别网络用于判别语音数据的真实性；在训练的过程中，生成网络的目标是生成接近真实的合成语音，判别网络的目标是把合成语音和真实语音区别开来，以使生成网络和判别网络形成一个动态的“博弈过程”。本实施例首先计算合成语音预测为真实的期望值以及预设真实语音预测为虚假的期望值；然后将合成语音预测为真实的期望值以及预设真实语音预测为虚假的期望值之和作为深度卷积对抗生成网络的损失函数并对深度卷积对抗生成网络进行优化。

具体地，本实施例采用合成语音和预设真实语音对深度卷积对抗生成网络进行训练，深度卷积对抗生成网络的损失函数按照如下公式进行计算：

其中，e(*)表示期望值，x表示预设真实语音，pdata表示真实语音的分布，d(x)表示判别网络的输出，z表示用于生成合成语音的噪声，g(z)表示生成网络的输出，d(g(z))表示判别网络d判断生成网络g生成的合成语音为真实的概率。

步骤s204：将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

在本实施例中，图2中的步骤s204和图1中的步骤s102类似，为简约起见，在此不再赘述。

步骤s205：对音频特征进行识别分析并获得语音数据的可信度。

在本实施例中，图2中的步骤s205和图1中的步骤s103类似，为简约起见，在此不再赘述。

步骤s206：根据可信度判别语音数据的真实性。

在本实施例中，图2中的步骤s206和图1中的步骤s104类似，为简约起见，在此不再赘述。

本发明第二实施例的人工合成语音检测方法在第一实施例的基础上，采用合成语音预测为真实的期望值以及预设真实语音预测为虚假的期望值之和作为深度卷积对抗生成网络的损失函数并对深度卷积对抗生成网络进行优化，提高深度卷积对抗生成网络识别的准确性和可靠性。

图3是本发明第三实施例的人工合成语音检测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图3所示的流程顺序为限。如图3所示，该方法包括步骤：

步骤s301：采集用户接收到的语音数据。

在本实施例中，图3中的步骤s301和图1中的步骤s101类似，为简约起见，在此不再赘述。

步骤s302：将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

在本实施例中，图3中的步骤s302和图1中的步骤s102类似，为简约起见，在此不再赘述。

步骤s303：对音频特征进行识别分析并获得语音数据的可信度。

在本实施例中，图3中的步骤s303和图1中的步骤s103类似，为简约起见，在此不再赘述。

步骤s304：根据可信度判别语音数据的真实性。

在本实施例中，图3中的步骤s304和图1中的步骤s104类似，为简约起见，在此不再赘述。当确定语音数据为虚假语音时，执行步骤s305，当确定语音数据为真实语音时，执行步骤s306。

步骤s305：通过文本信息或短信的方式向用户发送预警信号。

在步骤s305中，通过文本信息或短信的方式提醒用户该语音数据为虚假语音，若涉及账户交易内容，请谨慎操作，谨防诈骗。

步骤s306：删除语音数据。

本发明第三实施例的人工合成语音检测方法在第一实施例的基础上，通过在确定语音数据为虚假数据时，通过文本信息或短信的方式向用户发送预警信号，进一步提高用户对语音诈骗的防范意识。

图4是本发明第四实施例的人工合成语音检测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图4所示的流程顺序为限。如图4所示，该方法包括步骤：

步骤s401：采集用户接收到的语音数据。

在本实施例中，图4中的步骤s401和图1中的步骤s101类似，为简约起见，在此不再赘述。

步骤s402：将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

在本实施例中，图4中的步骤s402和图1中的步骤s102类似，为简约起见，在此不再赘述。

步骤s403：对音频特征进行识别分析并获得语音数据的可信度。

在本实施例中，图4中的步骤s403和图1中的步骤s103类似，为简约起见，在此不再赘述。

步骤s404：根据可信度判别语音数据的真实性。

在本实施例中，图4中的步骤s404和图1中的步骤s104类似，为简约起见，在此不再赘述。当确定语音数据为虚假语音时，执行步骤s405，当确定语音数据为真实语音时，执行步骤s408。

步骤s405：通过文本信息或短信的方式向用户发送预警信号。

在步骤s405中，通过文本信息或短信的方式提醒用户该语音数据为虚假语音，若涉及账户交易内容，请谨慎操作，谨防诈骗。在步骤s405之后执行步骤s406。

步骤s406：获取用户对反馈语音数据的判别结果的意见。

在步骤s406中，若用户同意反馈判别结果，执行步骤s407。

步骤s407：将语音数据发送至服务器，在预设间隔时间内采用语音数据优化深度卷积对抗生成网络。

在步骤s407中，具体地，首先计算预设真实语音预测为虚假的期望值以及确定为虚假语音的语音数据预测为真实的期望值；然后将预设真实语音预测为虚假的期望值以及确定为虚假语音的语音数据预测为真实的期望值之和作为深度卷积对抗生成网络的损失函数并对深度卷积对抗生成网络进行优化。本实施例采用确定为虚假语音的语音数据对深度卷积对抗生成网络进一步训练，该训练不依赖于生成网络。深度卷积对抗生成网络的损失函数按照如下公式进行计算：其中，e(*)表示期望值，x表示预设真实语音，pdata表示预设真实语音的分布，d(x)表示判别网络的输出，表示确定为虚假语音的语音数据，表示判别确定为虚假语音的语音数据为真实的概率。

若用户不同意反馈判别结果，执行步骤s408。

步骤s408：删除语音数据。

本发明第四实施例的人工合成语音检测方法在第三实施例的基础上，通过用户反馈数据不断优化对抗生成网络，从而更加准确的判别用户接收到的语音数据的准确性，同时仅在用户同意反馈的情况下才将语音数据用于优化对抗生成网络，在安全防范的基础上保护了用户的隐私安全。

图5是本发明第五实施例的人工合成语音检测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图5所示的流程顺序为限。如图5所示，该方法包括步骤：

步骤s501：采集用户接收到的语音数据。

在本实施例中，图5中的步骤s501和图1中的步骤s101类似，为简约起见，在此不再赘述。

步骤s502：对语音数据进行采样及预处理。

在步骤s502中，通过特定采样率和采样位数对采集到的语音数据进行收集，并进行降噪、过滤首尾静音等预处理，提高语音数据的质量并保留完整的语音数据。

步骤s503：将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

在本实施例中，图5中的步骤s503和图1中的步骤s102类似，为简约起见，在此不再赘述。

步骤s504：对音频特征进行识别分析并获得语音数据的可信度。

在本实施例中，图5中的步骤s504和图1中的步骤s103类似，为简约起见，在此不再赘述。

步骤s505：根据可信度判别语音数据的真实性。

在本实施例中，图5中的步骤s505和图1中的步骤s104类似，为简约起见，在此不再赘述。

本发明第五实施例的人工合成语音检测方法在第一实施例的基础上，通过对语音数据进行采样及预处理，提高语音数据的质量并保留完整的语音数据。

图6是本发明第一实施例的人工合成语音检测装置的结构示意图。如图6所示，该装置60包括采集模块61、特征提取模块62、检测模块63以及判别模块64。

采集模块61用于采集用户接收到的语音数据。

特征提取模块62用于将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

检测模块63用于对音频特征进行识别分析并获得语音数据的可信度。

判别模块64用于根据可信度判别语音数据的真实性。

可选地，判别模块64包括比对单元、第一判别单元和第二判别单元。比对单元用于将可信度与预设阈值作比对；第一判别单元用于当可信度低于预设阈值时，确定语音数据为虚假语音；第二判别单元用于当可信度高于预设阈值时，确定语音数据为真实语音。

图7是本发明第二实施例的人工合成语音检测装置的结构示意图。如图7所示，该装置70包括采集模块71、生成模块72、训练模块73、特征提取模块74、检测模块75以及判别模块76。

采集模块71用于采集用户接收到的语音数据。

生成模块72用于接收随机噪声并通过随机噪声生成合成语音。

训练模块73用于利用合成语音和预设真实语音对深度卷积对抗生成网络进行训练，获得预训练深度卷积对抗生成网络。

特征提取模块74用于将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

检测模块75用于对音频特征进行识别分析并获得语音数据的可信度。

判别模块76用于根据可信度判别语音数据的真实性。

图8是本发明第三实施例的人工合成语音检测装置的结构示意图。如图8所示，该装置80包括采集模块81、特征提取模块82、检测模块83、判别模块84、发送模块85以及删除模块86。

采集模块81用于采集用户接收到的语音数据。

特征提取模块82用于将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

检测模块83用于对音频特征进行识别分析并获得语音数据的可信度。

判别模块84用于根据可信度判别语音数据的真实性。

发送模块85用于当判别模块84确定语音数据为虚假语音时，通过文本信息或短信的方式向用户发送预警信号。

删除模块86用于当判别模块84确定语音数据为真实语音时，删除语音数据。

图9是本发明第四实施例的人工合成语音检测装置的结构示意图。如图9所示，该装置90包括采集模块91、特征提取模块92、检测模块93、判别模块94、发送模块95、删除模块96、获取模块97以及传输及优化模块98。

采集模块91用于采集用户接收到的语音数据。

特征提取模块92用于将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

检测模块93用于对音频特征进行识别分析并获得语音数据的可信度。

判别模块94用于根据可信度判别语音数据的真实性。

发送模块95用于当判别模块94确定语音数据为虚假语音时，通过文本信息或短信的方式向用户发送预警信号。

删除模块96用于当判别模块94确定语音数据为真实语音时，删除语音数据。

获取模块97用于获取用户对反馈语音数据的判别结果的意见。

传输及优化模块98用于若用户同意反馈判别结果，将语音数据发送至服务器，在预设间隔时间内采用语音数据优化深度卷积对抗生成网络。

图10是本发明第五实施例的人工合成语音检测装置的结构示意图。如图10所示，该装置10包括采集模块11、采样及预处理模块12、特征提取模块13、检测模块14以及判别模块15。

采集模块11用于采集用户接收到的语音数据。

采样及预处理模块12用于对语音数据进行采样及预处理。

特征提取模块13用于将语音数据输入预训练深度卷积对抗生成网络中，对语音数据进行分帧、加窗处理并提取语音数据的音频特征。

检测模块14用于对音频特征进行识别分析并获得语音数据的可信度。

判别模块15用于根据可信度判别语音数据的真实性。

请参阅图11，图11为本发明实施例的计算机设备的结构示意图。如图11所示，该计算机设备11包括处理器111及和处理器111耦接的存储器112。

存储器112存储有用于实现上述任一实施例所述的人工合成语音检测方法的程序指令。

处理器111用于执行存储器112存储的程序指令以实现人工合成语音检测。

其中，处理器111还可以称为cpu(centralprocessingunit，中央处理单元)。处理器111可能是一种集成电路芯片，具有信号的处理能力。处理器111还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图12，图12为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件121，其中，该程序文件121可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。