一种音频来源反取证方法与流程

2021-01-28 15:01:21|

395|

起点商标网

本发明涉及语音检测技术，尤其是一种音频来源反取证方法。

背景技术：

现有的数字音频来源取证方法主要关注的是算法检测的准确性，往往忽略了该方法本身的安全性与鲁棒性，即方法的准确性是建立在没有被非法人员恶意攻击的前提之下的。非法分子可以通过对取证方法进行研究，挖掘取证方法的弱点与缺点，应用某种后处理操作来消除、破坏或者隐藏某篡改操作可能留下的相关痕迹来使取证方法失效。本发明中针对音频来源进行反取证技术研究，使用生成对抗网络框架对具有代表性的来源识别方法进行反取证攻击，以此找出来源识别方法中的缺陷，进而促使取证研究人员加强来源识别方法的安全性与鲁棒性，促进其发展与完善。

移动电子设备的迅速普及和多媒体技术的快速发展，使得数字音频的获取、修改和编辑变得更加简单。而通过使用功能强大的音频编辑软件，非法分子可以十分便捷地对音频数据进行恶意篡改与伪造，若被篡改过的音频数据被误用于新闻报道、司法取证以及科学研究等领域，会给人们的生活和工作带来巨大的安全隐患。因此，数字音频的原始性和真实性鉴定逐渐成为国内外研究的重要课题。音频取证技术通过分析音频数据的统计特性，对伪造或篡改的数字音频进行检测和鉴定，具有广泛的实际应用前景。

目前，由于数字媒体技术的普及使用，国内外音频证据在法庭证据、案件调查中所占比重也越来越大。在法庭音频证据提供过程中，经常有声称采用某类设备录制，但目前无更有效的方法验证这一点，往往会导致对方不认可这一证据。一般的录音设备的录音模块包括前端调理部分、模数转换部分、降噪算法部分和压缩算法部分，对于大部分品牌录音设备或手机厂商来讲，从专利保护角度出发，品牌录音设备厂商一般会采用不同的模拟电路和数字信号处理算法来实现录音功能。这些技术的不同就会导致录音信号中蕴含了区别于其他录音设备的个性特征。音频来源识别方法是通过数字信号处理技术确定录制这段音频的设备类型、设备型号等信息，但是现有的方法都基于一定的假设条件，即待检测音频预先没有经过反取证技术的处理，取证人员通过检测和识别常见音频操作的遗留痕迹来获取数字音频的来源信息。但在实际应用中，这种假设往往不成立。传统的取证方法大多是从其对伪造样本的检测率、算法复杂度等角度出发进行研究，很少关注取证方法本身的安全性，假设非法分子在对音频进行伪造篡改后，又使用了相应的反取证技术，将篡改操作的遗留痕迹进行隐藏或者消除，那么已有的取证方法都可能失效。

近几年，随着数字音频在科学研究、司法取证等领域的广泛应用，音频取证技术得到了长足的发展，但与此同时，关于数字音频反取证技术的研究工作还较少。因此，对于数字音频反取证技术的研究刻不容缓。

目前，大多数的音频来源识别方法都获得了非常高的识别准确率。在音频来源识别技术的发展过程中，研究人员一般采用回归分析、贝叶斯(bayes)分类器、决策树、支持向量机(svm)以及混合高斯模型(gmm)等方法，目前识别算法中表现较好、使用较多的是将支持向量机作为分类器。例如，kraetzerc,oermanna,dittmannj,langa.digitalaudioforensics:afirstpracticalevaluationonmicrophoneandenvironmentclassification[c].mmandsec'07-proceedingsofthemultimediaandsecurityworkshop2007,2007:63-74.中公开采用k-means和bayes分类算法相结合对在11个房间内分别采用4种麦克风录制的音频信号进行录音设备分类研究，第一次提出了录音设备识别的模型，取得了一定的效果，录音设备识别率达到75.99％。贺前华,王志锋,rudnickyai,等.基于改进pncc特征和两步区分性训练的录音设备识别方法[j].电子学报,2014,42(1):191-198中公开利用静音段提取改进的pncc的长时帧分析去除背景噪声对设备信息的影响，以gmm-ubm为基准模型进行训练，他们的方法对于30种设备闭集识别的平均正确识别率为90.23％；对于15个集内和15个集外设备的测试,等错误率为15.17％,集内平均正确识别率为96.65％。hanilcic,ertasf,ertast,etal.recognitionofbrandandmodelsofcell-phonesfromrecordedspeechsignals[j].ieeetransactionsoninformationforensics&security,2012,7(2):625-634，以及hanilcic,cemali,ertasf.optimizingacousticfeaturesforsourcecell-phonerecognitionusingspeechsignals[c]//acmworkshoponinformationhidingandmultimediasecurity,june20-22,2013,montpellier,france.newyork:acmpress,2013:141-148，这两篇文献中公开了使用从音频信号中提取的mfcc特征，将其送入一个支持向量机(svm)进行分类。在其闭合数据集上svm分类器获得了96.42％的最佳准确率。kotropoulos等人[6]对音频信号的各个帧提取得到mfcc特征与其协方差矩阵，然后训练高斯混合模型(gmm)，并且对21类设备的测试音频能够得到97.6％的识别准确率。luo等人[7]提出的子带能量差异特征(bed)具有显着的辨别能力并且可以表征记录设备。他们对31种手机设备录音进行测试，通过提取bed特征，使用svm分类器实现了99％的准确率。

如上所述，现有来源识别方法在研究过程中，将识别准确率作为主要的评价指标，但却并未对识别方法的安全性与鲁棒性进行过多探讨。在实际场景中，一段待取证的音频，是有极大可能经历过非法分子的后处理操作的，若非法分子使用特别设计的后处理操作(反取证技术)对待检测音频进行修改，上述的识别方法有极大可能会做出错误的识别结果。

技术实现要素：

本发明所要解决的技术问题是针对上述现有技术存在的不足，提供一种音频来源反取证方法，提高取证方法的安全性与可靠性，增强抗反取证攻击的能力。

本发明解决上述技术问题所采用的技术方案为：一种音频来源反取证方法，所述反取证方法所利用的神经网络为生成对抗网络，所述生成对抗网络包括生成器、与生成器形成对抗学习的判别器，其特征在于：所述生成对抗网络还包括取证分类器，所述反取证方法包括如下步骤：

1)将原始音频作为其中一个输入数据，输入到判别器中；将检测音频输入到生成器中，生成器对所述检测音频添加一定的扰动，得到生成音频；

2)生成音频作为另一个输入数据、输入到判别器，同时生成音频还输入到取证分类器中，分别进行判别和分类：

2.1)所述判别器对原始音频和生成音频进行判别，对生成音频区分真假，同时将结果反馈到生成器，促成生成器更新参数；

2.2)所述取证分类器对生成音频进行来源识别分类，得到分类概率后反馈到生成器，对生成器进行指导，促使生成器输出具有反取证攻击效果的音频。

为了使生成器达到反取证的目的，对反取证样本进行约束，欺骗取证分类器，并尽量减少生成器引入的扰动对于音频所造成的失真影响，所述生成器的损失函数lg为：

lg＝αll1+βladv+θ1lc1+θ2lc2

其中α,β,θ1,θ2为各个损失的权重，生成器的反取证攻击包括混淆攻击和误导攻击，在进行混淆攻击时，θ1设置为1，θ2设置为0，在进行误导攻击时，θ1设置为1，θ2设置为0，各损失的算法如下：

g(x)为检测音频x通过生成器(1)后的输出，ll1为检测音频x与对应的g(x)之间的绝对差值，i为采样点序号，l为采样点总量；

混淆攻击损失lc1：

其中c(·)表示取证分类器的输出，m为一次优化过程中输入的样本数量；

误导攻击损失lc2：

其中t为目标设备；

对抗性ladv损失：

ladv＝log(1-d(g(x)))

其中d(·)表示判别器的输出。

优选的，所述生成器的网络结构包括n个上采样模块和n个下采样模块，所述上采样模块和下采样模块之间使用跳跃连接，在生成器的输出层设置sigmoid激活函数。

优选的，所述上采样模块包括n组第一卷积块，所述下采样模块包括n组第二卷积块，每组第一卷积块包括一层1×30、卷积核为64、步幅为2的第一卷积层、第一批量归一化层和漏泄整流线性单元；每组第二卷积块包括一层1×30、卷积核为64、步幅为2的反卷积层、第二批量归一化层和第一relu激活函数层。

优选的，所述判别器包括相同功能的n组第三卷积块，每一组第三卷积块包含两个连续的第二卷积层、每个第二卷积层之后分别为第三批量归一化层和第二relu激活函数层。

优选的，所述判别器还包括接收第n组的第三卷积块的输出的分类模块，所述分类模块包括依次连接的的池化层、全连接层和输出层，所述分类模块输出类概率。

优选的，所述取证分类器将接收到的生成音频经过预处理得到mfcc，然后将提取的mfcc特征输入到支持向量机中进行训练，并得到分类结果。

优选的，所述预处理包括将生成器输出的生成音频通过窗口进行快速傅里叶变换，再依次经过梅尔滤波器组进行滤波、log函数转换、离散余弦变换后得到mfcc。

与现有技术相比，本发明的优点在于：提供了一种基于生成对抗网络的音频来源识别反取证方法，可以用于检测取证技术的安全性与可靠性，使取证人员可以针对其存在的漏洞或缺点进行改进与完善，以提高其取证方法的安全性与可靠性，增强其抗反取证攻击的能力，与此同时，反取证技术在攻击取证技术的同时又会遗留下新的痕迹，该痕迹也会被当作新的检测依据来进行取证，在取证与反取证两者之间的相互攻防和相互博弈过程中，提升了安全信誉的同时也间接提高了恶意篡改的成本；使用对抗方式，使生成器能够通过取证器的输出进行自动优化，得到具有反取证攻击效果的音频，在混淆取证方法的检测结果的基础上，误导攻击能够使来源识别方法得出攻击所指定的错误结果。

附图说明

图1为本发明实施例的反取证方法的总体框架原理图；

图2为本发明实施例的反取证方法的生成器的网络结构示意图；

图3为本发明实施例的生成器的上采样模块的其中一个卷积块的示意图；

图4为本发明实施例的生成器的下采样模块的其中一个卷积块的示意图；

图5为本发明实施例的反取证方法的判别器的结构示意图；

图6为本发明实施例的反取证方法的取证器的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，由于本发明所公开的实施例可以按照不同的方向设置，所以这些表示方向的术语只是作为说明而不应视作为限制，比如“上”、“下”并不一定被限定为与重力方向相反或一致的方向。此外，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

参见图1，一种音频来源反取证方法，其所利用的整体框架包括生成器1、判别器2和取证分类器3。

本发明的方法包括如下步骤：

1)来自真实世界的音频，即原始音频(org)作为其中一个输入数据，输入到判别器2中；检测音频x(某一指定设备的录音材料)输入到生成器1中，生成器1对该检测音频x添加一定的扰动，得到生成音频x′；

2)生成音频x′输入到判别器2和取证分类器3中，分别进行判别和分类：

2.1)判别器2对原始音频和生成音频x′进行判别，对生成音频x′区分真假，同时反馈到生成器1，促成生成器1更新参数，进而能够合成质量更逼真的样本；

2.2)同时生成音频x′还输入到取证分类器3中，对生成音频x′进行来源识别分类，得到分类概率p后反馈到生成器1，对生成器1进行指导，促成生成器1更新参数，使其往反取证方向进行优化。

在本实施例中，生成器1和判别器2构成生成对抗网络(gan)，生成对抗网络是一种深度学习框架，用于机器学习和计算机视觉社区，以生成可以统计模拟训练数据分布的数据。与经典的生成对抗网络框架不同，为了得到反取证的效果，假设攻击者可以访问取证人员的取证分类器，或者可以构建分类器的等效副本。因此，在本实施例中，为生成对抗网络添加了一个辅助的取证分类器3，以此来促使生成器更好地学习伪造设备遗留痕迹。

对于来源识别方法进行反取证攻击，只需要对音频中的一些采样点进行修改即可，而音频的底层结构还是应该保持一致，也就是说输入与输出之间尽可能地共享一些底层信息，这些信息可能有利于提高输出音频的质量。考虑到这一点，在本发明中，采用带有跳跃连接(skip-connection)的结构来将低级特征直接传输到网络的更高层上，即将低维特征与对应的高维特征进行拼接后作为下一层的输入，这样可以在对音频添加反取证扰动的同时最大可能地保留音频的底层结构。

参见图2～4，示出了本发明的生成器1的网络结构，包括一个上采样模块11和下采样模块12。其中，上采样模块11包括n组第一卷积块，在本实施例中，n＝7，每组第一卷积块包括一层1×30、卷积核为64、步幅为2的第一卷积层，第一批量归一化层(batchnormalization,bn)和漏泄整流线性单元(leaky-relu)。同样的，下采样模块12也包括n组第二卷积块，每组第二卷积块包括一层1×30、卷积核为64、步幅为2的反卷积层、第二批量归一化层(batchnormalization,bn)和第一relu激活函数层。上采样模块11和下采样模块12之间使用跳跃连接(skipconnection)，从而尽可能地保留信息细节。在生成器1的输出层设置sigmoid激活函数，从而将输出限制在0到1的范围内，用来做二分类。

判别器2的主要功能在于与生成器1形成对抗学习，不断提升自己的能力以提高识别出真假样本的准确率。在本发明中，判别器2被设计用于区分原始音频org和生成音频x′，它与生成器1进行对抗，并交替迭代优化，使生成音频x′的质量与内容更加接近原始音频org。参见图5，判别器2具有相同功能的n组第三卷积块21，在本实施例中，n＝7，数量与上采样模块11、下采样模块12的数量一致。每一组第三卷积块21包含两个连续的第二卷积层、每个第二卷积层之后分别为第三批量归一化层(batchnormalization,bn)和第二relu激活函数层。

其中第一组的第三卷积块21，其第二卷积层为1×30、卷积核为8、步幅为2，尺寸为：1×16000。第二组的第三卷积块21，其第二卷积层为1×30、卷积核为16、步幅为2，尺寸为：8×8000。第三组的第三卷积块21，其第二卷积层为1×30、卷积核为32、步幅为2，尺寸为：16×4000。第四组的第三卷积块21，其第二卷积层为1×30、卷积核为64、步幅为2，尺寸为：32×2000。第五组的第三卷积块21，其第二卷积层为1×30、卷积核为128、步幅为2，尺寸为：64×2000。第六组的第三卷积块21，其第二卷积层为1×30、卷积核为256、步幅为2，尺寸为：128×1000。第七组的第三卷积块21，其第二卷积层为1×30、卷积核为512、步幅为2，尺寸为：256×500。

判别器2还包括分类模块22，将第七组的第三卷积块21的输出馈送分类模块22，分类模块22包括依次连接的250×1的池化层(尺寸512×250)、全连接层(尺寸512×1)和输出层，全连接层可采用tanh作为激活函数，输出层使用softmax分类函数。分类模块22输出类概率(classprob)，即识别样本数据属于某种物体类别的概率与样本数据的真实物体类别的差距。

经过预先训练的取证分类器3可以促使生成器1对检测音频x添加的扰动在极大程度上能够达到反取证的效果。本发明中，典型的来源识别方法来构造取证分类器3，来源识别方法可以参见hanilcic,ertasf,ertast,etal.recognitionofbrandandmodelsofcell-phonesfromrecordedspeechsignals[j].ieeetransactionsoninformationforensics&security,2012,7(2):625-634。

参见图6，为取证分类器3的结构，首先将音频经过预处理得到梅尔倒谱系数(melfrequencycepstrumcoefficients,mfcc)，然后将提取的mfcc特征输入到支持向量机(svm)中进行训练，并得到分类结果。预处理包括将生成器1输出的生成音频x′通过窗口进行快速傅里叶变换(fft)，再依次经过梅尔滤波器组进行滤波、log函数转换、离散余弦变换(dct)后得到mfcc。

取证分类器3通过获得生成器1输出的生成音频x′并进行分类，得到一个预测标签p。然后将正确标签与预测标签计算损失，并将损失反向回传反馈给生成器1，它可以促使生成器1自动学习，促使生成器1输出具有反取证攻击效果的音频。

生成对抗网络可以从数据中学习到数据的统计分布，使用数据驱动的方法对音频中特有的录音设备遗留痕迹进行伪造，使得经过反取证攻击的音频可以欺骗取证者的来源识别分类器。为了建立成功的攻击，需要设计网络结构以及损失函数，使最终生成的反取证音频拥有良好的感知质量的同时能够伪造录音设备的遗留痕迹。

通常的反取证处理操作只会混淆取证方法的判断结果，而音频来源识别是多分类的取证方法，即检测一段待检测音频是由哪一类设备录制的，在针对来源识别进行反取证方法设计的过程中，我们将反取证攻击分为无目的的混淆攻击，与有目的误导攻击策略。混淆攻击的目标是只降低取证算法的置信度，通过对一段由设备y录制的音频x引入特定的微弱的扰动δ，得到反取证音频x′＝x+δ，能够使得来源识别方法对于x能够识别正确c(x)＝y，但对于x′，使c(x)≠y，即识别错误，降低取证方法的置信度。而误导攻击则是有目的性地对音频进行修改，使取证方法成功地将x′错误识别成我们指定的设备类型。例如将设备t设置为攻击目标，通过学习设备t录制的音频的数据分布，即学习设备t对音频中遗留的痕迹，修改x中其源设备的遗留痕迹以匹配目标设备t，使得c(x)＝t。

在混淆攻击中，目标是通过添加尽可能小的特定扰动，使取证分类器3尽可能多地将生成音频分类错误。而在误导攻击中，希望生成的反取证音频能够拥有指定目标设备的遗留痕迹。为了使生成器1达到反取证的目的，它必须能够欺骗取证分类器3，并尽量减少生成器1引入的扰动对于音频所造成的失真影响。因此，将生成器1的损失函数lg定义如下

lg＝αll1+βladv+θ1lc1+θ2lc2

其中α,β,θ1,θ2为各个损失的权重，在进行混淆攻击的实验中，θ1设置为1，θ2设置为0，在进行误导攻击的试验中，θ1设置为1，θ2设置为0。

由于攻击不应留下任何可被听觉感知的痕迹，因此使用检测音频x与其生成音频x之间的平均绝对差异来模拟听觉感知损失。对于长度为16000个采样点的检测音频x，与其对应的g(x)(生成器1的输出)之间的绝对差值的计算公式如下所示。

其中，i为采样点序号，l为采样点总量。

为了使生成器1成功，能够得到反取证音频即能够欺骗识别方法，需要使用预先训练的取证分类器3计算得到的结果损失对生成器1进行优化。混淆攻击损失lc1定义如下所示：

其中c(·)表示取证分类器3的输出，m为一次优化过程中输入的样本数量，而误导攻击损失lc2定义如下：

尽管分类损失和感知损失能够使得伪造音频看似合理，但是在重建真实数据和生成数据之间的复杂统计数据方面有一些限制。而且生成器1在训练之初不易收敛，加入对抗性损失ladv可以使得生成器1更好地进行训练，以达到愚弄判别者的目的。对抗性损失的公式如下所示：

ladv＝log(1-d(g(x)))

其中d(·)表示判别器2的输出。

为了验证本专利提出的反取证方法的有效性，对于反取证样本的错误分类概率作为反取证操作的评估标准。因此，在本发明中，将成功攻击率(successfulattackrate,sar)所提出的反取证方法的性能评估指标。成功攻击率的公式计算如下所示。

其中n代表一次测试的反取证样本的数量，f(·)为所选择的取证方法。在对反取证音频的质量评估中，采用目前广泛应用的pesq评分对反取证攻击后的音频质量进行客观性能评测。pesq是国际电信联盟itu现行的，最新的和最为标准的音频质量评估算法之一，它采用了端到端的时延以及优化的听觉模型和和认知模型技术，对通信时延和环境噪声有很好的鲁棒性，既能测量端到端的声音质量变化，还能测试网络单元的效果(例如解码器)，并且能够检测到由于增益变化引起的差值，并避免增益变化带来的影响。通过使用pesq，我们能够计算得到信号的失真情况，得到-0.5至4.5之间的分值，如果过两个带比较音频信号的差异性越大，pesq的得分就越小。

在进行混淆攻击时，对生成器1、判别器2以及取证分类器3构成的反取证网络进行训练，在损失达到收敛后，将训练好的生成器1，对测试音频样本进行修改，并输入到三个具有代表性的音频来源识别方法中进行检测，若识别结果与测试音频的原始设备编号不同，则攻击成功。在进行误导攻击训练时，随机指定了6类型号的音频录制设备作为指定目标，因此会有对应的6个训练好的生成器1。使用训练好的生成器1对任意设备录制的测试音频进行修改，同样使用三种识别方法进行检测，若检测结果为指定的设备类型编号，则误导成功，反之则攻击失败。在混淆攻击与误导攻击中，对攻击成功的音频样本进行pesq评分，评估其音频感知质量。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。