HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种自适应混合域音频水印嵌入方法与流程

2021-01-28 14:01:17|296|起点商标网
一种自适应混合域音频水印嵌入方法与流程

本申请涉及音频数字水印嵌入技术领域,具体而言,涉及一种自适应混合域音频水印嵌入方法。



背景技术:

随着数字音频技术的不断发展,音乐版权问题受到重视。用于音频版权保护的技术得到越来越多的研究与关注,无声水印技术就是其中之一。同时互联网的出现在线会议也越来越受到欢迎,音频无声水印技术也可以保证会议的保密性追踪泄密源头。

由于人类听觉系统(has)极为灵敏,音频感知冗余较小,水印同时满足隐蔽性和鲁棒性的困难很大,同时音频压缩算法例如mp3(mpeglayer3)因为其出色的压缩率和音质,随着网络时代的到来已经成为数字音频的主流压缩方式。然而mp3编码是一种有损压缩音频经过压缩后水印信息也将被破坏,因此音频水印的研究相对于图像水印算法更具有挑战性。

现有专利申请号为202010061508.8,名称为一种抗压缩音频无声水印嵌入和提取方法及系统的中国发明专利,其公开了一种基于傅里叶变换的音频水印嵌入方法,该方法的水印嵌入虽然具有较好的隐蔽性,但是在鲁棒性方面尤其是抗剪辑攻击性上还有进一步提升的空间;基于此,本申请力求音频水印嵌入既具有良好的隐蔽性,同时在抗剪辑攻击上具有更优异的表现。

申请内容

本申请的目的在于提供一种自适应混合域音频水印嵌入方法,其在保证隐蔽性的同时,能够在相同音频信号的情况下嵌入更多的水印信息,从而在一定程度上提高音频水印的抗剪辑攻击性。

本申请的实施例通过以下技术方案实现:

一种自适应混合域音频水印嵌入方法,包括如下步骤:

s1,数据预处理,将待嵌入水印的音频转换为目标格式的音频文件;

s2,将预处理后得到的音频文件分帧处理,获取包括嵌入区和定位区的嵌入单元,将嵌入区和定位区的采样点分别进行离散小波变换并获得近似系数,再对二者的近似系数分别开展复倒谱变换;

s3,对嵌入区的复倒谱变换均值进行量化并嵌入音频水印信号,对嵌入后的音频信号作逆复倒谱变换,得到嵌入后的离散小波变换近似系数,再进行逆离散小波变换获得嵌入音频水印后的音频信号。

进一步的,所述步骤s1中的所述目标格式的音频文件为采样率44.1khz或48khz、立体声、16bit的wav文件,并将wav文件读取到内存构造成2个int16的数组。

进一步的,所述步骤s2具体包括如下步骤:

s21,获取一个嵌入单元的长度;

s22,获取嵌入帧的长度,并根据嵌入帧中的有效嵌入单元数量选取作为水印嵌入的嵌入帧;

s23,将嵌入帧中的嵌入单元的嵌入区和定位区的采样点分别进行k阶离散小波变换并获得近似系数,再对二者的近似系数分别开展复倒谱变换,使离散小波变换后得到的较大数值变化经复倒谱变换后映射到一个小范围中。

进一步的,所述步骤s21具体包括,获取包括嵌入区和定位区的嵌入单元,获取离骚小波变换的阶数k,同时设置常量α为嵌入区的扩容因子,α取值包括8、16、32,定义一个常量n表示嵌入区和定位区的长度,那么一个嵌入单元的长度即为2n,其中n=2k*α,则一个嵌入单元的采样点个数为2k*α。

进一步的,所述步骤s22具体包括,设水印图片的长和宽分别为h和w,则水印数据长度为h*w,嵌入一次水印至少需要的采样点长度l=h*w*n*2,根据音频采样率fs,获取嵌入一个完整的水印需要音频的时间t=l/fs,根据时间t获取嵌入帧的帧长其中n为一个常量;然后获取定位区的能量大小数据,过滤掉定位区能量小于阈值的嵌入单元,并对可嵌入帧中定位区能量大于阈值的嵌入单元按能量大小降序排序,并选出h*w个作为水印的嵌入单元。

进一步的,所述阈值为嵌入帧中全部定位区能量均值的1/10,将嵌入帧中小于阈值的嵌入单元过滤掉后,若该嵌入帧剩下的嵌入单元小于h*w个时,则该嵌入帧不作嵌入,进而判断下一嵌入帧能否嵌入水印;若该嵌入帧剩下的嵌入单元大于h*w个时,该嵌入帧为可嵌入帧。

进一步的,步骤s3具体包括如下步骤:

s31,嵌入区和定位区的离散小波变换近似系数在复倒谱变换谱上的值分别为ccepse和ccepsl,截取复倒谱变换谱的中间平稳部分,设前后截取长度为l0,获得嵌入区和定位区的复倒谱变换均值分别为其中[l0:-l0]代表截取前后长度l0个元素后的中间部分;

s32,设置嵌入强度为β,β∈(0,1),则每个嵌入帧的量化步长q=meanl*β;

s33,对嵌入区的复倒谱变换均值meane作量化,设量化后的均值为mean′e、嵌入的信号为wi,则

由此获得缩放因子f=mean′e/meane,进而获取嵌入区的复倒谱变换系数ccepse[l0:-l0]′=ccepse[l0:-l0]*f;

s34,对嵌入后的音频信号作逆复倒谱变换,得到嵌入后的离散小波变换近似系数ac′=icceps(ccepse′),再进行逆离散小波变换得到一个嵌入帧嵌入音频水印后的音频信号其中sl为该嵌入帧中定位区的原始音频信号。

进一步的,该方法还包括合并嵌入区与定位区信号并进行破音修正:对每一个采样点嵌入前后的值进行对比,若变化幅度超过int16的最大值的215-1,则将采样点嵌入后逆复倒谱变换获取的近似系数值重新调整为原始值。

进一步的,破音修正后,获得包含嵌入信息的多个嵌入帧信号,合并全部嵌入帧信号获得嵌入水印后的音频信号。

本申请实施例的技术方案至少具有如下优点和有益效果:

利用嵌入单元中的定位区域能量值来决定嵌入区域的顺序,提高了该嵌入方法的鲁棒性并避免了音频文件压缩时造成的时域平移问题;同时,该设计采用了动态自适应量化来进一步提升该嵌入方法的鲁棒性和隐蔽性;通过该嵌入方法嵌入音频水印,在保证隐蔽性的同时,能够在相同音频信号的情况下嵌入更多的水印信息,从而在一定程度上提高音频水印的抗剪辑攻击性。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为量化结果示意图;

图2为掩蔽效应示意图;

图3为wav压缩后波形产偏移展示图;

图4为嵌入方法的方法步骤示意图;

图5为嵌入方法的具体流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

首先对几个技术原理进行介绍。

1.量化:将值映射在坐标系上,然后按照一个量化因子(步幅)对坐标系进行划分并假设其每一个步幅中所代表的值。水印算法中通常使用转换成二进制编码的嵌入信息,该嵌入信息的原始信息可以是图片也可以是文本等,那么假设量化因子为δ,0-δ代表0,δ-2δ代表1则有如图1所示的量化结果。从图中可以看出-δ-0代表1,0-δ代表0,δ-2δ代表1,2δ-3δ代表0,3δ-4δ代表1。

2.掩蔽效应:在人类听觉系统has中存在的一种效应,短时间内能量高的将遮蔽能量低的,使得人类只能听到能量高的部分。超前掩蔽即后部分能量高于前部分那么只能听到后部分,反之即有滞后掩蔽;同时掩蔽即前后能量高于当前部分那么当前部分将不会被听见而被前后的声音所掩蔽。掩蔽效应如图2所示。

3.时域变化:音频经过mp3有损压缩后,时域上的表现不仅仅只是幅度的变化还存在时序上的偏移,因为mp3压缩正交重叠变化时头尾帧需要补0,从而产生边缘效应,解码后这部分数据也加入到音频之中,即压缩后产生了时序上的偏移,偏移效果如图3所示。

4.频域失真:mp3是一种有损压缩,利用声音的频域掩蔽效应使量化噪音处于频域掩蔽阈值之下,去除了音频感知的冗余部分,这就会导致高频压缩后变化大而低频变化相对较小。实验发现mp3压缩后10khz以上的幅度变化超过了90%而3khz以下的幅度变化在4%以内,因此中低频对mp3编解码具有较好的鲁棒性。

如图4、图5所示,一种自适应混合域音频水印嵌入方法,包括如下步骤:

s1,数据预处理,将待嵌入水印的音频转换为目标格式的音频文件。

步骤s1中的所述目标格式的音频文件为采样率44.1khz或48khz、立体声、16bit的wav文件,并将wav文件读取到内存构造成2个int16的数组。

其中2个int16的数组表示左右声道、位深为16bit,即采样点的值占用16位;同时将要嵌入的水印信息构造为灰度图片,以增加系统的鲁棒性,此处用二进制表示水印信息。

s2,将预处理后得到的音频文件分帧处理,获取包括嵌入区和定位区的嵌入单元,将嵌入区和定位区的采样点分别进行离散小波变换并获得近似系数,再对二者的近似系数分别开展复倒谱变换。

步骤s2具体包括如下步骤:

s21,获取一个嵌入单元的长度;具体包括,获取包括嵌入区和定位区的嵌入单元,获取离骚小波变换的阶数k,同时设置常量α为嵌入区的扩容因子,α取值包括8、16、32,定义一个常量n表示嵌入区和定位区的长度,那么一个嵌入单元的长度即为2n,其中n=2k*α,则一个嵌入单元的采样点个数为2k*α。

在嵌入单元中,定位区域的作用是通过计算每个嵌入单元定位区的能量大小筛选出真正用来嵌入的区域以及嵌入顺序,同时还可提供嵌入强度的参考值。

对于离散小波变换而言,每一阶变换都会得到一个近似系数,若假设一段信号的长度为s,那么该信号最大能进行变化次数(阶)本实施例中由于采用的音频采样率为44.1khz,因此为保障嵌入部分的频率在3khz以下,则k=4,那么当α为8时,嵌入一个信息为需要采样点的个数为256个,则一秒音频能够嵌入44100/256=172个信息位。

s22,获取嵌入帧的长度,并根据嵌入帧中的有效嵌入单元数量选取作为水印嵌入的嵌入帧;具体包括,设水印图片的长和宽分别为h和w,则水印数据长度为h*w,由于,嵌入单元的长为2n,因此嵌入一次水印至少需要的采样点长度l=h*w*n*2,根据音频采样率fs,获取嵌入一个完整的水印需要音频的时间t=l/fs,根据时间t获取嵌入帧的帧长其中n为一个常量,为时间t与常量n的余数向上取整;然后获取一个嵌入帧中每个嵌入单元定位区的能量大小数据,过滤掉定位区能量小于阈值的嵌入单元,并对可嵌入帧中定位区能量大于阈值的嵌入单元按能量大小降序排序,并选出h*w个作为水印的嵌入单元。

其中,所述阈值为嵌入帧中全部定位区能量均值的1/10,将嵌入帧中小于阈值的嵌入单元过滤掉后,若该嵌入帧剩下的嵌入单元小于h*w个时,则该嵌入帧不作嵌入,进而判断下一嵌入帧能否嵌入水印;若该嵌入帧剩下的嵌入单元大于h*w个时,该嵌入帧为可嵌入帧。

通过对可嵌入帧中的剩余嵌入单元的能量降序排序,选出其中前h*w个作为音频水印的嵌入单元,由于选取的嵌入单元具有相对较高的能量,因此在一定程度上获得了更好的鲁棒性。

s23,将嵌入帧中的嵌入单元的嵌入区和定位区的采样点分别进行k阶离散小波变换并获得近似系数,再对二者的近似系数分别开展复倒谱变换,使离散小波变换后得到的较大数值变化经复倒谱变换后映射到一个小范围中。

由于复倒谱变换后的系数两端波动较大,因此在后续处理中仅取中间平稳部分进行音频水印嵌入。

s3,对嵌入区的复倒谱变换均值进行量化并嵌入音频水印信号,对嵌入后的音频信号作逆复倒谱变换,得到嵌入后的离散小波变换近似系数,再进行逆离散小波变换获得嵌入音频水印后的音频信号。

步骤s3具体包括如下步骤:

s31,嵌入区和定位区的离散小波变换近似系数在复倒谱变换谱上的值分别为ccepse和ccepsl,截取复倒谱变换谱的中间平稳部分,设前后截取长度为l0,获得嵌入区和定位区的复倒谱变换均值分别为其中[l0:-l0]代表截取前后长度l0个元素后的中间部分。

s32,设置嵌入强度为β,β∈(0,1),则每个嵌入帧的量化步长q=meanl*β;通过嵌入强度β的设置,该嵌入方法能够自适应的在能量高、鲁棒性好的区域适当提升量化步长来提高水印嵌入强度,在能量低的区域则选择较低的量化步长来提升嵌入的隐蔽性。

s33,对嵌入区的复倒谱变换均值meane作量化,设量化后的均值为mean′e、嵌入的信号为wi,则由此获得缩放因子f=mean′e/meane,进而获取嵌入区的复倒谱变换系数ccepse[l0:-l0]′=ccepse[l0:-l0]*f;

s34,对嵌入后的音频信号作逆复倒谱变换,得到嵌入后的离散小波变换近似系数ac′=icceps(ccepse′),再进行逆离散小波变换得到一个嵌入帧嵌入音频水印后的音频信号其中sl为该嵌入帧中定位区的原始音频信号。

同时,该方法还包括合并嵌入区与定位区信号并进行破音修正:对每一个采样点嵌入前后的值进行对比,若变化幅度超过int16的最大值的215-1,则将采样点嵌入逆复倒谱变换后获取的近似系数值重新调整为原始值;这样虽然可能丢失了一个位的水印信号但是避免了音频破音的情况优先保证音频质量,而且对于一张图片而言,部分位错误依然可以辨别。

破音修正后,获得包含嵌入信息的多个嵌入帧信号,合并全部嵌入帧信号获得嵌入水印后的音频信号。

在上述嵌入方法的过程中,嵌入强度β、离散小波变换的阶k以及扩容因子α,他们的值的大小都会对该嵌入方法的鲁棒性和隐蔽性造成影响,因此根据不同音频的采样率可以在上述过程中所给出的范围中适当选择,如本实施例中采样率为44.1khz时,此处的嵌入强度β=0.1,离散小波变换的阶k=4,扩容因子α=8。

由于量化步长越大鲁棒性越好,但隐蔽性会有所下降,因此量化步长也称作嵌入的品质系数,在该嵌入方法中,步长随着嵌入单元定位区能量的强弱而动态改变,因此嵌入强度β∈(0,1)的自适应动态变化能够控制嵌入后的音频的音质。

采用本申请所给出的音频水印嵌入方法,对应的水印提取方法为,对嵌入水印的音频文件重采样获得与嵌入时相同的采样率和位深,并进行分帧,再按照能量大小过滤筛选出嵌入帧中的嵌入单元以及嵌入顺序;进而再对每个嵌入单元的嵌入区和定位区开展离散小波变换和复倒谱变换,获得定位区复倒谱变换系数中的平稳部分均值,再通过嵌入强度β得到量化步长对嵌入区的复倒谱变换平稳部分均值并进行量化得到嵌入信息位,最后提取嵌入帧中全部的信号即为水印的二进制数据,再将二进制数据转换为h*w的灰度图即得到初始水印。

通过本申请方法获得的嵌入水印的音频,与嵌入前的音质几乎无变化,其次音频水印通过该方法嵌入具有较强的鲁棒性;在提取水印时不需要原文件,也能进行提取;同时,由于离散小波变换具有一定的抗ad/da转换的特性,因此可以运用于转录。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips