语音处理模型的训练方法、装置、电子设备和存储介质与流程
本申请涉及计算机技术领域,具体涉及语音技术领域、深度学习领域,尤其涉及一种语音处理模型的训练方法、装置、电子设备和存储介质。
背景技术:
近年,深度学习在改善通讯系统中的语音质量上取得了显著的成果。各种基于循环神经网络(recurrentneuralnetwork,英文简称:rnn)和卷积神经网络(convolutionalneuralnetworks,英文简称:cnn)的模型在即时通讯系统中取得了成功的应用。背景噪声和远端残余回波作为影响语音通话体验的主要问题,同样可以采用深度学习的模型来解决。在语音通讯系统中,这两个任务分别由噪声抑制(noisesuppression,英文简称:ns)器和残留回波抑制(residualechosuppression,英文简称:res)器两个模块来完成。然而,影响cnn和rnn模型在噪声抑制和残留回波抑制任务中性能表现的主要两个因素是:训练数据的模拟和模型结构的设计。
技术实现要素:
本申请提供了一种语音处理模型的训练方法、装置、电子设备以及存储介质。
根据本申请的第一方面,提供了一种语音处理模型的训练方法,包括:
生成近讲噪声语音信号和近讲无噪声语音信号;
生成远讲回波语音信号;
根据所述近讲噪声语音信号和所述远讲回波语音信号生成测试语音信号;
根据所述近讲无噪声语音信号生成目标语音信号;以及
根据所述测试语音信号和所述目标语音信号对所述语音处理模型进行训练。
根据本申请的第二方面,提供了一种语音处理模型的训练装置,包括:
第一生成模块,用于生成近讲噪声语音信号和近讲无噪声语音信号;
第二生成模块,用于生成远讲回波语音信号;
第三生成模块,用于根据所述近讲噪声语音信号和所述远讲回波语音信号生成测试语音信号;
第四生成模块,用于根据所述近讲无噪声语音信号生成目标语音信号;以及
训练模块,用于根据所述测试语音信号和所述目标语音信号对所述语音处理模型进行训练。
根据本申请的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的语音处理模型的训练方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行前述的语音处理模型的训练方法。
根据本申请实施例的技术方案,通过生成近讲噪声语音信号和近讲无噪声语音信号,并生成远讲回波语音信号,之后,可根据所述近讲噪声语音信号和所述远讲回波语音信号生成测试语音信号,并根据所述近讲无噪声语音信号生成目标语音信号,以及根据所述测试语音信号和所述目标语音信号对所述语音处理模型进行训练。由于本申请生成的训练数据既包含近讲噪声语音信号又包含远讲回波语音信号,该语音处理模型为用以降噪和降残留回波的联合模型,所以利用生成的训练数据对该联合模型进行训练,可以训练出用以降噪和降残留回波的联合模型,从而可以使得训练的模型可以稳定准确的抑制残留回波和平稳非平稳背景噪声。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例的语音处理模型在通讯系统所处位置的示例图;
图2是根据本申请一个实施例的语音处理模型的训练方法的流程图;
图3是根据本申请另一个实施例的语音处理模型的训练方法的流程图;
图4是根据本申请实施例的语音处理模型的训练方法的示例图;
图5是根据本申请又一个实施例的语音处理模型的训练方法的流程图;
图6(a)-图6(c)给出了一段语音信号在模型处理前后的波形与频谱图的前后对比示例图;
图7是根据本申请一个实施例的语音处理模型的训练装置的结构框图;
图8是根据本申请另一个实施例的语音处理模型的训练装置的结构框图;
图9是根据本申请又一个实施例的语音处理模型的训练装置的结构框图;
图10是根据本申请再一个实施例的语音处理模型的训练装置的结构框图;
图11是根据本申请又一个实施例的语音处理模型的训练装置的结构框图;
图12是用来实现本申请实施例的语音处理模型的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,为了降低背景噪声和残留回波,目前常用的方法是采用两个单独的模型,一个负责消除背景噪声,另外一个则专注于残留回波抑制。两个模型的训练也是采用两套完全独立的仿真数据。
其中,单通道背景噪声消除模型利用背景噪声和语音频谱的差异性来区分噪声和目标语音,数据特性往往与设备无关,仿真生成也相交简单。目前该降噪模型已经被大规模的应用在手机、电脑、耳机等诸多智能设备中。然而,残留回波数据则跟器件型号、播放音量、腔体设计、设备所处环境等诸多因素相关。此外与环境噪声不同,部分残留回波往往具有跟目标语音接近的频谱结构(这一点在线性自适应回波消除滤波器工作状态不佳时,尤为明显),因此需要引入额外的参考支路来区分目标语音和残留回波。参考支路的引入也给数据的模拟带来了更大的挑战。
由于使用场景的多变性,目前基于深度神经网络的残留回波抑制模型在实际产品中还鲜有应用。研究论文中的大部分模型训练数据也往往是通过简单的仿真或者小规模实录来获取。
另外,目前大多数的噪声和回波数据的仿真往往是离线完成后,离线生成的数据在网络的所有迭代过程中就不再改变,这限制了训练数据的多样性。
为了尽可能的增加训练数据的多样性以及训练出降噪和降残留回波联合模型,本申请提供了一种语音处理模型的训练方法、装置、电子设备以及存储介质。其中,需要说明的是,本申请实施例的语音处理模型可为用以降噪和降残留回波的联合模型,也就是说,该联合模型可用于噪声消除和残余回波抑制。作为一种可能的实现方式,语音处理模型(即上述的联合模型)是基于卷积神经网络(cnn)和递归神经网络(rnn),其中,cnn为2维卷积,卷积跨时间和频率两个维度,以保证网络有前后数帧和做有数个频带的视野,帮助网络更好的处理当前帧数据;rnn用来记住更早之前的近端目标声音和远端参考特征,同时考虑非线性回波往往是跨频带的,因此选用频带之间互相连接的rnn网络,以保证非线性产生的谐波残余同样可以被消除掉。此外,该语音处理模型还可包括:全连接层和激活层。其中,在卷积神经网络(cnn)之后接递归神经网络(rnn),递归神经网络(rnn)之后接全连接层,全连接层接激活层。
图1展示了本申请实施例的语音处理模型在通讯系统所处位置的示例图。如图1所示,语音处理模型的输入由三个之路组成,分别是:远端参考r(t),近端传声器采集原始带噪语音y(t)以及线性回波消除滤波器的输出信号sl(t),其中含有近端目标声音、背景噪声和回波残留。模型的输出为
y(t)=r(t)*h(t)+s(t)+n(t)
其中,式中
由此可见,本申请在训练语音处理模型时,需先生成用以训练该语音处理模型的训练数据,该训练数据可包括三组输入和一组目标输出,其中,该三组输入可包括近讲噪声语音信号、远讲回波语音信号以及测试语音信号,其中,该测试语音信号为带有回波残余和背景噪声的语音信号。该目标输出可为近讲无噪声语音信号。下面将结合附图描述训练数据的生成以及语音处理模型的训练。
图2是根据本申请一个实施例的语音处理模型的训练方法的流程图。需要说明的是,本申请实施例的语音处理模型的训练方法可应用于本申请实施例的语音处理模型的训练装置。该训练装置可被配置于电子设备,作为一种可能的实现方式,该电子设备可以是服务器设备。
如图2所示,该语音处理模型的训练方法可以包括:
步骤201,生成近讲噪声语音信号和近讲无噪声语音信号。
可选地,从无混响语音信号集中抽取部分无混响语音信号,并在该抽取到的无混响语音信号之后拼接一段静音信号,以得到近讲语音信号。获取房间脉冲响应rir(roomimpulseresponse,英文简称:rir)信号,并将该近讲语音信号和房间脉冲响应rir信号进行卷积以得到近讲远场语音信号,并基于该近讲远场语音信号以生成近讲无噪声语音信号。也就是说,将一段无混响语音信号拼接上静音信号之后,再与房间脉冲响应rir信号进行卷积并消噪,以得到近讲干净语音信号,即近讲无噪声语音信号。
在本申请的实施例中,可通过获取噪声语音信号,并根据噪声语音信号和近讲无噪声语音信号以生成近讲噪声语音信号。也就是说,在近讲干净语音上叠加噪声语音信号,可以得到近讲噪声语音信号。
步骤202,生成远讲回波语音信号。
可选地,利用仿真方法生成远讲回波语音信号。例如,获取带混响语音信号,并按照典型手机、笔记本电脑、电视、音箱等设备的扬声器和传声器布局,房间尺寸、墙面反射系数等参数,生成扬声器至传声器的rir信号,之后,可根据该带混响语音信号和rir信号生成远讲回波语音信号中麦克风通道信号。根据该带混响语音信号生成远讲回波语音信号中参考通道信号,之后,合并该麦克风通道信号和参考通道信号为双通道信号,该双通道信号即为远讲回波语音信号。
步骤203,根据近讲噪声语音信号和远讲回波语音信号生成测试语音信号。
在本申请一些实施例中,可采用随机信噪比混合的方式将近讲噪声语音信号和远讲回波语音信号进行混合以生成混合语音信号,并对混合语音信号进行线性回波消除以生成测试语音信号。
举例而言,可混合近讲噪声语音信号和远讲回波语音信号,混合方式可使用随机信噪比,混合时首先生成一个[minsnr,maxsnr]区间范围内的随机值snr,之后,根据如下公式计算远讲回波语音信号的增益:
其中,式中g为远讲回波语音信号的增益,ps为近讲噪声语音信号能量,pn为远讲回波语音信号能量,snr为随机生成的信噪比。
在将近讲噪声语音信号和远讲回波语音信号进行混合以生成混合语音信号之后,可将混合语音信号经线性回波消除(acousticechocancellation,英文简称:aec)处理以生成测试语音信号。
由于混合语音信号为麦克路信号,而aec的处理会使得麦克路信号引入额外延迟,为了保证参考和麦克路信号的相对延迟不受aec处理的影响,可选地,在本申请一些实施例中,在对混合语音信号进行线性回波消除之后,可对测试语音信号进行预设延迟补偿。也就是说,在对混合语音信号进行线性回波消除之后,需要引入一个固定延迟对齐模块,通过该延迟对齐模块对测试语音信号进行预设延迟补偿,以去除线性aec处理引入的额外延迟。
可选地,在对测试语音信号进行预设延迟补偿之后,可对经过延迟补偿的测视语音信号进行随机低通处理,确保模型可以供你工作在不同采样率下。
步骤204,根据近讲无噪声语音信号生成目标语音信号。
可选地,对近讲无噪声语音信号进行随机增益均衡以生成均衡近讲无噪声语音短句,并对均衡近讲无噪声语音短句进行拼接以生成目标语音信号。例如,对近讲无噪声语音信号进行拼接的方式可采用循环读取短句拼接,直到拼接后的信号长度大于一定的阈值。拼接后得到的目标语音信号即可作为语音处理模型训练的目标,拼接干净语音(即近讲无噪声语音)的目的时为了能够跟带噪信号(即上述的近讲噪声语音信号)可以一一对应。其中,拼接长句的作用有两个,一个是保证rnn类神经网络可以长时在即时通讯系统中稳定工作而不需要进行复位操作,另外一个是保证后续线性回波消除滤波器有足够的收敛时间。
步骤205,根据测试语音信号和目标语音信号对语音处理模型进行训练。
可选地,将测试语音信号输入至语音处理模型以生成预测语音信号,并将预测语音信号与目标语音信号进行比对以生成损失值,根据损失值对语音处理模型进行训练。其中,语音处理模型的作用是对输入的语音信号进行语音增强,以提高语音质量。因此,在训练该语音信号模型时,可通过测视语音信号对该语音处理模型进行训练,并根据训练结果调整语音处理模型的参数,由此不断迭代训练,使得训练后的语音处理模型的语音增强效果达到目标效果。
例如,可将测试语音信号作为模型的输入,输入至语音处理模型。语音处理模型可对该测试语音信号进行预测,以得到预测语音信号,并采用预设的损失函数计算该预测语音信号与目标语音信号之间的差异(即损失值),并判断该差异与目标损失值之间的误差,根据该误差调整语音处理模型的模型参数,利用调整模型参数后的语音处理模型继续对测试语音信号进行预测,由此不断迭代训练,使得预测语音信号与目标语音信号之间的差异与目标损失值之间的误差满足预设条件,此时使得训练后的语音处理模型的语音增强效果达到目标效果。也就是说,可采用深度学习的方式训练语音处理模型,从而使得语音处理模型的语音增强效果达到目标效果,训练的模型性能更佳。
在本申请的一些实施例中,如图3所示,所述生成近讲噪声语音信号和近讲无噪声语音信号的具体实现过程可包括:
步骤301,生成无混响语音信号,并在无混响语音信号之后拼接静音信号以生成近讲语音信号。
可选地,从无混响语音信号集中抽取部分无混响语音信号,并在该抽取到的无混响语音信号之后拼接一段静音信号,以得到近讲语音信号。由此,通过在无混响语音信号之后拼接一段静音信号的目的是为了可以保证训练数据中存在足够的只含有远端回波的数据段,跟实际应用场景更加匹配。
步骤302,生成第一房间脉冲响应rir信号并作为第一远场语音信号。
可选地,配置房间尺寸、声源和传声器空间坐标、混响时间等参数,离线生成房间脉冲响应rir信号(即上述的第一房间脉冲响应rir信号),并将该生成的第一房间脉冲响应rir信号作为第一远场语音信号。
步骤303,根据近讲语音信号和第一远场语音信号生成近讲远场语音信号。
在本申请的一些实施例中,将近讲语音信号和第一远场语音信号进行卷积以生成第一卷积信号,并对第一卷积信号进行随机频响均衡以生成近讲远场语音信号。也就是说,将近讲语音信号卷积第一远场语音信号后进行随机频响均衡,生成近讲远场语音信号。其中,该随机频响均衡可以仿真不同房间对不同频率段信号反射系数的差异,并进一步增加数据的多样性。作为一种可能的实现方式,随机频响均衡可通过一个二阶的无限脉冲响应(infiniteimpulseresponse,英文简称:iir)数字滤波器来实现,该滤波器具有如下形式:
其中,式中a1,a2,b1,b2,在训练过程中会随机设置为-0.4~0.4的一个随机值,以达到随机均衡滤波的作用,z为第一卷积信号,h(z)为经过随机频响均衡后得到的近讲远场语音信号。
步骤304,根据近讲远场语音信号生成近讲无噪声语音信号。
在本申请的一些实施例中,可通过语音激活检测对近讲远场语音信号之中的噪声进行消除以生成近讲无噪声语音信号。也就是说,由于实际录制的干净语音中难免会存在一些小的背景底噪,所以,可使用语音激活检测(voiceactivitydetection,英文简称:vad)清除近讲远场语音信号之中的噪声段,以得到干净的无噪声语音信号,即近讲无噪声语音信号,这样可以进一步压制干净语音中的噪声。可见,vad后的近讲远场语音信号可作为语音处理模型训练的目标。
步骤305,获取噪声语音信号。
在本申请的一些实施例中,获取近讲远场语音信号的长度,并获取长度与近讲远场语音信号的长度相同的噪声信号,之后,对噪声信号进行随机频响均衡和/或随机幅度增益均衡以生成噪声语音信号。
举例而言,可先确定近讲远场语音信号的长度,之后,可从噪声集中随机抽取与近讲远场语音信号相同长度的噪声信号,并对噪声信号进行随机频响均衡或随机幅度增益均衡以生成噪声语音信号。或者,在从噪声集中随机抽取与近讲远场语音信号相同长度的噪声信号之后,可对噪声信号进行随机频响均衡和随机幅度增益均衡,以生成噪声语音信号。其中,本步骤中的随机频响均衡方式与上述步骤303中的随机频响均衡方式一致,目的是进一步增加训练数据多样性,随机幅度增益均衡处理则是为了模拟实际通讯场景下噪声强度的差异,保证噪声和语音能混合出多种信噪比的带噪信号。
步骤306,根据噪声语音信号和近讲远场语音信号生成近讲噪声语音信号。
在本申请一些实施例中,将噪声语音信号和近讲远场语音信号进行拼接以生成近讲噪声语音短句,并对近讲噪声语音短句进行随机增益均衡以生成均衡近讲噪声语音短句,之后,对均衡近讲噪声语音短句进行拼接以生成近讲噪声语音信号。例如,可先将噪声语音信号和近讲远场语音信号进行混合并拼接,以得到近讲噪声语音短句,之后,可对近讲噪声语音短句进行随机增益均衡以生成均衡近讲噪声语音短句,并对均衡近讲噪声语音短句进行拼接以生成近讲噪声语音信号。由此,混合噪声语音信号和近讲远场语音信号以形成带噪信号(即上述的近讲噪声语音信号)后,再次进行随机幅度增益处理,模拟声源的强度和传声器灵敏度差异引起的采集信号的幅度差,例如,由于传声器灵敏度和声源强度差异最终都体现在采集信号幅度(峰值)的差异,因此,这两点可以通过对信号乘以一个随机的常数来实现。
需要说明的是,对带噪声信号进行长句拼接的目的是为了给模型提供一个长句的输入。拼接长句的作用有两个,一个是保证rnn类神经网络可以长时在即时通讯系统中稳定工作而不需要进行复位操作,另外一个是保证后续线性回波消除滤波器有足够的收敛时间。
为了使得本领域技术人员能够更加清楚地了解本申请,下面将结合图4进行详细描述。
举例而言,如图4所示,所述近讲噪声语音信号和近讲无噪声语音信号的生成流程可如下:1)配置房间尺寸、声源和传声器空间坐标、混响时间等参数,离线生成房间脉冲响应(roomimpulseresponse,rir)数据库:rir1。2)抽取部分无混响语音并在该语音段后拼接静音段以生成近讲语音信号,这样做主要是为了保证仿真数据中存在足够的只含有远端回波的数据段,跟实际应用场景更加匹配。3)近讲语音信号卷积rir1后进行随机频响均衡,生成近讲远场语音信号。这里的随机频响均衡可以仿真不同房间对不同频率段信号反射系数的差异,并进一步增加数据的多样性。随机均衡通过一个二阶的无限脉冲响应(infiniteimpulseresponse,iir)数字滤波器来实现。4)使用语音激活检测vad清零近讲远场语音信号之中的弱噪声段。因为实际录制的干净语音中难免会存在一些小的背景底噪,这样做可以进一步压制干净语音中的弱噪声。vad后的远场干净语音信号会作为网络训练的目标。5)从噪声集中随机抽取与近讲远场语音信号相同长度的噪声,并对噪声进行随机频响均衡和随机幅度增益处理以生成所述噪声语音信号。其中随机频响均衡方式跟3)中一致,目的是进一步增加仿真数据多样性,随机幅度增益处理则是为了模拟实际通讯场景下噪声强度的差异,保证噪声和语音能混合出多种信噪比的带噪信号。6)混合噪声语音信号和近讲无噪声语音信号以形成带噪信号后,再次进行随机幅度增益处理,模拟声源的强度和传声器灵敏度差异引起的采集信号的幅度差。7)长句拼接:需要进行长句拼接的信号有两个,一个是带噪信号,进行长句拼接后得到近讲噪声语音信号;另外一个是干净语音信号(即近讲无噪声语音信号),进行长句拼接之后可得到目标语音信号。两个信号的拼接方法完全一致均为循环读取短句拼接,直到拼接后的信号长度大于一定的阈值。其中带噪声信号拼接是为了给模型提供一个长句的输入,干净语音作为模型训练的目标,拼接干净语音则是为了跟带噪信号可以一一对应。拼接长句的作用有两个,一个是保证rnn类神经网络可以长时在即时通讯系统中稳定工作而不需要进行复位操作,另外一个是保证后续线性回波消除滤波器有足够的收敛时间。
在本申请一些实施例中,如图4和图5所示,所述生成远讲回波语音信号的具体实现过程可包括:
步骤501,生成第二远讲语音信号。
可选地,从远讲语音信号集中随机抽取一段远讲语音信号作为第二远讲语音信号。其中,该第二远讲语音信号为带有混响语音信号。
步骤502,生成第二rir信号并作为第二远场语音信号。
可选地,按照典型手机、笔记本电脑、电视、音箱等设备的扬声器和传声器布局,房间尺寸、墙面反射系数等参数,生成扬声器至传声器的rir数据库:rir2,将该生成的rir信号可作为第二远场语音信号。
步骤503,根据第二远讲语音信号和第二远场语音信号生成麦克风通道的第一远讲回波语音信号。
在本申请一些实施例中,对第二远讲语音信号进行截幅处理以生成截幅远讲语音信号,并对截幅远讲语音信号进行非线性处理以生成麦克风通道的远讲语音信号,以及将麦克风通道的远讲语音信号与第二远场语音信号进行卷积以生成麦克风通道的第一远讲回波语音信号。其中,该非线性处理可为无记忆非线性处理或动态非线性处理。
例如,可将第二远讲语音信号经过软截幅处理以生成截幅远讲语音信号,并对截幅远讲语音信号进行无记忆非线性函数或者动态非线性系统预处理,模拟扬声器器件非线性,以生成麦克风通道的远讲语音信号。其中,软截幅处理可选用如下的函数:
其中,式中a用来决定软接幅的最大值,r(t)为输入参考,c(t)为软截幅后输出。
无记忆非线性函数选用如下的反曲函数:
其中,ρ表示反曲斜率,sn(t)为静态非线性函数的输出,
动态非线性系统则选用将sn(t)计算公式中的q(t)替换成如下的三阶非线性函数:
在得到麦克风通道的远讲语音信号之后,可将该麦克风通道的远讲语音信号与第二远场语音信号进行卷积,以生成麦克风通道的第一远讲回波语音信号。
步骤504,根据第二远讲语音信号生成参考通道的第二远讲回波语音信号。
可选地,将第二远讲语音信号(即上述的带混响语音信号)进行随机增益均衡处理,模拟不同设备捕获到参考的动态范围差异,以生成参考通道的第二远讲回波语音信号,也就是说远讲回波语音信号中的参考通道信号。
步骤505,根据第一远讲回波语音信号和第二远讲回波语音信号生成远讲回波语音信号。
可选地,将第一远讲回波语音信号和第二远讲回波语音信号进行合并,以得到远讲回波语音信号。也就是说,合并麦克风通道信号和参考通道信号为双通道信号,该双通道信号即为远讲回波语音信号。
为了能够增加数据多样性,还可结合实录方法来生成该远讲回波语音信号。可选地,在本申请一些实施例中,可通过多平台(例如不同的手机、平板电脑或其他录制设备)录制实录远讲语音信号和实录远讲参考语音信号,并对实录远讲参考语音信号进行随机增益均衡以生成参考通道的实录远讲参考语音信号,之后,根据实录远讲语音信号和参考通道的实录远讲参考语音信号生成实录远讲回波语音信号。
例如,如图4所示,可录制实录远讲语音信号和实录远讲参考语音信号,并对实录远讲参考语音信号进行随机增益均衡以生成参考通道的实录远讲参考语音信号,之后,可将实录远讲语音信号和参考通道的实录远讲参考语音信号进行通道合并,并对通道合并后的语音信号进行延迟对齐后,得到实录远讲回波语音信号,并将该实录远讲回波语音信号同样加入远讲回波数据库中,也作为远讲回波语音信号。如图4所示,在得到远讲回波语音信号时,可随机延迟麦克路信号,以模拟实际应用场景下传声器采集信号和远讲参考无法精确对齐的情况。由此,通过使用仿真和实录的方式构建远讲回波数据库,保证了回波数据的多样性。
在得到近讲噪声语音信号和远讲回波语音信号之后,可生成测试语音信号。如图4所示,可采用随机信噪比混合的方式将近讲噪声语音信号和远讲回波语音信号进行混合以生成混合语音信号,并对混合语音信号进行线性回波消除aec处理,之后,对aec处理后的混合语音信号依次进行固定延迟对齐和随机低通处理,以得到生成测试语音信号。
在得到测试语音信号之后,如图4所示,可提取该测试语音信号的特征,通过语音处理模型基于该提取的特征进行预测,以得到预测语音信号,利用损失函数计算该预测语音信号与目标语音信号之间的差异(即损失值),并判断该差异与目标损失值之间的误差,根据该误差调整语音处理模型的模型参数,利用调整模型参数后的语音处理模型继续对测试语音信号进行预测,由此不断迭代训练,使得预测语音信号与目标语音信号之间的差异与目标损失值之间的误差满足预设条件,此时使得训练后的语音处理模型的语音增强效果达到目标效果。
为了尽可能的增加数据多样性,除去rir数据类库生成之外,上述处理流程均在训练过程中在线完成。由于cpu(centralprocessingunit,中央处理器)中数据生成明显慢于gpu(graphicsprocessingunit,图形处理器)的模型训练,本申请还为此设计了一个数据缓冲器,当gpu无法及时的获取到最新的cpu生成数据时,可以从该数据缓冲器中加载数据,合适的数据缓冲机制设计,不会影响训练模型的效果。
举例而言,数据缓冲器的工作流程可如下:1)初始化阶段先创建大小为n的数据缓冲buffer;2)接下来不断生成新的数据直到填满数据缓冲buffer;3)数据填满后新生成的数据会随机替换缓冲buffer中的数据;4)数据填满缓冲器之前,每条新的数据在填充数据缓冲器的同时还会送给模型训练器,进行模型训练;5)数据填满缓冲器后,数据生成器会不断生成新的数据随机替换数据缓冲器中的旧数据,同时训练器也会不断从数据缓冲器中随机加载数据,两者为异步模式,这样可以避免数据生成器和训练器之间的速度不匹配问题。
下面给出该语音处理模型的处理效果,以说明本申请的实际效果。如图6(a)-图6(c)所示,给出了一段语音信号在模型处理前后的波形与频谱图的前后对比示例图。如图6(a)为带噪和残余回波的实录语音,其中a框选区为近讲语音,b框选区为残留回波,另外图6(a)的信号中还混油非平稳和平稳的背景噪声。图6(b)是参考路信号,图6(c)为使用本申请生成数据训练出来的模型处理后的结果,可以看出,时域上,近讲语音段之外的残留回波和环境噪声被压制到了一个很低的水平;语谱图上,处理后的数据非近讲语音段外仅存有少量的残影,近讲语音也几乎没有损伤。此外,语音段内的背景噪声也有一定的抑制。该示例表明,本申请生成的数据可以训练出稳定消除残余回波和背景噪声的联合模型。
根据本申请实施例的语音处理模型的训练方法,可以生成一套可以用于训练降噪和降残余回波联合模型(即上述的语音处理模型)的训练数据,使得该训练数据可以用于背景噪声消除和残余回波抑制联合模型的训练。另外,本申请中的训练数据生成全部是训练过程中完成的,尽可能保证噪声、混响语音、残余回波之间的充分混合,增加训练数据的多样性。此外,通过使用仿真和多平台实录的方法构建回波数据库,保证了回波数据的多样性。由此可见,本申请实施例可生成多样性的训练数据,进而利用该多样性的训练数据训练语音处理模型时,可以训练出稳定消除残余回波和背景噪声的联合模型,可以使得训练好的语音处理模型的语音增强效果更佳。
图7是根据本申请一个实施例的语音处理模型的训练装置的结构框图。如图7所示,该语音处理模型的训练装置700可以包括:第一生成模块710、第二生成模块720、第三生成模块730、第四生成模块740和训练模块750。
具体地,第一生成模块710用于生成近讲噪声语音信号和近讲无噪声语音信号。在本申请一些实施例中,如图8所示,该第一生成模块710可以包括:第一生成单元711、第二生成单元712、第三生成单元713、第四生成单元714、获取单元715和第五生成单元716。其中,第一生成单元711用于生成无混响语音信号,并在无混响语音信号之后拼接静音信号以生成近讲语音信号;第二生成单元712用于生成第一房间脉冲响应rir信号并作为第一远场语音信号;第三生成单元713用于根据近讲语音信号和第一远场语音信号生成近讲远场语音信号;第四生成单元714用于根据近讲远场语音信号生成近讲无噪声语音信号;获取单元715用于获取噪声语音信号;第五生成单元716用于根据噪声语音信号和近讲无噪声语音生成近讲噪声语音信号。
在本申请一些实施例中,第三生成单元713可将近讲语音信号和第一远场语音信号进行卷积以生成第一卷积信号,并对第一卷积信号进行随机频响均衡以生成近讲远场语音信号。
在本申请的一些实施例中,第四生成单元714可通过语音激活检测对近讲远场语音信号之中的噪声进行消除以生成所述近讲无噪声语音。
在本申请一些实施例中,获取单元715具体用于:获取近讲远场语音信号的长度;获取长度与近讲远场语音信号的长度相同的噪声信号;对噪声信号进行随机频响均衡和/或随机幅度增益均衡以生成噪声语音信号。
在本申请一些实施例中,第五生成单元716具体用于:将噪声语音信号和近讲无噪声语音信号进行拼接以生成近讲噪声语音短句;对近讲噪声语音短句进行随机增益均衡以生成均衡近讲噪声语音短句;以及对均衡近讲噪声语音短句进行拼接以生成近讲噪声语音信号。
第二生成模块720用于生成远讲回波语音信号。在本申请一些实施例中,如图9所示,该第二生成模块720可以包括:第一生成单元721、第二生成单元722、第三生成单元723、第四生成单元724和第五生成单元725。其中,第一生成单元721用于生成第二远讲语音信号;第二生成单元722用于生成第二rir信号并作为第二远场语音信号;第三生成单元723用于根据第二远讲语音信号和第二远场语音信号生成麦克风通道的第一远讲回波语音信号;第四生成单元724用于根据第二远讲语音信号生成参考通道的第二远讲回波语音信号;第五生成单元725用于根据第一远讲回波语音信号和第二远讲回波语音信号生成远讲回波语音信号。
在本申请一些实施例中,第三生成单元723具体用于:对第二远讲语音信号进行截幅处理以生成截幅远讲语音信号;对截幅远讲语音信号进行非线性处理以生成麦克风通道的远讲语音信号;以及将麦克风通道的远讲语音信号与第二远场语音信号进行卷积以生成麦克风通道的第一远讲回波语音信号。
在本申请一些实施例中,第四生成单元724具体用于:对第二远讲语音信号进行随机增益均衡以生成参考通道的第二远讲回波语音信号。
第三生成模块730用于根据近讲噪声语音信号和远讲回波语音信号生成测试语音信号。在本申请一些实施例中,第三生成模块730可采用随机信噪比混合的方式将近讲噪声语音信号和远讲回波语音信号进行混合以生成混合语音信号,并对混合语音信号进行线性回波消除以生成测试语音信号。
第四生成模块740用于根据近讲无噪声语音信号生成目标语音信号。在本申请一些实施例中,第四生成模块740具体用于:对近讲无噪声语音信号进行随机增益均衡以生成均衡近讲无噪声语音短句;对均衡近讲无噪声语音短句进行拼接以生成目标语音信号。
训练模块750用于根据测试语音信号和目标语音信号对语音处理模型进行训练。在本申请一些实施例中,训练模块750具体用于:将测试语音信号输入至语音处理模型以生成预测语音信号;将预测语音信号与目标语音信号进行比对以生成损失值;以及根据损失值对语音处理模型进行训练。
在本申请一些实施例中,如图10所示,该训练装置700还可包括:录制模块760、第五生成模块770和第六生成模块780。其中,录制模块770用于录制实录远讲语音信号和实录远讲参考语音信号;第五生成模块770用于对实录远讲参考语音信号进行随机增益均衡以生成参考通道的实录远讲参考语音信号;第六生成模块780用于根据实录远讲语音信号和参考通道的实录远讲参考语音信号生成实录远讲回波语音信号。
在本申请一些实施例中,如图11所示,该训练装置700还可包括:延迟补偿模块790。其中,延迟补偿模块790用于在对混合语音信号进行线性回波消除之后,对测试语音信号进行预设延迟补偿。
根据本申请实施例的语音处理模型的训练装置,可以生成一套可以用于训练降噪和降残余回波联合模型(即上述的语音处理模型)的训练数据,使得该训练数据可以用于背景噪声消除和残余回波抑制联合模型的训练。另外,本申请中的训练数据生成全部是训练过程中完成的,尽可能保证噪声、混响语音、残余回波之间的充分混合,增加训练数据的多样性。此外,通过使用仿真和多平台实录的方法构建回波数据库,保证了回波数据的多样性。由此可见,本申请实施例可生成多样性的训练数据,进而利用该多样性的训练数据训练语音处理模型时,,可以训练出稳定消除残余回波和背景噪声的联合模型,可以使得训练好的语音处理模型的语音增强效果更佳。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图12所示,是根据本申请实施例的用以实现语音处理模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该电子设备包括:一个或多个处理器1201、存储器1202,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1201为例。
存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音处理模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音处理模型的训练方法。
存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音处理模型的训练方法对应的程序指令/模块(例如,附图7所示的第一生成模块710、第二生成模块720、第三生成模块730、第四生成模块740和训练模块750)。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音处理模型的训练方法。
存储器1202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用以实现语音处理模型的训练方法的电子设备的使用所创建的数据等。此外,存储器1202可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1202可选包括相对于处理器1201远程设置的存储器,这些远程存储器可以通过网络连接至用以实现语音处理模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用以实现语音处理模型的训练方法的电子设备还可以包括:输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置1203可接收输入的数字或字符信息,以及产生与用以实现语音处理模型的训练的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,可以生成一套可以用于训练降噪和降残余回波联合模型(即上述的语音处理模型)的训练数据,使得该训练数据可以用于背景噪声消除和残余回波抑制联合模型的训练。另外,本申请中的训练数据生成全部是训练过程中完成的,尽可能保证噪声、混响语音、残余回波之间的充分混合,增加训练数据的多样性。此外,通过使用仿真和多平台实录的方法构建回波数据库,保证了回波数据的多样性。由此可见,本申请实施例可生成多样性的训练数据,进而利用该多样性的训练数据训练语音处理模型时,,可以训练出稳定消除残余回波和背景噪声的联合模型,可以使得训练好的语音处理模型的语音增强效果更佳。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除