模型训练方法、装置、电子设备及存储介质与流程
本公开涉及计算机技术领域,尤其涉及一种模型训练方法、装置、电子设备及存储介质。
背景技术:
随着计算机技术的发展,神经网络越来越多的被运用到音频数据的处理中,相比于传统算法,神经网络往往能获得更好的效果和性能。在音频数据的去噪过程中,首先对待训练模型进行训练,得到训练好的模型,然后通过训练好的模型对音频数据进行去噪,得到去除噪声数据后的音频数据。
在待训练模型的训练过程中,样本数据是随机的,样本数据可以是信噪较低的音频数据或信噪比较高的音频数据,由随机样本数据训练得到的模型,无法针对不同信噪比范围的音频数据,采用不同的去噪强度进行去噪。
技术实现要素:
本公开提供一种模型训练方法、装置、电子设备及存储介质,以至少解决在音频数据的去噪过程中,模型无法针对不同信噪比范围的音频数据,采用不同的去噪强度进行去噪的问题。
本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种模型训练方法,包括:
获取多个样本数据,每个所述样本数据包括原始音频数据和带噪音频数据;
根据所述原始音频数据和带噪音频数据,确定每个样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息,所述第一特征信息用于表示所述带噪音频数据在相应采样点的信噪比信息;
调整所述第一特征信息以得到目标特征信息;其中,当所述第一特征信息小于等于第一阈值时,减小所述第一特征信息,当所述第一特征信息大于等于第二阈值时,增大所述第一特征信息,所述第一阈值小于所述第二阈值;
将所述幅度特征信息输入待训练模型中,得到所述待训练模型输出的第二特征信息;
根据所述第二特征信息和所述目标特征信息,获取所述待训练模型的损失值;
根据所述损失值调整所述待训练模型的模型参数,直至损失值小于等于预设阈值时,将所述待训练模型作为训练好的模型。
可选的,所述调整所述第一特征信息以得到目标特征信息,包括:
当所述第一特征信息小于等于所述第一阈值时,将所述第一特征信息减小到第三阈值以下;
当所述第一特征信息大于等于所述第二阈值时,将所述第一特征信息增大到第四阈值以上。
可选的,还包括:当所述第一特征信息大于所述第一阈值、且小于所述第二阈值时,将所述第一特征信息调整到第五阈值至第六阈值之间,所述第五阈值小于所述第六阈值。
可选的,所述调整所述第一特征信息以得到目标特征信息,包括:通过映射函数对所述第一特征信息进行调整,以得到所述目标特征信息。
可选的,所述第一特征信息为所述采样点对应的所述原始音频数据的幅度值与所述带噪音频数据的幅度值之间的比值,所述第一特征信息小于等于1。
可选的,所述根据所述原始音频数据和带噪音频数据,确定每个样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息,包括:
将目标样本数据中的原始音频数据转为第一频域信号,以及将所述目标样本数据中的带噪音频数据转为第二频域信号;所述目标样本数据为所述多个样本数据中的任意一个样本数据;
根据所述第一频域信号和所述第二频域信号,确定所述目标样本数据中的带噪音频数据在所述各个采样点的第一特征信息和幅度特征信息。
根据本公开实施例的第二方面,提供一种模型训练装置,包括:
第一获取模块,被配置为获取多个样本数据,每个所述样本数据包括原始音频数据和带噪音频数据;
确定模块,被配置为根据所述原始音频数据和带噪音频数据,确定每个样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息,所述第一特征信息用于表示所述带噪音频数据在相应采样点的信噪比信息;
第一调整模块,被配置为调整所述第一特征信息以得到目标特征信息,其中,当所述第一特征信息小于等于第一阈值时,减小所述第一特征信息,当所述第一特征信息大于等于第二阈值时,增大所述第一特征信息,所述第一阈值小于所述第二阈值;
输入模块,被配置为将所述幅度特征信息输入待训练模型中,得到所述待训练模型输出的第二特征信息;
第二获取模块,被配置为根据所述第二特征信息和所述目标特征信息,获取所述待训练模型的损失值;
第二调整模块,被配置为根据所述损失值调整所述待训练模型的模型参数,直至损失值小于等于预设阈值时,将所述待训练模型作为训练好的模型。
可选的,所述第一调整模块,具体被配置为当所述第一特征信息小于等于所述第一阈值时,将所述第一特征信息减小到第三阈值以下;当所述第一特征信息大于等于所述第二阈值时,将所述第一特征信息增大到第四阈值以上。
可选的,所述第一调整模块,还具体被配置为当所述第一特征信息大于所述第一阈值、且小于所述第二阈值时,将所述第一特征信息调整到第五阈值至第六阈值之间,所述第五阈值小于所述第六阈值。
可选的,第一调整模块,具体被配置为通过映射函数对所述第一特征信息进行调整,以得到所述目标特征信息。
可选的,所述第一特征信息为所述采样点对应的所述原始音频数据的幅度值与所述带噪音频数据的幅度值之间的比值,所述第一特征信息小于等于1。
可选的,所述确定模块,具体被配置为将目标样本数据中的原始音频数据转为第一频域信号,以及将所述目标样本数据中的带噪音频数据转为第二频域信号;所述目标样本数据为所述多个样本数据中的任意一个样本数据;根据所述第一频域信号和所述第二频域信号,确定所述目标样本数据中的带噪音频数据在所述各个采样点的第一特征信息和幅度特征信息。
根据本公开实施例的第三方面,提供另一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述本公开实施例的第一方面提供的模型训练方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述本公开实施例的第一方面提供的模型训练方法。
根据本公开实施例的第五方面提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如本公开实施例的第一方面提供的模型训练方法。
本公开实施例提供的技术方案至少带来以下有益效果:
本实施例中,获取多个样本数据,根据样本数据中的原始音频数据和带噪音频数据,确定每个样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息。调整第一特征信息以得到目标特征信息,将幅度特征信息输入待训练模型中,得到待训练模型输出的第二特征信息,根据第二特征信息和目标特征信息,获取待训练模型的损失值。根据损失值调整待训练模型的模型参数,直至损失值小于等于预设阈值时,将待训练模型作为训练好的模型。在通过训练好的模型对音频数据进行去噪时,在较低的信噪比范围时可以增强模型的去噪强度,在较高的信噪比范围时可以降低模型的去噪强度,可以使训练好的模型针对不同信噪比范围内的音频数据,获得不同的去噪效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种模型训练方法的流程图;
图2是根据一示例性实施例示出的另一种模型训练方法的流程图;
图3为第一映射函数的曲线图;
图4为第二映射函数的曲线图;
图5是根据一示例性实施例示出的一种模型训练装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图;
图7是根据一示例性实施例示出的又一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种模型训练方法的流程图,参照图1,本实施例提供的模型训练方法可以适用于音频数据的去噪,以使训练后的模型可以针对不同信噪比范围的音频数据,获得不同的去噪强度。本实施例提供的模型训练方法可以由模型训练装置执行,模型训练装置通常以软件和/或硬件的方式实现,模型训练装置可以设置于电子设备,该方法可以包括:
步骤101、获取多个样本数据。
本实施例中,每个样本数据包括原始音频数据和带噪音频数据,带噪音频数据由原始音频数据和噪声数据合成。具体获取样本数据的过程可参考现有技术,本实施例对此不做限制。
步骤102、根据原始音频数据和带噪音频数据,确定每个样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息。
其中,第一特征信息用于表示带噪音频数据在相应采样点的信噪比信息,幅度特征信息为与采样点对应的带噪音频数据的幅度值。
本实施例中,在获取到样本数据之后,可以根据样本数据包括的原始音频数据和带噪音频数据,确定带噪音频数据在各个采样点的第一特征信息和对应的幅度特征信息,也即确定带噪音频数据在每个采样点的信噪比和幅度值。其中,第一特征信息可以为采样点对应的原始音频数据的幅度值与带噪音频数据的幅度值之间的比值,并且可以设置第一特征信息小于等于1。
示例的,步骤102可以通过如下方式实现:
将目标样本数据中的原始音频数据转为第一频域信号,以及将目标样本数据中的带噪音频数据转为第二频域信号;目标样本数据为多个样本数据中的任意一个样本数据;
根据第一频域信号和第二频域信号,确定目标样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息。
本实施例中,可以对样本数据中包括的原始音频数据和带噪音频数据进行相同的傅里叶变换,将原始音频数据和带噪音频数据分别由时域信号转为频域信号,以分别获取原始音频数据和带噪音频数据的幅度值和频率值等信息。例如,可以通过相同的傅里叶变换将原始音频数据转换为第一频域信号,以及将带噪音频数据转换为第二频域信号,第一频域信号可以包括频率为3khz、5khz、7khz和9khz的正弦波分量,第二频域信号也可以包括频率为3khz、5khz、7khz和9khz的正弦波分量。然后计算每个相同频率点(采样点)对应的第一频域信号的幅度值和第二频域信号的幅度值之间的比值,得到对应的第一特征信息,同时将第二频域信号的幅度值作为对应的幅度特征信息。如计算采样点为3khz时,第一频域信号的幅度值和第二频域信号的幅度值之间的比值,得到一个第一特征信息0.3,同时,可以确定3khz时第二频域信号的幅度值为与计算得到的第一特征信息0.3对应的幅度特征信息。同理,依次计算得到采样点5khz、7khz和9khz分别对应的第一特征信息0.4、第一特征信息0.6和第一特征信息0.9,并确定每个第一特征信息分别对应的幅度特征信息。
需要说明的时,对原始音频数据和带噪音频数据进行傅里叶变换时,变换采用的参数可以根据需求选择,具体傅里叶变换的过程可参考现有技术,本实施例对此不做限制。
步骤103、调整第一特征信息以得到目标特征信息。
其中,当第一特征信息小于等于第一阈值时,减小第一特征信息,当第一特征信息大于等于第二阈值时,增大第一特征信息,第一阈值小于第二阈值。
本实施例中,在确定各个采样点的第一特征信息和幅度特征信息之后,可以对第一特征信息进行调整,得到与第一特征信息对应的目标特征信息。第一阈值与第二阈值分别对应不同的信噪比。结合步骤101至步骤102,第一特征信息表示带噪音频数据的信噪比范围,第一特征信息越大表示带噪音频数据的信噪比越大,第一特征信息越小表示带噪音频数据的信噪比越低。第一特征信息小于等于第一阈值时,表示带噪音频数据的信噪比较低,第一特征信息大于等于第二阈值时,表示带噪音频数据的信噪比较高。
示例的,可以设置第一阈值为0.3(带噪音频数据的信噪比较低),当第一特征信息为0.3时,可以减小第一特征信息,使减小后的第一特征信息(即目标特征信息)为0.2。同理,可以设置第二阈值为0.9(带噪音频数据的信噪比较高),当第一特征信息为0.9时,增大第一特征信息,使增大后的第一特征信息(即目标特征信息)为0.95。以上仅为示例性举例,第一阈值和第二阈值的具体数值,以及第一特征信息的减小和增大方法可以根据需求设置,本实施例对此不做限制。
步骤104、将幅度特征信息输入待训练模型中,得到待训练模型输出的第二特征信息。
步骤105、根据第二特征信息和目标特征信息,获取待训练模型的损失值。
步骤106、根据损失值调整待训练模型的模型参数,直至损失值小于等于预设阈值时,将待训练模型作为训练好的模型。
针对步骤104至步骤106,在根据目标特征信息和对应的幅度特征信息对待训练模型进行训练时,可以将每个采样点的幅度特征信息作为待训练模型的输入,并将每个采样点对应的目标特征信息(即对每个采样点的第一特征信息进行调整后得到的目标特征信息)作为待训练模型的目标,以此对待训练模型进行训练。
例如,首先可以将采样点3khz对应的幅度特征信息输入待训练模型,得到待训练模型输出的与采样点3khz对应的第二特征信息。然后根据采样点3khz对应的目标特征信息和第二特征信息计算得到待训练模型的损失值,根据损失值对待训练模型的模型参数进行调整,完成对待训练模型的一次训练。以此类推,依次根据采样点5khz、7khz和9khz分别对应的幅度特征信息和目标特征信息对待训练模型进行训练。同理,根据每个样本数据中各个采样点对应的目标特征信息和幅度特征信息对待训练模型进行多次训练,直至损失值小于等于预设阈值时,确定训练完成,将待训练模型作为训练好的模型。其中,预设阈值的具体数值可以根据需求设置,损失值的计算方法和模型参数的调整过程可参考现有技术,本实施例对此不做限制。
本实施例中,在得到训练好的模型之后,可以通过训练好的模型对音频数据进行去噪,得到去除噪声数据后的音频数据。结合上述举例,在去噪过程中,首先可以对音频数据进行傅里叶变换,得到音频数据的频域信号,确定音频数据的频域信号中的每个频率值(采样点)分别对应的幅度值(幅度特征信息)和相位值。以每个频率值对应的幅度值作为训练好的模型的输入,通过训练好的模型得到每个频率值分别对应的第二特征信息。
结合步骤102,第一特征信息为样本数据中第一频域信号的幅度值和第二频域信号的幅度值之间的比值,则第一频域信号的幅度值为第一特征信息与第二频域信号的幅度值之间的乘积。由此可知,去除噪声数据后的音频数据的频域信号的幅度值为第二特征信息与音频数据的频域信号的幅度值之间的乘积。因此,在确定每个频率值分别对应的第二特征信息之后,第二特征信息与对应的幅度值之间的乘积即为每个频率值对应的幅度值。
同时,在傅里叶变换过程中,对样本数据中的原始音频数据和带噪音频数据分别进行了相同的傅里叶变换,也即在相同频率值(采样点)时,第一频域信号中的相位值和第二的频域信号中的相位值相同。同理,去除噪声数据后的音频数据的频域信号中每个频率值对应的相位值与音频数据中的相位值相同。将音频数据的相位值作为去除噪声数据后的音频数据的相位值,根据去除噪声数据后的音频数据的频域信号中的每个频率值,以及每个频率值分别对应的幅度值和相位值进行逆傅里叶变化,可以得到去除噪声数据后的音频数据。
在实际应用中,减小小于等于第一阈值的第一特征信息,增大大于等于第二阈值的第一特征信息,可以对带噪音频数据的信噪比范围进行调整。通过调整后的第一特征信息(即目标特征信息)对待训练模型进行训练,得到训练好的模型,可以使训练好的模型在对不同信噪比范围内的音频数据进行去噪时,获得不同的去噪强度。结合上述举例,若第一特征信息为0.3(小于等于第一阈值0.3),通过第一特征信息0.3训练得到的模型在对第一特征信息为0.3的音频数据进行去噪时,得到的第二特征信息接近或等于0.3。而通过目标特征信息0.2训练得到的模型在对第一特征信息为0.3的音频数据进行去噪时,得到的第二特征信息接近或等于0.2,通过第二特征信息0.2计算得到的幅度值比通过第二特征信息0.3计算得到的幅度值低,降低了去除噪声数据后的音频数据的幅度值,使训练好的模型的去噪强度增大。同样的,若第一特征信息为0.9(大于等于第二阈值0.9),通过第一特征信息0.9训练得到的模型在对第一特征信息为0.9的音频数据进行去噪时,得到的第二特征信息接近或等于0.9。而通过目标特征信息0.95训练得到的模型在对第一特征信息为0.9的音频数据进行去噪时,得到的第二特征信息接近于或等于0.95,通过第二特征信息0.95计算得到的幅度值比通过第二特征信息0.9计算得到的幅度值高,增大了去除噪声数据后的音频数据的幅度值,使训练好的模型的去噪强度变小。也即,在较低的信噪比范围时,可以增强模型的去噪强度,在较高的信噪比范围时,可以降低模型的去噪强度。
综上所述,本实施例中,获取多个样本数据,根据样本数据中的原始音频数据和带噪音频数据,确定每个样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息。调整第一特征信息以得到目标特征信息,将幅度特征信息输入待训练模型中,得到待训练模型输出的第二特征信息,根据第二特征信息和目标特征信息,获取待训练模型的损失值。根据损失值调整待训练模型的模型参数,直至损失值小于等于预设阈值时,将待训练模型作为训练好的模型。在通过训练好的模型对音频数据进行去噪时,在较低的信噪比范围时可以增强模型的去噪强度,在较高的信噪比范围时可以降低模型的去噪强度,可以使训练好的模型针对不同信噪比范围内的音频数据,获得不同的去噪效果。
图2是根据一示例性实施例示出的另一种模型训练方法的流程图,参照图2,该方法可以包括:
步骤201、获取多个原始音频数据。
本实施例中,在获取多个样本数据的过程中,首先可以获取多个原始音频数据。具体的,电子设备可以直接接收用户输入的多个原始音频数据,原始音频数据例如可以是固定长度的音乐或语音。原始音频数据的获取方法和原始音频数据的具体类型可以根据需求设置,本实施例对此不做限制。
步骤202、根据预设规则对目标音频数据添加噪声数据,得到与目标音频数据对应的带噪音频数据,将目标音频数据和对应的带噪音频数据作为一个样本数据。
其中,目标音频数据为多个原始音频数据中的任意一个。
本实施例中,在获取到原始音频数据后,可以对原始音频数据进行处理,以得到与原始音频数据对应的带噪音频数据。具体的,可以根据预设规则对原始音频数据添加噪声数据,以得到与原始音频数据对应的带噪音频数据,将原始音频数据和带噪音频数据作为样本数据。其中,噪声数据例如可以是固定长度的语音。例如,在获取到音乐(原始音频数据)后,可以将语音(噪声数据)合成到音乐中得到带噪音频数据,在合成过程中,可以根据预设规则,使带噪音频数据的信噪比达到预设值(例如20分贝)。具体对原始音频数据添加噪声数据的过程可根据需求设置,本实施例对此不做限制。通过预设规则对原始音频数据添加噪声数据,得到带噪音频数据,进而得到样本数据,可以得到符合训练需求的样本数据,提高训练效率。
步骤203、根据原始音频数据和带噪音频数据,确定每个样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息。
步骤204、通过映射函数对第一特征信息进行调整,以得到目标特征信息。
本实施例中,可以通过映射函数对第一特征信息进行调整,得到与第一特征信息对应的目标特征信息。
可选的,当第一特征信息小于等于第一阈值时,可以将第一特征信息减小到第三阈值以下;
当第一特征信息大于等于第二阈值时,可以将第一特征信息增大到第四阈值以上。
本实施例中,可以直接将小于等于第一阈值的第一特征信息减小到第三阈值以下,以使训练好的模型在针对信噪比较低的音频数据时,可以具有更强的去噪效果。以及将大于等于第二阈值的第一特征信息增大到第四阈值以上,以使训练好的模型在针对信噪比较高的音频数据时,可以具有更低的去噪效果。
例如,可以通过第一映射函数:
对第一特征信息进行调整。如图3所示,图3为第一映射函数的曲线图,可以通过第一映射函数,将小于0.6(第一阈值)的第一特征信息减小到0.1(第三阈值)以下,将大于0.8(第二阈值)的第一特征信息增大到0.9(第四阈值)以上。
再例如,可以通过第二映射函数:
对第一特征信息进行调整。如图4所示,图4为第二映射函数的曲线图,可以通过第二映射函数,将小于等于0.5(第一阈值)的第一特征信息调整为0;将大于等于0.9(第二阈值)的第一特征信息调整为1。
本实施例中,当第一特征信息小于等于第一阈值时,直接将第一特征信息减小到第三阈值以下,可以在信噪比较低时,得到更小的第一特征信息(目标特征信息)。例如,将小于等于0.5的第一特征信息调整为0,通过更小的第一特征信息(目标特征信息)对待训练模型进行训练,由此训练得到的模型在对较低信噪比的音频数据进行去噪时,可以降低带噪音频数据中音频数据的强度,以增加去噪强度,提高去噪效果。例如,若第一特征信息为0.3,通过第一特征信息0.3训练得到的模型在对第一特征信息为0.3(信噪比较低,噪声数据较大)的音频数据进行去噪时,得到的第二特征信息接近于0.3。而通过调整后的第一特征信息(目标特征信息)0训练得到的模型在对第一特征信息为0.3的音频数据进行去噪时,得到的第二特征信息接近于0,通过第二特征信息0计算得到的幅度值比通过第二特征信息0.3计算得到的幅度值低,从而使计算得到的去除噪声数据后的音频数据的幅度较低。因此,在对较低信噪比(即噪声数据较大)的音频数据进行去噪时,可以得到更大的去噪强度,降低去除噪声数据后的音频数据的强度。
同理,当第一特征信息大于等于第二阈值时,直接将第一特征信息增大到第四阈值以上,可以在信噪比较高时,得到更大的目标特征信息。例如,将大于等于0.9的第一特征信息调整为1,通过更大的第一特征信息(目标特征信息)对待训练模型进行训练,由此训练得到的模型在对较高信噪比的音频数据进行去噪时,可以对带噪音频数据中的音频数据进行增强,以降低去噪强度,提高去噪效果。例如,若第一特征信息为0.9,通过第一特征信息0.9训练得到的模型在对第一特征信息为0.9(信噪比较高,噪声数据较小)的音频数据进行去噪时,得到的第二特征信息接近于0.9。而通过调整后的第一特征信息1(目标特征信息)训练得到的模型在对第一特征信息为0.9的音频数据进行去噪时,得到的第二特征信息接近于1,通过第二特征信息1计算得到的幅度值比通过第一特征信息0.9计算得到的幅度值高,从而使计算得到的去除噪声数据后的音频数据的幅度较高。因此,在对较高信噪比(即噪声数据较小)的音频数据进行去噪时,可以降低去噪强度,提高去除噪声数据后的音频数据的强度。
可选的,当第一特征信息大于第一阈值、且小于第二阈值时,将第一特征信息调整到第五阈值至第六阈值之间,第五阈值小于第六阈值。
本实施例中,当第一特征信息大于第一阈值、且小于第二阈值时,可以将第一特征信息调整到第五阈值至第六阈值之间。通过对位于第一阈值和第二阈之间的第一特征信息进行调整,可以对模型整体的去噪效果进行调整,提高模型的适用性。结合图3,可以将大于0.6(第一阈值)、且小于0.8(第二阈值)的第一特征信息调整到0.1(第五阈值)至0.9(第六阈值)之间。以及结合图4,可以将大于0.5(第一阈值)、且小于0.9(第二阈值)的第一特征信息调整到0(第五阈值)至1(第六阈值)之间。
实际应用中,当通过映射函数对第一特征信息进行调整时,可以快速的对全部范围内的第一特征信息进行调整,以提高第一特征信息的调整效率。需要说明的是,对第一特征信息进行调整的方法可以包括,但不限于通过映射函数的方法。
步骤205、将幅度特征信息输入待训练模型中,得到待训练模型输出的第二特征信息。
步骤206、根据第二特征信息和目标特征信息,获取待训练模型的损失值。
步骤207、根据损失值调整待训练模型的模型参数,直至损失值小于等于预设阈值时,将待训练模型作为训练好的模型。
综上所述,本实施例中,可以对不同信噪比范围的第一特征信息做不同的调整,得到位于不同范围内的目标特征信息,通过不同范围内的目标特征信息对待训练模型训练,可以使训练好的模型针对不同信噪比范围内的音频数据,获得不同的去噪效果。
可选的,在第一特征信息大于等于1的情况下,将第一特征信息调整为1。
本实施例中,在确定第一特征信息后,在第一特征信息大于等于1的情况下,可以将第一特征信息调整为1。例如,在确定第一特征信息后,可以对第一特征信息执行如下函数:
结合步骤102,mask为第一特征信息,magx为第一频域信号中的幅度值,magy为第二频域信号中的幅度值。其中,在第一特征信息大于等于1的情况下,将第一特征信息调整为1,可以避免在根据原始音频数据和噪声数据生成带噪音频数据时,由于相位抵消等原因,使第二频域信号中的幅度小于第一频域信号中的幅度,出现第一特征信息大于1的情况。进而可以避免第一特征信息大于1时,在模型训练过程中出现较大的目标(目标特征信息),导致训练过程中模型的收敛性较差,训练时间较长的问题。
参照图5,图5是根据一示例性实施例示出的一种模型训练装置的框图。该模型训练装置500可以应用于音频数据的去噪,可以包括:第一获取模块501、确定模块502、第一调整模块503、输入模块504、第二获取模块505和第二调整模块506。
第一获取模块501被配置为获取多个样本数据,每个样本数据包括原始音频数据和带噪音频数据。
确定模块502被配置为根据原始音频数据和带噪音频数据,确定每个样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息,第一特征信息用于表示带噪音频数据在相应采样点的信噪比信息。
第一调整模块503被配置为调整第一特征信息以得到目标特征信息,其中,当第一特征信息小于等于第一阈值时,减小第一特征信息,当第一特征信息大于等于第二阈值时,增大第一特征信息,第一阈值小于第二阈值。
输入模块504被配置为将幅度特征信息输入待训练模型中,得到待训练模型输出的第二特征信息。
第二获取模块505被配置为根据第二特征信息和目标特征信息,获取待训练模型的损失值;
第二调整模块506被配置为根据损失值调整待训练模型的模型参数,直至损失值小于等于预设阈值时,将待训练模型作为训练好的模型。
可选的,第一调整模块503具体被配置为当第一特征信息小于等于第一阈值时,将第一特征信息减小到第三阈值以下;当第一特征信息大于等于第二阈值时,将第一特征信息增大到第四阈值以上。
可选的,第一调整模块503还具体被配置为当第一特征信息大于第一阈值、且小于第二阈值时,将第一特征信息调整到第五阈值至第六阈值之间,第五阈值小于第六阈值。
可选的,第一调整模块503具体被配置为通过映射函数对第一特征信息进行调整,以得到目标特征信息。
可选的,第一特征信息为采样点对应的原始音频数据的幅度值与带噪音频数据的幅度值之间的比值,第一特征信息小于等于1。
可选的,确定模块502具体被配置为将目标样本数据中的原始音频数据转为第一频域信号,以及将目标样本数据中的带噪音频数据转为第二频域信号;目标样本数据为多个样本数据中的任意一个样本数据;根据第一频域信号和第二频域信号,确定目标样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息。
综上所述,本实施例中,获取多个样本数据,根据样本数据中的原始音频数据和带噪音频数据,确定每个样本数据中的带噪音频数据在各个采样点的第一特征信息和幅度特征信息。调整第一特征信息以得到目标特征信息,将幅度特征信息输入待训练模型中,得到待训练模型输出的第二特征信息,根据第二特征信息和目标特征信息,获取待训练模型的损失值。根据损失值调整待训练模型的模型参数,直至损失值小于等于预设阈值时,将待训练模型作为训练好的模型。在通过训练好的模型对音频数据进行去噪时,在较低的信噪比范围时可以增强模型的去噪强度,在较高的信噪比范围时可以降低模型的去噪强度,可以使训练好的模型针对不同信噪比范围内的音频数据,获得不同的去噪效果。
参照图6,图6是根据一示例性实施例示出的一种电子设备的框图。该电子设备600包括:
处理器601。
用于存储该处理器601可执行指令的存储器602。
其中,该处理器601被配置为执行存储器602存储的可执行指令,以实现如图1或图2所示实施例中的模型训练方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器602,上述指令可由处理器600的处理器601执行以完成如图1或图2所示实施例中的模型训练方法。
可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如图1或图2所示实施例中的模型训练方法。
参照图7,图7是根据一示例性实施例示出的又一种电子设备的框图,电子设备700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件708,音频组件710,输入/输出(i/o)的接口713,传感器组件714,以及通信组件716。
处理组件702通常控制装置700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令,以完成上述的模型训练方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理组件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为装置700生成、管理和分配电力相关联的组件。
多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(mic),当装置700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
i/o接口713为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为装置700提供各个方面的状态评估。例如,传感器组件714可以检测到装置700的打开/关闭状态,组件的相对定位,例如所述组件为装置700的显示器和小键盘,传感器组件714还可以检测装置700或装置700一个组件的位置改变,用户与装置700接触的存在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络,如wifi,运营商网络(如2g、3g、4g或5g),或它们的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件716还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
在示例性实施例中,装置700可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述模型训练方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由装置700的处理器720执行以完成上述模型训练方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除