HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种针对少量标注样本的空管语音识别方法及装置与流程

2021-01-28 16:01:51|296|起点商标网
一种针对少量标注样本的空管语音识别方法及装置与流程

本发明涉及民用航空空中交通管制和语音识别领域,特别是一种针对少量标注样本的空管语音识别方法及装置。



背景技术:

在现有的空管管制体制下,空中交通管制员基于自动化系统提供的交通态势信息(包括监视信息、飞行计划、气象信息等)进行管制决策。管制员通过甚高频(vhf)无线电电台与飞行员语音通话以引导其责任扇区内的航班安全有序地飞行。管制通话是空管闭环中“人在环路”(human-in-the-loop,hitl)的集中体现,非常有必要进行实时监控以提高管制指挥和航班运行安全。因此,作为管制员和自动化系统之间的衔接桥梁,空管语音识别研究具有重大的现实意义。

作为典型的有监督学习任务,语音识别性能高度依赖特定应用场景下的已标注训练语料。语料中训练样本的数量、特征多样性和词汇覆盖度极大地影响语音识别模型的最终性能。在通用语音识别研究中,现有模型的训练语料一般在几千小时。但是,由于关系民航安全问题,不易搜集足够的管制通话语音数据支持空管语音识别研究。此外,民航管制过程中要求管制员必须使用特殊规范用语,其中包含共性的空管知识,例如发音转义(0->洞、7->拐)、专业术语(修正海压、rnav)、航空公司(国航、四川)以及高度层等,使得空管语音识别样本标注更加地依赖于空管领域知识,对标注人员具有一定要求,且较通用语音识别标注更加的费时费力。因此,语料缺乏、特别是标注语料样本的缺乏是空管语音识别研究面临的现实问题。

空中交通管制包括放行、塔台、进近和区管等多个阶段,各个阶段的管制通话语音使用相似的专业术语通话(如数字发音),同时也具有较多与地域和管制业务相关的独特性。例如,与管制区域相关的术语:“pikas”仅能出现在成都区域管制中心的管制通话中;与管制业务相关的术语:“起飞”仅能出现在塔台管制阶段的管制通话中。由于空管语音样本的特殊性,针对所有区域、业务标注足够的训练样本支撑语音识别研究需要大量的人力、物力和财力,在实际应用过程中也是不太现实的。因此,基于子域知识的模型迁移技术是实现高性能空管语音识别必要的研究内容。

鉴于上述问题,非常有必要研究样本缺乏下的空管语音识别方法和模型及其在不同口音、区域和管制业务上的迁移问题,提高空管语音识别技术在应用和工程上的可用性以及可扩展性。



技术实现要素:

本发明的目的在于:针对现有技术存在的少量标注样本情况下空管语音识别准确度差,效率低下的问题,提供一种针对少量标注样本的空管语音识别方法及装置,其中,所述标注样本为包含指令文本信息的样本。

为了实现上述目的,本发明采用的技术方案为:

一种针对少量标注样本的空管语音识别方法,包括以下步骤:

a:采集空管语音并对所述空管语音进行预处理,得到梅尔频率倒谱系数特征图;

b:将所述梅尔频率倒谱系数特征图输入到预先建立的空管语音识别模型;

c:输出所述空管语音对应的指令文本信息;

所述标注样本为包含指令文本信息的样本,所述空管语音识别模型包括主干网络和全连接预测层;所述主干网络采用降噪自编码器模型网络进行无监督预训练得到;所述全连接预测层用于优化模型参数。本发明基于数据压缩思想,能够在少量标注样本情况下得到识别准确度好,效率高的空管语音识别模型,并能在输入空管语音后基于该空管语音识别模型准确快速的输出对应的指令文本信息,提高空管语音识别技术应用的可用性和新场景下的可扩展性。

作为本发明的优选方案,所述空管语音识别模型的训练包括以下步骤:

s1:搜集未标注语料数据并获取其中的空管语音,对所述空管语音进行预处理,得到梅尔频率倒谱系数特征图;所述未标注语料数据包括连续的原始空管语音;

s2:建立主干网络;所述主干网络包括卷积神经网络模块和长短时记忆模块;

s3:将所述梅尔频率倒谱系数特征图输入降噪自编码器网络,采用所述降噪自编码器网络对所述主干网络进行无监督预训练,得到第一空管语音识别模型;

s4:在所述第一空管语音识别模型上建立全连接预测层,构建出第二空管语音识别模型;

s5:对所述第二空管语音识别模型进行有监督训练,输出空管语音识别模型。本发明基于数据压缩思想,采用未标注的语音数据预训练空管语音识别模型的主干网络,仅在语料搜集和简单预处理基础上即可以实现空管语音识别模型的预训练,同时基于预训练的空管语音识别模型主干网络,可以在无标注数据的情况下学习特定数据集的语音特征表示,加快空管语音识别研究进程;并采用全连接预测层优化模型参数,完成空管语音识别模型的建立。从而实现在小规模标注数据的基础上,为空中交通管制研究提供一种切实可用的语音识别模型训练方法。

作为本发明的优选方案,对所述空管语音进行的预处理包括以下步骤:

步骤1:将所述空管语音分割为多个语音片段,所述语音片段包括单个说话人的语音指令;

步骤2:对所述语音片段进行筛选,去掉静音和噪音数据;

步骤3:将所述语音片段按t1毫秒帧长和t2毫秒帧移进行分帧处理得到t个语音帧;

步骤4:将所述t个语音帧转换成13维的梅尔频率倒谱系数特征图,计算所述梅尔频率倒谱系数特征图的一阶和二阶导数,获得39维的梅尔频率倒谱系数特征图,所述梅尔频率倒谱系数特征图的维度为(t,39)。

作为本发明的优选方案,所述步骤s1包括:

s11:输入未标注语料数据,将所述未标注语料数据中的原始空管语音分割为多个语音片段,所述语音片段包括单个说话人的语音指令;

s12:对所述语音片段进行筛选,去掉静音和噪音数据;

s13:将所述语音片段按t1毫秒帧长和t2毫秒帧移进行分帧处理得到t个语音帧;

s14:将所述语音帧转换成13维的梅尔频率倒谱系数特征图,计算所述梅尔频率倒谱系数特征图的一阶和二阶导数,获得39维的梅尔频率倒谱系数特征图,所述梅尔频率倒谱系数特征图的维度为(t,39)。

作为本发明的优选方案,所述步骤s3中的降噪自编码器网络以所述主干网络作为编码器,以所述主干网络的镜像结构作为解码器,并在所述编码器和所述解码器对应的隐藏层之间建立残差连接,构成降噪自编码器网络。

作为本发明的优选方案,所述步骤s3包括如下步骤:

s31:将所述梅尔频率倒谱系数特征图作为所述降噪自编码器网络输入和输出对所述主干网络进行模型训练;

s32:在所述梅尔频率倒谱系数特征图上使用随机掩码预测策略;

s33:计算模型训练的损失函数,得到第一空管语音识别模型;

所述降噪自编码器网络以所述主干网络作为编码器,以所述主干网络的镜像结构作为解码器,并在所述编码器和所述解码器对应的隐藏层之间建立残差连接,构成降噪自编码器网络。

作为本发明的优选方案,所述步骤s33中损失函数的计算公式为:其中,n为批次处理训练样本的数量,fi*为第i个样本的语音特征,为计算误差时的掩码,其中ti为语音帧的数量,当第j帧被选中进行掩码处理时,为1,否则为0,j∈[1,ti]

作为本发明的优选方案,所述步骤s32包括:

s321:选择一个所述语音片段,从中选择15%的语音帧进行掩码处理,并保持其余部分的特征值不变;

s322:被选中掩码处理的语音帧按如下分段函数进行处理;

其中p为随机概率,且p∈[0,1],ft表示时标为t的原始语音特征,表示时标为t时掩码处理之后的语音特征,ξ为随机噪声,满足ξ∈(μ,δ),mean函数为平均操作。

作为本发明的优选方案,所述步骤s4包括:

s41:导入标注语料集及其对应的词汇表;

s42:在所述第一空管语音识别模型的最后一个所述长短时记忆模块层之后建立全连接预测层,并将timedistibuted机制应用于所述全连接预测层,所述全连接预测层的神经元数量与所述词汇表中的词汇的数量一致;

其中,所述全连接预测层是将所述主干网络从所述梅尔频率倒谱系数特征图中提取的抽象特征映射到所述词汇表,预测所述抽象特征属于每个词汇的概率,在对应的时间帧以softmax函数作为激活函数对概率进行归一化处理得到最可能的词汇选择。

作为本发明的优选方案,步骤s41中对所述标注语料集还进行了样本增强,所述样本增强的过程包括以下步骤:

s411:基于共性的空管知识将公共样本迁移到所述标注语料集,用于提高所述标注语料集的多样性和词汇覆盖度;

s412:随机选择所述标注语料集中的部分已标注训练语料进行语速调整;

s413:随机选择所述标注语料集中的部分已标注训练语料进行随机加噪处理。在处理有标注训练语料之后,本发明运用子域迁移思想在不同空管场景的数据集上优化语音识别模型。即通过子域适应能够使语料集中的共性空管知识具有更为丰富的多样性和词汇覆盖度;通过样本增强可以提高训练样本数量和特征多样性;从而提高语音识别优化效率和最终识别性能,形成更为高效合理的空管语音识别研究训练语料。

作为本发明的优选方案,所述步骤s5包括:

s51:以梅尔频率倒谱系数特征图和通话文本分别作为第二空管语音识别模型的输入和输出进行模型训练;

s52:以ctc函数作为模型训练的损失函数,并对所述主干网络和所述全连接预测层进行参数优化,输出空管语音识别模型。

一种针对少量标注样本的空管语音识别装置,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

1、本发明基于数据压缩思想,能够在少量标注样本情况下得到识别准确度好,效率高的空管语音识别模型,并能在输入空管语音后基于该空管语音识别模型准确快速的输出对应的指令文本信息,提高空管语音识别技术应用的可用性和新场景下的可扩展性。

2、本发明基于数据压缩思想,采用未标注的语音数据预训练空管语音识别模型的主干网络,仅在语料搜集和简单预处理基础上即可以实现空管语音识别模型的预训练,同时基于预训练的空管语音识别模型主干网络,可以在无标注数据的情况下学习特定数据集的语音特征表示,加快空管语音识别研究进程;并采用全连接预测层优化模型参数,完成空管语音识别模型的建立。从而实现在小规模标注数据的基础上,为空中交通管制研究提供一种切实可用的语音识别模型训练方法。

3、在处理有标注训练语料之后,本发明运用子域迁移思想在不同空管场景的数据集上优化语音识别模型。即通过子域适应能够使语料集中的共性空管知识具有更为丰富的多样性和词汇覆盖度;通过样本增强可以提高训练样本数量和特征多样性;从而提高语音识别优化效率和最终识别性能,形成更为高效合理的空管语音识别研究训练语料。

附图说明

图1是本发明实施例1所述的一种针对少量标注样本的空管语音识别方法的流程示意图;

图2是本发明实施例2所述的一种针对少量标注样本的空管语音识别方法的lstm模块图;

图3是本发明实施例2所述的一种针对少量标注样本的空管语音识别方法的主干网络结构图;

图4是本发明实施例2所述的一种针对少量标注样本的空管语音识别方法的主干网络配置表;

图5是本发明实施例2所述的一种针对少量标注样本的空管语音识别方法的预训练流程图;

图6是本发明实施例2所述的一种针对少量标注样本的空管语音识别方法的预测概率示意图;

图7是本发明实施例2所述的一种针对少量标注样本的空管语音识别方法的参数迁移训练流程图;

图8是本发明实施例2所述的一种针对少量标注样本的空管语音识别方法的总体训练流程图;

图9是本发明实施例3所述的一种针对少量标注样本的空管语音识别方法的效果对比图;

图10是本发明实施例4所述的一种基于深度神经网络的空管语音识别模型训练装置的结构图。

具体实施方式

下面结合附图,对本发明作详细的说明。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例1

一种针对少量标注样本的空管语音识别方法,包括以下步骤:

a:采集空管语音并对所述空管语音进行预处理,得到梅尔频率倒谱系数特征图;

b:将所述梅尔频率倒谱系数特征图输入到预先建立的空管语音识别模型;

c:输出所述空管语音对应的指令文本信息;

所述标注样本为包含指令文本信息的样本,所述空管语音识别模型包括主干网络和全连接预测层;所述主干网络采用降噪自编码器模型网络进行无监督预训练得到;所述全连接预测层用于优化模型参数。

所述空管语音识别模型的训练包括以下步骤:

s1:搜集未标注语料数据并获取其中的空管语音,对所述空管语音进行预处理,得到梅尔频率倒谱系数特征图;所述未标注语料数据包括连续的原始空管语音;

s2:建立主干网络;所述主干网络包括卷积神经网络模块和长短时记忆模块;

s3:将所述梅尔频率倒谱系数特征图输入降噪自编码器网络,采用所述降噪自编码器网络对所述主干网络进行无监督预训练,得到第一空管语音识别模型;

s4:在所述第一空管语音识别模型上建立全连接预测层,构建出第二空管语音识别模型;

s5:对所述第二空管语音识别模型进行有监督训练,输出空管语音识别模型。

其中,各个步骤的详细流程如下所示:

对所述空管语音进行的预处理包括以下步骤:

步骤1:将所述空管语音分割为多个语音片段,所述语音片段包括单个说话人的语音指令;

步骤2:对所述语音片段进行筛选,去掉静音和噪音数据;

步骤3:将所述语音片段按t1毫秒帧长和t2毫秒帧移进行分帧处理得到t个语音帧;

步骤4:将所述t个语音帧转换成13维的梅尔频率倒谱系数特征图,计算所述梅尔频率倒谱系数特征图的一阶和二阶导数,获得39维的梅尔频率倒谱系数特征图,所述梅尔频率倒谱系数特征图的维度为(t,39)。

所述步骤s2包括:

构建空管语音识别模型的主干网络作为降噪自编码器网络的编码器;所述主干网络以至少一个卷积神经网络模块和至少一个长短时记忆模块为主体;

所述卷积神经网络模块用于在所述梅尔频率倒谱系数特征图中提取抽象语音特征;

所述长短时记忆模块用于挖掘所述语音帧特征之间的时序相关性,输出提取的序列特征针对每一个语音帧预测其属于词汇的概率,用于所述降噪自编码器网络重建语音特征以达到模型预训练的目的;

所述步骤s3中的降噪自编码器网络以所述主干网络作为编码器,以所述主干网络的镜像结构作为解码器,并在所述编码器和所述解码器对应的隐藏层之间建立残差连接,构成降噪自编码器网络

所述步骤s3包括如下步骤:

s31:将所述梅尔频率倒谱系数特征图作为所述降噪自编码器网络输入和输出进行模型训练;

s32:在所述梅尔频率倒谱系数特征图上使用随机掩码预测策略,用于引导模型学习更为鲁棒的高阶特征;

s33:以公式计算模型训练的损失函数loss,其中,n为批次处理训练样本的数量,fi*为第i个样本的语音特征,mi为计算误差时的掩码,计算公式为:其中ti为语音帧的数量,当第j帧被选中进行掩码处理时,为1,否则为0,j∈[1,ti]。

其中,所述步骤s32包括:

s321:选择一个所述语音片段,从中选择15%的所述语音帧进行掩码处理,并保持其余部分的特征值不变;

s322:被选中掩码处理的语音帧按如下分段函数进行处理;

其中p为随机概率,且p∈[0,1],ft表示时标为t的原始语音特征,表示时标为t时掩码处理之后的语音特征,ξ为随机噪声,满足ξ∈(μ,δ),mean函数为平均操作。

所述步骤s4包括:

在所述无监督预训练之后以及所述有监督训练之后还包括模型优化训练,所述模型优化训练采用反向传播算法进行迭代训练,包括以下步骤:

(1):根据计算待优化模型基于当前训练参数的损失函数,获取所述待优化模型的总体损失值;其中w为神经网络层的权重,b为神经网络层的偏执参数,m为训练样本数量,c(·)为损失函数,为样本的预测值,y(i)为样本的真实值;

(2):根据公式:

计算总体损失值计算权重w和偏执参数b的参数更新值;其中α为学习率,w*为权重更新值,b*为偏执参数更新值

(3):根据求导链式法则,将神经网络的损失误差、权重w和偏执参数b从最后一个隐藏层反向传播到一个隐藏层,实现神经网络模型的参数优化。

所述步骤s4包括:

s41:导入标注语料集及其对应的词汇表;

s42:在所述第一空管语音识别模型的最后一个所述长短时记忆模块层之后建立全连接预测层,并将timedistibuted机制应用于所述全连接预测层,所述全连接预测层的神经元数量与所述词汇表中的词汇的数量一致;

其中,所述全连接预测层是将所述主干网络从所述梅尔频率倒谱系数特征图中提取的抽象特征映射到所述词汇表,预测所述抽象特征属于每个词汇的概率,在对应的时间帧以softmax函数作为激活函数对概率进行归一化处理得到最可能的词汇选择。

所述步骤s5包括:

s51:以所述梅尔频率倒谱系数特征图和通话文本分别作为语音识别模型的输入和输出进行模型训练;

s52:对所述主干网络和已优化模型进行特征融合,训练过程中针对预训练主干网络和预测层进行参数优化;

s53:以ctc函数作为模型训练的损失函数,最终输入文本序列π的概率表示为其中f=<f1,…,ft>,为输入语音特征,代表第t个语音帧为第k个词汇的概率,t为语音帧数量,a为词汇表。

实施例2

本实施例与实施例1的区别在于,本实施例还包括对所述主干网络和所述标注语料集的优化,本实施例的具体步骤如下所示。

步骤1:搜集和预处理特定未标注语料数据,包括以下步骤:

步骤1-1:针对搜集的管制通话语音数据,首先利用语音活动检测技术(voiceactivitydetection,vad)将连续的原始空管语音分割为短句,每个短句中仅包括单个说话人语音,即单条管制指令内容;

步骤1-2:针对分割后的语音进行简单的筛选,去掉静音和噪音数据;

步骤1-3:将分割后的语音按20毫秒帧长和8毫秒帧移分帧,并转换为13维梅尔频率倒谱系数(mfcc)特征图。时长为d的语音信号分帧处理后的帧数量为:t=(d×1000-20)÷8+1;

步骤1-4:计算mfcc特征的一阶和二阶导数,最终形成39维的二维mfcc特征图。特征图维度为(t,39),其中t为语音帧数量。

步骤2:构建空管语音识别模型主干网络;包括以下步骤:

步骤2-1:构建以卷积神经网络(convolutionalneuralnetwork,cnn)和长短时记忆模块(longshorttermmemory,lstm)为主体的空管语音识别模型主干网络作为dae网络的编码器。所述主干网络的结构包括:

1)cnn模块:采用二维卷积核在mfcc特征图提取上提取抽象语音特征,使用不同尺度的卷积核配置可以在不同的时空分辨率上学习语音特征的抽象表示。cnn计算公式为:其中,卷积核大小为(m,n),(i,j)表示mfcc特征图中某一帧对应的频率段位置,x,w分别表示输入数据及其相关的可训练权重参数值,*为卷积操作。

2)lstm模块:采用双向lstm神经网络层挖掘语音帧特征之间的时序相关性,输出提取的序列特征针对每一个时间步(语音帧)预测其属于词汇的概率。lstm的结构如图2所示,其计算公式为:

it=f(wixxt+wihht-1+wicct-1+bi)

ft=f(wfxxt+wfhht-1+wfcct-1+bf)

ct=ft·ct-1+it·g(wcxxt+wchht-1+bc)

ot=f(woxxt+wohht-1+wocct-1+bo)

ht=ot·g(ct)

其中,t代表预测计算时间步,i,f,c,o分别代表lstm单元的输入门、遗忘门、cell和输出门的函数响应值,最终的隐藏单元响应为ht。式中wix表示输入门的函数响应值与当前输入之间节点连接的权重,其余权重参数w**意义以此类推,b*代表内部各部分的偏置值。a·b代表a,b向量内积操作。

所述主干网络的结构如图3所示,各模块的具体配置如图4所示。

步骤2-2:以主干网络作为dae网络的编码器结构;

步骤2-3:以主干网络的镜像结构作为dae网络的解码器,其目的是将压缩的特征重建到原始特征数据;

步骤2-4在dae的编码器和解码器对应的隐藏层之间建立残差连接,搭建完整的dae网络。残差连接提供语音特征图在不同层间的信息交互,可以引导模型训练、提高模型的可训练性,其结构如图5所示。

步骤3:使用未标注语音信号特征训练dae网络,包括以下步骤:

步骤3-1:以mfcc特征图作为dae网络的输入和输出进行模型训练;

步骤3-2:在输入的mfcc特征图上使用随机掩码预测策略(dae网络的输入),本发明使用的随机掩码预测策略描述如下:

步骤3-2-1:选择单个语音文件中15%的语音帧进行掩码处理,其余保持原有特征值不变;

步骤3-2-2:被选中掩码处理的语音帧按如下分段函数进行处理;

其中,p为随机概率,且p∈[0,1],ft表示时标为t的原始语音特征,表示时标为t时掩码处理之后的语音特征,ξ为随机噪声,随机采样自高斯分布,满足ξ∈(μ,δ),高斯分布的均值和方差从原始语音特征中计算得到,mean函数为平均操作。被选中语音有10%的可能性置为零向量(第二个分支),10%的可能性保持不变(第三个分支),其余按公式计算(第一个分支):

步骤3-3:以均方误差(meansquareerror,mse)作为模型训练的损失函数loss,其计算式为:

其中,n为批次处理训练样本的数量,fi*为第i个样本的语音特征(其维度为t×39),mi为计算误差时的掩码,计算公式为:其中ti为语音帧的数量,当第j帧被选中进行掩码处理时,为1,否则为0,j∈[1,ti]。

步骤4:使用反向传播算法更新模型参数,迭代训练以降低模型训练的损失函数,直至输出误差稳定。描述如下:

步骤4-1:根据公式计算所述主干网络基于当前训练参数的损失函数,即均方误差,其中w为神经网络层的权重,b为神经网络层的偏执参数,m为训练样本数量,c(·)为损失函数,为样本的预测值,y(i)为样本的真实值。

步骤4-2:根据总体损失值计算权重和偏置参数的梯度支撑模型的参数更新操作,表示如下:

步骤4-3:根据当前参数计算得到的梯度更新神经网络模型参数:

其中α为学习率,w*为权重更新值,b*为偏执参数更新值;

步骤4-4:根据求导链式法则,将神经网络的损失误差和梯度从最后一个隐藏层反向传播到一个隐藏层,实现神经网络模型的参数优化。

步骤5:针对特定标注语料及其对应的词汇表,设计fc预测层,具体包括以下步骤:

步骤5-1:在主干网络最后一个lstm层之后设计fc预测层,将lstm提取的抽象特征映射到词汇表,预测层的神经元数量与特定语料词汇表中的数量一致;

步骤5-2:如图6所示,运用timedistributed(时间分配)机制基于每一个lstm时间步的抽象特征预测其属于每个词汇的概率,并在每一帧以softmax作为激活函数归一化输出概率,其公式可表示为:其中,v为词汇表数量,vi为词汇表中的单词,t为语音帧数量,fi为语音帧特征。

步骤6:基于预训练主干网络或者其他数据集的识别模型实现空管语音识别模型参数共享,如图7所示,具体包括以下步骤:

步骤6-1:从预训练模型中加载主干网络模型参数;

步骤6-2:如果已有基于其他空管数据集优化的识别模型,则从其中加载主干网络的参数。

步骤7:针对标注语料集中的样本进行知识迁移和增强操作,提高训练样本的数量和多样性。训练过程中,将特定标注语料与基线模型的标注语料结合,形成最终的空管语音识别优化标注语料集;并针对最终的训练语料进行如下处理:

步骤7-1:子域适应,即迁移具有共性的空管知识(如航班呼号、数字等),如果基线模型训练样本中的词汇在特定标注语料中存在,则保持原有词汇;如果不存在(如与地域相关的地标点),则置为“<unk>”。这样处理可以引导模型建立语音特征与本区域词汇间的序列分类关系,丢掉不属于本区域的词汇与语音特征的概率关系,进而学习到更为鲁棒的模型参数;

步骤7-2:样本增强:针对本区域的已标注训练样本进行增强,本发明拟采样语速调整、随机加噪策略,具体描述如下:

步骤7-2-1:语速调整策略:本发明随机选择本区域20%的已标注训练样本进行语速调整。具体地,基于sox工具调整语音样本语速,其中10%的语音样本调整的语速倍数为0.95,另外10%为1.02;

步骤7-2-2:随机加噪策略:本发明随机选择本区域20%的已标注训练样本进行随机加噪处理。具体地,随机产生均值为0方差为1的高斯白噪声特征(维度与mfcc特征图一致),并将其使用“逐元素相加操作”直接应用于原始的mfcc特征图;

在处理有标注训练语料之后,通过子域适应能够使语料集中的共性空管知识具有更为丰富的多样性和词汇覆盖度;通过样本增强可以提高训练样本数量和特征多样性;形成更为高效合理的空管语音识别研究训练语料。在此基础上,综合考虑预训练和参数迁移,形成本发明的空管语音识别研究训练方案,如图8所示,其中不同颜色的箭头分别代表不同的知识迁移类型。

步骤8:基于标注语料优化空管语音识别模型,包括以下步骤:

步骤8-1:以mfcc特征图和通话文本分别作为语音识别模型的输入和输出进行模型训练;

步骤8-2:针对预训练主干网络和已优化模型进行特征融合,训练过程中仅针对预训练主干网络和预测层进行参数优化,不再对基线模型进行参数更新操作。本发明中对预训练网络和以优化网络的特征使用平均操作,其结果作为优化主干网络的特征计算损失;

步骤8-3:以ctc函数(connectionisttemporalclassification)作为模型训练的损失函数,针对任意语音输入,其输入文本序列π的概率表示为:其中f=<f1,…,ft>,为输入语音特征,代表第t个语音帧为第k个词汇的概率,t为语音帧数量,a为词汇表。

进一步地:最终的预测文本概率公式为:其中,ξ为输入语音特征所有可能的数文本序列集合,通过去重和去除间隔符能够得到最终的输出文本。例如,假设“_”代表间隔符,输出序列“a_bb_c”和“_ab_c_”都对应着最终的输出字符串”abc”。

步骤9:使用反向传播算法更新模型参数,迭代训练以降低模型训练的损失函数,直至输出误差稳定。

现在对本实施例产生的技术效果结果进行分析与说明:

实施例3

本实施例为本发明的方案的具体实施和与现有技术的对比。

以下为本实施例采用验证技术方案的可行性和性能的数据条件:

1、基线模型及语料:使用采集自成都区域管制中心的管制通话语音数据(共计303小时标注训练数据)训练基线模型,在13.5小时的验证集上获得的性能为:2.7%的字符错误率(charactererrorrate,cer),即识别正确率为97.3%;

2、预训练和迁移优化模型及语料:验证数据是采集自成都双流国际机场塔台管制中心的管制通话语音数据,预处理之后获得未标注样本数据134小时、标注样本数据23.7小时、最终用于测试的标注数据为1.5小时,共计词汇907个,其中新增词汇24个。

以下为本实施例实施本方案的具体软硬件参数以及实施过程:

使用keras封装的cnn、lstm、fc神经网络层以及相关的损失函数和优化器功能实现本发明技术方案,主干网络结构如前所述。预训练和迁移训练的训练超参数配置描述如下:

1、预训练:初始学习率为0.001,学习速率衰减速度为0.9,训练时每个batch中样本的数量为96;

2、迁移优化:初始学习了为0.00005,学习速率衰减速度为0.99,训练时每个batch中样本的数量为160。

实验采用的硬件环境为:cpu为2×intelcorei7-6800k,显卡为2×nvidiageforcertx2080ti,显卡为2×11gb,内存为64gb,操作系统为ubuntulinux16.04。

在上述训练数据和配置情况下,共进行了4组实验,分别为无预训练和迁移优化、有预训练无迁移优化、无预训练有迁移优化、有预训练和迁移优化的实验。实验结果采样基于中文汉字和英文字母的cer衡量,并通过计算公式进行计算,其中,n为真实文本标签的长度,i,d,s分别代表将预测文本标签转换到真实标签所需要的插入、删除和替换操作数。

验证结果:本发明技术方案验证仅考察声学模型性能,不涉及语言模型处理和优化,最终的结果对比如图9所示。通过实验结果可知,本发明涉及的两个目的均对小规模标注数据情况下的空管语音识别模型性能提升起到了较大的促进作用,同时亦能提高模型的收敛效率。其具体对比结果如下:

1、对比实验a和b:本发明技术方案的预训练方法能够在无基线模型和小规模标注数据的情况下极大地提高最终的识别性能,cer从11.2%降低到7.4%。与此同时,由于预训练方法从未标注数据中学习到语音信号的特征表示,其模型优化的收敛速度也有所提高,即需要更少的训练事件获得了更高得识别性能。

2、对比实验a和c:本发明技术方案的迁移优化方法能够在有基线模型得情况下获得优异的识别性能,cer为5.4%。更为重要的是,由于基线模型为已优化模型,其收敛速度得到了进一步提升,仅需要5个训练epoch即能得到优异的识别性能。分析原因可得,通过迁移基线模型的标注训练样本中的共性空管知识,训练语料的数量、多样性和覆盖度均得到了极大的提升,进而提升了语音识别效率。

3、从实验4可知,结合本发明技术方案两个方法的优点,在仅有23.7小时的标注数据基础上,即能在一个新的数据的测试数据上获得3.3%的字符错误率,实现了快速高效、高性能的模型迁移。

即,本发明方案能够在少量标注样本情况下大大的提高空管语音识别训练的准确度,同时也有效的提升训练的效率。

实施例4

如图10所示,一种针对少量标注样本的空管语音识别装置,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述实施例所述的一种针对少量标注样本的空管语音识别方法。所述输入输出接口可以包括显示器、键盘、鼠标、以及usb接口,用于输入输出数据;电源用于为电子设备提供电能。

本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(readonlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。

当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包括在本发明的保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips