HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种针对民航陆空通话领域的基于迁移学习的语音识别方法与流程

2021-01-28 13:01:02|257|起点商标网
一种针对民航陆空通话领域的基于迁移学习的语音识别方法与流程

本发明涉及迁移学习领域,特别是涉及一种针对民航陆空通话领域的基于迁移学习的语音识别方法。



背景技术:

近年来,国民经济的发展促进了我国民航事业不断发展,在航班数量明显增加的同时也对民航安全提出了新的考验。民航陆空对话作为飞行员与空中交通管制员(后简称“管制员”)一种重要的通信方式,得到了前所未有的重视。从民航陆空对话方式来看,在现役的民航通信设备的基础上,为使航空器安全、高效地运行,管制员和飞行员必须准确、清晰地理解双方的语音意图,从而保证导航指令准确无误地得到传递。因此,长期以来,管制员指令下达标准与否以及管制员和飞行员之间的地空语音对话内容是否相互一致是一个直接关系航空器的飞行安全的重大问题。如何更好的保持地空对话,也成为关系民航事业发展的关键一步。

在所有民航事故中,由于陆空对话失误产生的安全事故举不胜举。例如2010年发生在德国的的乌伯林根空难,该次空难共造成71人死亡。事故调查结果显示,导致此次空难发生的最主要原因是陆空对话错误,具体包括用语不规范、飞行员理解失误等方面。在我国,1993年发生在新疆乌鲁木齐机场的一次事故至今令人心有余悸,管制员发出高度表拨正值指令,而飞行员错误的把它当作高度值处理,最终导致机毁人亡的惨剧。事后调查发现,管制员通话用语不规范、飞行员错误理解也是此次飞行空难的主要诱因。

为减少陆空对话错误,国际民航组织及各国民航管理机构虽然不断改进陆空对话的标准,但由陆空对话失误导致的飞行事故及事故症候仍不断发生。由此可见,加强陆空对话内容的智能校验技术的研究对减少飞行事故和事故征候具有重大、迫切的现实意义。



技术实现要素:

本发明的目的是提供一种针对民航陆空通话领域的基于迁移学习的语音识别方法,提高民航陆空通话的准确性。

为实现上述目的,本发明提供了如下方案:

收集通用数据集和迁移数据集并做数据处理。

初始化神经网络,采用时延神经网络-隐马尔可夫模型作为声学训练模型。

使用通用数据集进行语音识别训练,得到中文语音识别通用模型。

对所述迁移数据集在通用中文语音识别模型上进行训练并调整参数,得到民航陆空通话领域中文语音识别模型。

扩充民航领域文本语料,生成语言模型。

可选的,收集通用数据集和迁移数据集并做数据处理,具体包括:

选取语料充足的通用中文语料库;

对语料库中语音进行端点检测并切除语音首尾的静音部分;

对语料库中语音文件进行数据增强,进一步扩大语料库;

对剩下的包含人声的语料进行语音信号预加重及傅里叶变换等操作提取语音信号的梅尔频率倒谱特征向量。

训练声学特征高斯混合模型,并将特征向量与对应音素对齐。

可选的,初试化神经网络,采用时延神经网络-隐马尔可夫模型作为声学训练模型,具体包括:

选择合适的神经网络激活函数。

配置相应的神经网络隐层以防止过拟合现象的产生。

可选的,从预训练模型和目标模型中找到共享的参数信息,以实现模型迁移,具体包括:

给出训练集来自于通用中文语音数据集,ds表示有标签源领域数据,xi表示输入特征,yi表示特征对应标签数据。ds服从于某种数据分布ps(x,y)。通过预训练确定神经网络权值矩阵ws,得到预训练模型。

给出迁移学习数据集来自于民航陆空通话领域中文语音数据集。将输入特征及对应标签数据在预训练模型上进行迁移训练,以最小化损失函数为目标调整神经网络权值矩阵ws,得到新权值矩阵wt及最终模型。

可选的,根据民航陆空通话领域语料,生成领域内专用语言模型,具体包括:

根据所述民航陆空通话领域文本语料生成大量文本语料以训练语言模型。

训练所述文本语料,统计词与词之间同时出现概率,生成民航陆空通话领域语言模型。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明公开一种针对民航陆空通话领域的基于迁移学习的语音识别方法。方法包括:收集通用数据集和迁移数据集并做数据处理;初试化神经网络,采用时延神经网络-隐马尔可夫模型作为声学训练模型;使用通用数据集进行语音识别训练,得到中文语音识别通用声学模型;对所述迁移数据集在通用中文语音识别模型上进行训练并调整参数,得到民航陆空通话领域中文语音识别声学模型;扩充民航领域文本语料,生成语言模型。发明的基于迁移学习的方法能有效利用该领域外的数据,相较于普通声学模型识别效果有很大提高。采用本发明的方法能够解决民航陆空通话领域中文语料不足的问题,提高民航陆空通话的准确性。此外,本发明还能有效提高陆空通话沟通效率,对减少陆空安全事故具有重大的意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例针对民航陆空通话领域的基于迁移学习的语音识别方法流程图;

图2为本发明实施例针对民航陆空通话领域的迁移学习原理图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例针对民航陆空通话领域的基于迁移学习的语音识别系统方法流程图。如图1所示,一种针对民航陆空通话领域的基于迁移学习的语音识别方法,所述识别方法包括:

步骤101:收集通用数据集和迁移数据集并做数据处理,具体包括:

获取通用语音数据及陆空通话语音数据,及对应文本标注。

获取语音文件对应说话人编号。

按指定格式整理好数据。

对语料库中语音进行端点检测并切除语音首尾的静音部分。

对语料库中语音文件进行数据增强,进一步扩大语料库。

对剩下的包含人声的语料进行语音信号预加重及傅里叶变换等操作提取语音信号的特征向量。

训练声学特征高斯混合模型,并将特征向量与对应音素对齐。

步骤102:初始化神经网络,采用时延神经网络-隐马尔可夫模型作为声学训练模型,具体包括:

选择合适的神经网络激活函数。

配置相应的神经网络隐层以防止过拟合现象的产生。

步骤103:将通用数据集进行语音识别训练,得到中文语音识别通用模型。

步骤104:对所述迁移数据集在通用中文语音识别模型上进行训练并调整参数,得到民航陆空通话领域中文语音识别模型,具体包括:

给出训练集来自于通用中文语音数据集,ds表示有标签源领域数据,xi表示输入特征,yi表示特征对应标签数据。ds服从于某种数据分布ps(x,y)。通过预训练确定神经网络权值矩阵ws,得到预训练模型。

给出迁移学习数据集来自于民航陆空通话领域中文语音数据集。将输入特征及对应标签数据在预训练模型上进行迁移训练,以最小化损失函数为目标调整神经网络权值矩阵ws,得到新权值矩阵wt及最终模型。

步骤105:扩充民航领域文本,生成语言模型,具体包括:

根据所述民航陆空通话领域文本语料,生成大量文本语料以训练语言模型。

训练所述文本语料,统计词与词之间同时出现概率,生成民航陆空通话领域语言模型。

图2为本发明实施例针对民航陆空通话领域的迁移学习原理图。如图2所示,具体包括:

源域模型共享参数及非共享参数的学习,主要通过预训练过程得到。

保留模型共享参数,通过目标域数据对共享参数进行训练调整。

迁移学习得到目标域模型。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips