基于知识蒸馏的肺音分类方法、系统、终端及存储介质与流程
本发明涉及音频分类技术领域,尤其涉及一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质。
背景技术:
传统对于肺音的分析是利用传统的听诊器采用人工听诊的方式来实现,这可能由于经验不足和人耳对肺音的低频段敏感性低等因素,导致判断结果不够准确。与主观听诊相比,对肺音的计算机分析能够进行可重复的肺音量化近年来,已有很多学者专注于研究肺音分析和检测中的机器学习技术。机器学习技术应用于肺音分析上,使得肺音识别的准确率得到了提升。
由于肺部声音信号不稳定,现有技术中使用神经网络来对肺音进行分类时,基本都只能实现单一类型的分类,用作肺音的细类区分,仍存在一定的局限性。并且,由于听取肺音是可能出现各种各样不确定音和噪音,使得对肺音的分析不够准确,影响分类的准确性。
因此,现有技术还有待改进和提高。
技术实现要素:
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质,旨在解决现有技术中用神经网络来对肺音进行分类时,基本都只能实现单一类型的分类,用作肺音的细类区分,仍存在一定的局限性,并且对肺音的分析不够准确,影响分类的准确性。
为了解决上述技术问题,本发明所采用的技术方案如下:
第一方面,本发明提供一种基于知识蒸馏的肺音分类方法,其中,所述方法包括:
获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
在一种实现方式中,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集,包括:
采集所述肺音音频,并对所述肺音音频进行音频数据增强处理,得到增强后的肺音音频;
对所述增强后的肺音音频进行切片,得到多个音频片段;
分别从每一个所述音频片段中提取所述梅尔频谱特征,得到所述肺音数据集。
在一种实现方式中,所述音频数据增强处理包括:时间变换处理、音高变换处理和μ律压缩处理。
在一种实现方式中,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集之后,包括:
对每一个所述音频片段进行零均值归一化处理。
在一种实现方式中,所述基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,包括:
获取所述肺音数据集中的预测标签;
基于所述预测标签与真实标签,对多个教师模型进行训练,得到所述已训练多个的教师模型,所述真实标签为肺音类别。
在一种实现方式中,所述基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,包括:
获取所述多分类软标签;
基于所述多分类软标签与肺音数据集,对所述学生模型进行训练,得到所述已训练的学生模型,所述已训练的学生模型的软标签接近所述已训练的多个教师模型的软标签;
利用所述已训练的学生模型对所述肺音音频进行分类,得到所述肺音音频的类别。
在一种实现方式中,所述教师模型与所述学生模型均为一个6层的卷积神经网络模型。
第二方面,本发明还提供一种基于知识蒸馏的肺音分析系统,其中,所述系统包括:
音频特征获取单元,用于获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
教师模型训练单元,用于获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
软标签拟合单元,用于根据所述已训练的教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
学生模型训练单元,用于基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
第三方面,本发明还提供一种智能终端,其中,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行上述方案中任意一项所述的方法。
第四方面,本发明还提供一种非临时性计算机可读存储介质,其中,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述方案中任意一项所述的方法
有益效果:与现有技术相比,本发明提供了一种基于知识蒸馏的肺音分类方法,首先获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型;根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏,通过利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
附图说明
图1为本发明实施例提供的基于知识蒸馏的肺音分类方法的实施例流程图。
图2是本发明实施例提供的基于知识蒸馏的肺音分类系统的原理框图。
图3是本发明实施例提供的智能终端的功能原理图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
传统对于肺音的分析是利用传统的听诊器采用人工听诊的方式来实现,这可能由于经验不足和人耳对肺音的低频段敏感性低等因素,导致判断结果不够准确。与主观听诊相比,对肺音的计算机分析能够进行可重复的肺音量化近年来,已有很多学者专注于研究肺音分析和检测中的机器学习技术。机器学习技术应用于肺音分析上,使得肺音识别的准确率得到了提升。
由于肺部声音信号不稳定,现有技术中也有提出一种使用小波变换分析肺部声音信号以及使用人工神经网络(ann)进行分类的方法,但是这种方法需要人工标记肺音的周期。异常肺音本身是一种非周期信号,其可能不会在整个记录中出现。此外,目前还开发出一种自动肺音分析仪,该工具在不需要额外的流量信号或标记呼吸周期的情况下,就能识别肺部声音特征,但是这种方法主要是区分正常肺音和异常肺音,用作肺音的细类区分,仍存在一定的局限性。听诊时可能出现的各种各样的不确定音和噪声使肺音检测不够准确。目前,研究人员提出了基于隐马尔科夫模型提出“异常呼吸置信度”检测的两步分类方法,但是该工作也只是关注单一类型的肺音。可见,现有技术中使用神经网络来对肺音进行分类时,基本都只能实现单一类型的分类,用作肺音的细类区分,仍存在一定的局限性。并且,由于听取肺音是可能出现各种各样不确定音和噪音,使得对肺音的分析不够准确,影响分类的准确性。
为解决现有技术中的问题,本实施例提供一种基于知识蒸馏的肺音分类方法,本实施例中的知识蒸馏,是可以将一个网络的知识转移到另一个网络,两个网络可以是同构或者异构。具体实施是,是先训练一个教师网络,然后使用这个教师网络的输出和数据的真实标签去训练学生网络。知识蒸馏可以用来将网络从大网络转化成一个小网络,并保留接近于大网络的性能;也可以将多个网络的学到的知识转移到一个网络中。因此,本实施例可基于知识蒸馏的原理,利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。具体如图1中所示。所述基于知识蒸馏的肺音分类方法具体包括如下步骤:
步骤s100、获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集。
本实施例中的肺音音频可来自各大医院所采集到的音频数据,这样就可以利用多方数据来进行分析,以便准确地对肺音音频进行分类。在本实施例中,当获取到所述肺音音频后,对所述肺音音频进行音频数据增强处理,得到增强后的肺音音频。具体地,本实施例使用三种数据增强方式来数据增强方法:时间变换、音高变换和
其中,
接着,本实施例从所述增强后的肺音音频中获取梅尔频谱特征,提取梅尔频谱特征的作用在于把音频信号中具有辨识性的成分提取出来,然后去除肺音音频的干扰因素,以提高识别的准确性。具体实施时,本实施例中提取梅尔频谱特征的流程主要是包括四个步骤。具体为:首先是先对肺音音频进行预加重、分帧和加窗(加强语音信号性能(信噪比,处理精度等)的一些预处理)。然后,对每一个短时分析窗,通过fft(fastfouriertransformation,快速傅氏变换)得到对应的频谱(即获得分布在时间轴上不同时间窗内的频谱)。接着将将上面的频谱通过mel(梅尔)滤波器组得到mel频谱(通过mel频谱,将线形的自然频谱转换为体现人类听觉特性的mel频谱)。当然,本实施例中对于梅尔频谱特征的提取可以基于一个开源的python工具包librosa来实现。
在一种实现方式中,本实施例可以对所述增强后的肺音音频进行切片,得到多个音频片段。然后分别从每一个所述音频片段中提取所述梅尔频谱特征,得到所述肺音数据集。具体地,由于原始采集的肺音音频是一段较长的时序序列,在3至10秒之间会有较为明显的变化,因此本实施例中可以按照预先设定好的时间窗口,将增强处理后的肺音音频分割为固定时长的音频片段,然后再对各个音频片段进行梅尔频谱特征,并构成所述数据集,通过所述肺音数据集进行模型的训练。在一种实现方式中,本实施例在得到所述肺音数据集后还对每一个所述音频片段进行零均值归一化处理,能够加快模型的优化过程,本实施例使用的零均值归一化的方法是音频和图像处理任务中比较常用的归一化方法。对于音频片段
步骤s200、获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类。
在本实施例中,本实施例首先获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,然后获取所述肺音数据集中的预测标签。接着基于所述预测标签与真实标签,对所述教师模型进行训练,得到已训练的多个教师模型,所述真实标签为肺音类别。在本实施例中,每一个已训练的教师模型为二分类模型,假设共用m种肺音类别,则就需要对应训练m个教师模型,以使得每一个已训练的教师模型可以分别对应两种肺音类别的分类。本实施例中的肺音数据集为
在训练多个教师模型的过程中,每个教师模型分别对应一种肺音类别,拟合来自不同医院采集到的的肺音音频数据,训练目标为最小化教师模型的预测标签和真实标签之间的交叉熵损失,对于教师模型
这里
步骤s300、根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签。
对于每一个训练好的教师模型而言,其已经学习了某一种肺音类别的数据特征。先由教师模型计算学生模型待学习的数据集
这里的
由于每一个教师模型
其中,
步骤s400、基于所述多分类软标签和肺音数据集训练学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
本实施例中获取所述多分类软标签;基于所述多分类软标签与肺音数据集,对所述学生模型进行训练,得到所述已训练的学生模型,所述已训练的学生模型的软标签接近所述已训练的教师模型的软标签;利用所述已训练的学生模型对所述肺音音频进行分类,得到所述肺音音频的类别。
在本实施例中,学生模型对于待学习的数据集
在本实施例中,学生模型的软标签计算与教师模型类似,区别在于学生模型需要考虑
这里的
除此之外,本实施例的学生模型的学习目标和教师模型也不同,学生模型一方面需要使得预测
但是,由于教师模型也是存在一定的出错概率,与单纯的向教师模型学习相比,添加真实标签就可以减少学生模型学习错误知识的可能性,学生模型的损失如以下公式所示:
这里的
在相同实验条件下,现有技术中的模型准确率为98%,参数量为0.28m,预测8000条数据的时耗为3.12秒,而本实施例中的学生模型准确率为95%,参数量为0.06m,预测同样的数据时耗为2.48秒。本方案的模型虽然在准确率上比现有技术中的模型低0.03,但是参数量比其减少了79%,完成相同任务比其节省了20%时间。可见,本发明可以通过多个教师模型的知识蒸馏,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
基于上述实施例,本发明还提供一种基于知识蒸馏的肺音分析系统,如图2中所示,所述系统包括:音频特征获取单元10、教师模型训练单元20、软标签拟合单元30以及学生模型训练单元40。
具体地,所述音频特征获取单元10,用于获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集。
所述教师模型训练单元20,用于获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类。
所述软标签拟合单元30,用于根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签。
所述学生模型训练单元40,用于基于所述多分类软标签和肺音数据集训练学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图3所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的智能终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识蒸馏的肺音分析方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
综上,本发明公开了一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质,所述方法包括:获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型;根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的多个学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏,通过利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除