基于知识蒸馏的肺音分类方法、系统、终端及存储介质与流程

2021-01-28 15:01:43|

258|

起点商标网

本发明涉及音频分类技术领域，尤其涉及一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质。

背景技术：

传统对于肺音的分析是利用传统的听诊器采用人工听诊的方式来实现，这可能由于经验不足和人耳对肺音的低频段敏感性低等因素，导致判断结果不够准确。与主观听诊相比，对肺音的计算机分析能够进行可重复的肺音量化近年来，已有很多学者专注于研究肺音分析和检测中的机器学习技术。机器学习技术应用于肺音分析上，使得肺音识别的准确率得到了提升。

由于肺部声音信号不稳定，现有技术中使用神经网络来对肺音进行分类时，基本都只能实现单一类型的分类，用作肺音的细类区分，仍存在一定的局限性。并且，由于听取肺音是可能出现各种各样不确定音和噪音，使得对肺音的分析不够准确，影响分类的准确性。

因此，现有技术还有待改进和提高。

技术实现要素：

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质，旨在解决现有技术中用神经网络来对肺音进行分类时，基本都只能实现单一类型的分类，用作肺音的细类区分，仍存在一定的局限性，并且对肺音的分析不够准确，影响分类的准确性。

为了解决上述技术问题，本发明所采用的技术方案如下：

第一方面，本发明提供一种基于知识蒸馏的肺音分类方法，其中，所述方法包括：

获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集；

获取神经网络模型，所述神经网络模型包括多个教师模型与学生模型，基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型，所述已训练的多个教师模型为二分类模型，用于对所述肺音音频进行分类，且每一个已训练的教师模型对应两种肺音类别的分类；

根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签，并将其转换后，得到多分类软标签；

基于所述多分类软标签和肺音数据集训练所述学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类，所述已训练的学生模型为多分类模型，所述已训练的学生模型对应于多种肺音类别的分类。

在一种实现方式中，所述获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集，包括：

采集所述肺音音频，并对所述肺音音频进行音频数据增强处理，得到增强后的肺音音频；

对所述增强后的肺音音频进行切片，得到多个音频片段；

分别从每一个所述音频片段中提取所述梅尔频谱特征，得到所述肺音数据集。

在一种实现方式中，所述音频数据增强处理包括：时间变换处理、音高变换处理和μ律压缩处理。

在一种实现方式中，所述获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集之后，包括：

对每一个所述音频片段进行零均值归一化处理。

在一种实现方式中，所述基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型，包括：

获取所述肺音数据集中的预测标签；

基于所述预测标签与真实标签，对多个教师模型进行训练，得到所述已训练多个的教师模型，所述真实标签为肺音类别。

在一种实现方式中，所述基于所述多分类软标签和肺音数据集训练所述学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类，包括：

获取所述多分类软标签；

基于所述多分类软标签与肺音数据集，对所述学生模型进行训练，得到所述已训练的学生模型，所述已训练的学生模型的软标签接近所述已训练的多个教师模型的软标签；

利用所述已训练的学生模型对所述肺音音频进行分类，得到所述肺音音频的类别。

在一种实现方式中，所述教师模型与所述学生模型均为一个6层的卷积神经网络模型。

第二方面，本发明还提供一种基于知识蒸馏的肺音分析系统，其中，所述系统包括：

音频特征获取单元，用于获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集；

教师模型训练单元，用于获取神经网络模型，所述神经网络模型包括多个教师模型与学生模型，基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型，所述已训练的多个教师模型为二分类模型，用于对所述肺音音频进行分类，且每一个已训练的教师模型对应两种肺音类别的分类；

软标签拟合单元，用于根据所述已训练的教师模型分别计算所述肺音数据集的软标签，并将其转换后，得到多分类软标签；

学生模型训练单元，用于基于所述多分类软标签和肺音数据集训练所述学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类，所述已训练的学生模型为多分类模型，所述已训练的学生模型对应于多种肺音类别的分类。

第三方面，本发明还提供一种智能终端，其中，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行上述方案中任意一项所述的方法。

第四方面，本发明还提供一种非临时性计算机可读存储介质，其中，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述方案中任意一项所述的方法

有益效果：与现有技术相比，本发明提供了一种基于知识蒸馏的肺音分类方法，首先获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集；基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型；根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签，并将其转换后，得到多分类软标签；基于所述多分类软标签和肺音数据集训练所述学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏，通过利用多个教师模型的知识，指导学生模型学习，从而充分利用多方肺音音频，并准确对所述肺音音频进行分类。

附图说明

图1为本发明实施例提供的基于知识蒸馏的肺音分类方法的实施例流程图。

图2是本发明实施例提供的基于知识蒸馏的肺音分类系统的原理框图。

图3是本发明实施例提供的智能终端的功能原理图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

由于肺部声音信号不稳定，现有技术中也有提出一种使用小波变换分析肺部声音信号以及使用人工神经网络（ann）进行分类的方法,但是这种方法需要人工标记肺音的周期。异常肺音本身是一种非周期信号，其可能不会在整个记录中出现。此外，目前还开发出一种自动肺音分析仪，该工具在不需要额外的流量信号或标记呼吸周期的情况下，就能识别肺部声音特征,但是这种方法主要是区分正常肺音和异常肺音，用作肺音的细类区分，仍存在一定的局限性。听诊时可能出现的各种各样的不确定音和噪声使肺音检测不够准确。目前，研究人员提出了基于隐马尔科夫模型提出“异常呼吸置信度”检测的两步分类方法，但是该工作也只是关注单一类型的肺音。可见，现有技术中使用神经网络来对肺音进行分类时，基本都只能实现单一类型的分类，用作肺音的细类区分，仍存在一定的局限性。并且，由于听取肺音是可能出现各种各样不确定音和噪音，使得对肺音的分析不够准确，影响分类的准确性。

为解决现有技术中的问题，本实施例提供一种基于知识蒸馏的肺音分类方法，本实施例中的知识蒸馏，是可以将一个网络的知识转移到另一个网络，两个网络可以是同构或者异构。具体实施是，是先训练一个教师网络，然后使用这个教师网络的输出和数据的真实标签去训练学生网络。知识蒸馏可以用来将网络从大网络转化成一个小网络，并保留接近于大网络的性能；也可以将多个网络的学到的知识转移到一个网络中。因此，本实施例可基于知识蒸馏的原理，利用多个教师模型的知识，指导学生模型学习，从而充分利用多方肺音音频，并准确对所述肺音音频进行分类。具体如图1中所示。所述基于知识蒸馏的肺音分类方法具体包括如下步骤：

步骤s100、获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集。

本实施例中的肺音音频可来自各大医院所采集到的音频数据，这样就可以利用多方数据来进行分析，以便准确地对肺音音频进行分类。在本实施例中，当获取到所述肺音音频后，对所述肺音音频进行音频数据增强处理，得到增强后的肺音音频。具体地，本实施例使用三种数据增强方式来数据增强方法：时间变换、音高变换和律压缩。时间变换旨在通过改变参数因子而影响音频的采样速率。而音高变换就是以半音为单位，对音频的音调进行调整。律压缩是一种动态范围压缩算法，对于输入的信号，，计算律压缩可以表述为以下公式：

。

其中，表示符号函数，表示取信号的绝对值，为压缩参数，一般取值为2的幂减1。通过这三种数据增强方法来对数据进行增强，使得采集的肺音音频可以明显的增强，使得整个数据集中的样本数据量增加。

接着，本实施例从所述增强后的肺音音频中获取梅尔频谱特征，提取梅尔频谱特征的作用在于把音频信号中具有辨识性的成分提取出来，然后去除肺音音频的干扰因素，以提高识别的准确性。具体实施时，本实施例中提取梅尔频谱特征的流程主要是包括四个步骤。具体为：首先是先对肺音音频进行预加重、分帧和加窗（加强语音信号性能（信噪比，处理精度等）的一些预处理）。然后，对每一个短时分析窗，通过fft（fastfouriertransformation，快速傅氏变换）得到对应的频谱（即获得分布在时间轴上不同时间窗内的频谱）。接着将将上面的频谱通过mel（梅尔）滤波器组得到mel频谱（通过mel频谱，将线形的自然频谱转换为体现人类听觉特性的mel频谱）。当然，本实施例中对于梅尔频谱特征的提取可以基于一个开源的python工具包librosa来实现。

在一种实现方式中，本实施例可以对所述增强后的肺音音频进行切片，得到多个音频片段。然后分别从每一个所述音频片段中提取所述梅尔频谱特征，得到所述肺音数据集。具体地，由于原始采集的肺音音频是一段较长的时序序列，在3至10秒之间会有较为明显的变化，因此本实施例中可以按照预先设定好的时间窗口，将增强处理后的肺音音频分割为固定时长的音频片段，然后再对各个音频片段进行梅尔频谱特征，并构成所述数据集，通过所述肺音数据集进行模型的训练。在一种实现方式中，本实施例在得到所述肺音数据集后还对每一个所述音频片段进行零均值归一化处理，能够加快模型的优化过程，本实施例使用的零均值归一化的方法是音频和图像处理任务中比较常用的归一化方法。对于音频片段,零均值归一化就是减去其均值之后，再除以的标准差，如以下公式所示：

。

步骤s200、获取神经网络模型，所述神经网络模型包括多个教师模型与学生模型，基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型，所述已训练的多个教师模型为二分类模型，用于对所述肺音音频进行分类，且每一个已训练的教师模型对应两种肺音类别的分类。

在本实施例中，本实施例首先获取神经网络模型，所述神经网络模型包括多个教师模型与学生模型，然后获取所述肺音数据集中的预测标签。接着基于所述预测标签与真实标签，对所述教师模型进行训练，得到已训练的多个教师模型，所述真实标签为肺音类别。在本实施例中，每一个已训练的教师模型为二分类模型，假设共用m种肺音类别，则就需要对应训练m个教师模型，以使得每一个已训练的教师模型可以分别对应两种肺音类别的分类。本实施例中的肺音数据集为，数据对应的预测标签定义为。本实施例中，所述教师模型是一个6层的cnn（convolutionalneuralnetworks，卷积神经网络）模型，第1层是有24个滤波器的卷积层，卷积核大小为(5,5)，步幅为(4,2)。第2层同样是卷积层，包含48个滤波器，卷积核大小、步幅与第1层相同。第3层是一个最大池化层，其poolsize为(2,2)。第4层卷积层的滤波器数量和卷积核大小与第2层相同。第5层全连接层有64个隐藏单元，最后一层为输出层。

在训练多个教师模型的过程中，每个教师模型分别对应一种肺音类别，拟合来自不同医院采集到的的肺音音频数据，训练目标为最小化教师模型的预测标签和真实标签之间的交叉熵损失，对于教师模型，其损失函数如下公式所示：

，

这里表示中元素数量，表示中的一个数据点，是与相对应的类别标签，表示教师模型的预测函数。

步骤s300、根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签，并将其转换后，得到多分类软标签。

对于每一个训练好的教师模型而言，其已经学习了某一种肺音类别的数据特征。先由教师模型计算学生模型待学习的数据集的软标签，然后让学生模型拟合这些软标签，可以将教师模型的知识传授给学生模型，即实现知识蒸馏。在本实施例中，对于数据集中的一个数据点，通过教师模型计算其软标签时,如以下公式所示：

，

这里的表示教师模型对应音频类别时logits层的输出，为温控超参数，取值越大，软标签的分布越平滑。

由于每一个教师模型都是一个二分类的模型，其logits层的输出只有2个类别，而对于另外的m-1个类别，本实施例采用取0值的方式，以此将多个二分类模型的软标签转换为一个多分类的软标签，从而与学生模型的类别维度统一，是与相对应的类别标签。的计算如以下公式所示：

其中，，对于任意一个，如果，定义0为正常类别，那么函数的返回值为集合中任意一个元素，且满足每个元素被选中的概率相等；否则，函数直接返回。这样通过训练后的所述学生模型就可以对肺音音频进行分类，从而得到肺音音频对应的类别。

步骤s400、基于所述多分类软标签和肺音数据集训练学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类，所述已训练的学生模型为多分类模型，所述已训练的学生模型对应于多种肺音类别的分类。

本实施例中获取所述多分类软标签；基于所述多分类软标签与肺音数据集，对所述学生模型进行训练，得到所述已训练的学生模型，所述已训练的学生模型的软标签接近所述已训练的教师模型的软标签；利用所述已训练的学生模型对所述肺音音频进行分类，得到所述肺音音频的类别。

在本实施例中，学生模型对于待学习的数据集对应的标签定义为。所述学生模型是在教师模型的基础上进行简化的一个模型。该学生模型共有6层，第1层是有6个滤波器的卷积层，卷积核大小为(5,5)，步幅为(4,2)。第2层同样是卷积层，包含18个滤波器，卷积核大小、步幅与第1层相同。第3层是一个最大池化层，其poolsize为(2,2)。第4卷积层有24个滤波器，卷积核大小与第2层相同。第5层全连接层有32个隐藏单元，然后连接输出层。

在本实施例中，学生模型的软标签计算与教师模型类似，区别在于学生模型需要考虑个类别，如以下公式所示：

，

这里的表示学生模型对应类别时logits层的输出，0表示正常的类别。

除此之外，本实施例的学生模型的学习目标和教师模型也不同，学生模型一方面需要使得预测尽量接近真实标签，另外一方面需要使得自身的软标签接近教师模型的软标签。与真实标签相比，软标签具有有更为丰富的信息，其包含样本中类与类之间的关联，这些关联由复杂的教师模型学习得到。学生模型由于自身结构比较简单，对样本的学习能力比教师模型弱，但如果在训练过程中，让学生模型拟合教师模型学习到的关联信息，能够对自身的学习起到辅助作用。

但是，由于教师模型也是存在一定的出错概率，与单纯的向教师模型学习相比，添加真实标签就可以减少学生模型学习错误知识的可能性，学生模型的损失如以下公式所示：

。

这里的表示中元素数量，表示s的预测函数。是一个常数，用于学生模型选择侧重真实标签，还是侧重软标签。

在相同实验条件下，现有技术中的模型准确率为98%，参数量为0.28m，预测8000条数据的时耗为3.12秒，而本实施例中的学生模型准确率为95%，参数量为0.06m，预测同样的数据时耗为2.48秒。本方案的模型虽然在准确率上比现有技术中的模型低0.03，但是参数量比其减少了79%，完成相同任务比其节省了20%时间。可见，本发明可以通过多个教师模型的知识蒸馏，指导学生模型学习，从而充分利用多方肺音音频，并准确对所述肺音音频进行分类。

基于上述实施例，本发明还提供一种基于知识蒸馏的肺音分析系统，如图2中所示，所述系统包括：音频特征获取单元10、教师模型训练单元20、软标签拟合单元30以及学生模型训练单元40。

具体地，所述音频特征获取单元10，用于获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集。

所述教师模型训练单元20，用于获取神经网络模型，所述神经网络模型包括多个教师模型与学生模型，基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型，所述已训练的多个教师模型为二分类模型，用于对所述肺音音频进行分类，且每一个已训练的教师模型对应两种肺音类别的分类。

所述软标签拟合单元30，用于根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签，并将其转换后，得到多分类软标签。

所述学生模型训练单元40，用于基于所述多分类软标签和肺音数据集训练学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类，所述已训练的学生模型为多分类模型，所述已训练的学生模型对应于多种肺音类别的分类。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图3所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的智能终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识蒸馏的肺音分析方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏，该智能终端的温度传感器是预先在智能终端内部设置，用于检测内部设备的运行温度。

本领域技术人员可以理解，图3中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集；

根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签，并将其转换后，得到多分类软标签；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（rom）、可编程rom（prom）、电可编程rom（eprom）、电可擦除可编程rom（eeprom）或闪存。易失性存储器可包括随机存取存储器（ram）或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram（sram）、动态ram（dram）、同步dram（sdram）、双数据率sdram（ddrsdram）、增强型sdram（esdram）、同步链路（synchlink）dram（sldram）、存储器总线（rambus）直接ram（rdram）、直接存储器总线动态ram（drdram）、以及存储器总线动态ram（rdram）等。

综上，本发明公开了一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质，所述方法包括：获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集；基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型；根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签，并将其转换后，得到多分类软标签；基于所述多分类软标签和肺音数据集训练所述学生模型，得到已训练的多个学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏，通过利用多个教师模型的知识，指导学生模型学习，从而充分利用多方肺音音频，并准确对所述肺音音频进行分类。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。