融合文本信息的敏感音频识别模型训练方法及识别方法与流程

2021-01-28 14:01:45|

279|

起点商标网

本申请涉及敏感音频识别技术领域，尤其涉及融合文本信息的敏感音频识别模型训练方法及识别方法。

背景技术：

随着科学技术的发展，语音识别技术受到广泛的应用。对于识别技术的精准性和针对性越来越受到重视。通过针对性的识别可以对某一类型的音频进行精准的识别。

在现有技术中，针对敏感类音频，例如，违规的娇喘内容等，目前敏感音频的识别的准确度已经大大提高，但是仍然存在没有精准识别到的情况，因此需要进一步提高对敏感音频识别的准确性。

技术实现要素：

有鉴于此，本申请提供一种融合文本信息的敏感音频识别模型训练方法及识别方法，在传统的敏感音频训练中增加文本信息，将文本信息与敏感音频结合，有效提高敏感音频识别模型的准确性判断。

本申请的一些实施方式提供了一种融合文本信息的敏感音频识别模型训练方法及识别方法。以下从多个方面介绍本申请，以下多个方面的实施方式和有益效果可互相参考。

第一方面，本申请提供一种融合文本信息的敏感音频识别模型训练方法，包括：所述电子设备获取敏感音频数据的音频特征向量和文本特征向量；所述电子设备将所述音频特征向量与所述文本特征向量合并在一起；所述电子设备将合并在一起的两个所述音频特征向量和文本特征向量输入深度神经网络后，经过分类损失函数进行训练，以得到敏感音频识别模型。

本申请的实施例的融合文本信息的敏感音频识别模型训练方法，通过增加敏感音频的文本信息对模型进行训练，将音频中说话的文本信息引入到敏感音频识别模型中，从而让模型可以结合文本和音频信息更加有效的判断音频是否含有娇喘的违规内容。

在本申请第一方面的实施例中，所述电子设备获取敏感音频数据的音频特征，包括：所述电子设备将所述敏感音频数据输入卷积神经网络，并从所述卷积神经网络的聚合层提取所述音频特征。

在本申请第一方面的实施例中，所述电子设备获取敏感音频数据的文本特征，包括：所述电子设备将所述敏感音频数据输入语音识别模型，并获取所述敏感音频的文本信息；所述电子设备将所述文本信息输入bert模型，并从所述文本信息中提取文本特征。采用已经训练好的语音识别模型和bert模型，可以更有效的识别出文本特征。在本申请第一方面的实施例中，所述电子设备获取敏感音频数据的文本特征，包括：所述电子设备从所述卷积神经网络的总层数的1/2-3/4之间层提取文本特征。由于太早层数不足以做语音识别，太靠后的层数存在和敏感音频分类有冲突。因而在总层数的1/2-3/4之间可以获取更准确的文本特征。

在本申请第一方面的实施例中，所述深度神经网络为2层的深度神经网络模型或3层的深度神经网络模型。

第二方面，本申请提供一种敏感音频识别方法，应用于电子设备，所述方法包括：所述电子设备获取待识别的音频数据；所述电子设备基于敏感音频识别模型对所述待识别的音频数据进行计算，得到计算结果；所述电子设备将所述计算结果与预设阈值进行比较，当所述计算结果小于预设阈值，则所述电子设备判断所述待识别的音频数据不是敏感音频，当所述计算结果大于等于预设阈值，则所述电子设备判断所述待识别的音频数据为敏感音频。本申请的实施例的融合文本信息的敏感音频识别方法，通过增加敏感音频的文本信息对模型进行训练，将音频中说话的文本信息引入到敏感音频识别模型中，从而让模型可以结合文本和音频信息更加有效的判断音频是否含有娇喘的违规内容。

在本申请第二方面的实施例中，所述敏感音频识别的训练方法包括：所述电子设备获取敏感音频数据的音频特征向量和文本特征向量，并将所述音频特征向量与所述文本特征向量合并在一起；所述电子设备将合并在一起的两个所述音频特征向量和文本特征向量输入深度神经网络，经过分类损失函数进行训练，以得到敏感音频识别模型。

在本申请第二方面的实施例中，所述电子设备获取敏感音频数据的音频特征，包括：所述电子设备将所述敏感音频数据输入卷积神经网络，并从所述卷积神经网络的聚合层提取所述音频特征。

在本申请第二方面的实施例中，所述电子设备获取敏感音频数据的文本特征，包括：所述电子设备将所述敏感音频数据输入语音识别模型，并获取所述敏感音频的文本信息；所述电子设备将所述文本信息输入bert模型，并从所述文本信息中提取文本特征。

在本申请第二方面的实施例中，所述电子设备获取敏感音频数据的文本特征，包括：所述电子设备从所述卷积神经网络的总层数的1/2-3/4之间层提取文本特征。

在本申请第二方面的实施例中，所述深度神经网络为2层的深度神经网络模型或3层的深度神经网络模型。

第三方面，本申请还提供一种电子设备，获取模块，所述获取模块用于获取敏感音频数据的音频特征向量和文本特征向量；处理模块，所述处理模块将所述音频特征向量与所述文本特征向量合并在一起；所述处理模块将合并在一起的两个所述音频特征向量和文本特征向量输入深度神经网络，经过分类损失函数进行训练，以得到敏感音频识别模型。

本申请的实施例的电子设备，通过增加敏感音频的文本信息对模型进行训练，将音频中说话的文本信息引入到敏感音频识别模型中，从而让模型可以结合文本和音频信息更加有效的判断音频是否含有娇喘的违规内容。

在本申请第三方面的实施例中，所述获取模块，包括：提取模块，所述处理模块将所述敏感音频数据输入卷积神经网络，并通过所述提取模块从所述卷积神经网络的聚合层提取所述音频特征。

在本申请第三方面的实施例中，所述处理模块将所述敏感音频数据输入语音识别模型，并通过所述提取模块获取所述敏感音频的文本信息；所述处理模块将所述文本信息输入bert模型，并通过所述提取模块从所述文本信息中提取文本特征。

在本申请第三方面的实施例中，所述处理模块从所述卷积神经网络的总层数的1/2-3/4之间层提取文本特征。

在本申请第三方面的实施例中，所述深度神经网络为2层的深度神经网络模型或3层的深度神经网络模型。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行第一方面和第二方面实施例所述的方法。

本申请的上述技术方案至少具有如下有益效果之一：

本申请的实施例的融合文本信息的敏感音频识别模型训练方法，通过增加敏感音频的文本信息对模型进行训练，将音频中说话的文本信息引入到敏感音频识别模型中，从而让模型可以结合文本和音频信息更加有效的判断音频是否含有娇喘的违规内容，提高模型判断的准确性。

附图说明

图1为本申请一个实施例的敏感音频识别系统的场景图；

图2为本申请一个实施例的敏感音频识别模型训练方法的流程图；

图3为本申请实施例的敏感音频识别方法的流程图；

图4为本申请实施例的电子设备的结构示意图；

图5为本申请一些实施例的一种设备的框图；

图6为本申请一些实施例的一种片上系统(soc)的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

可以理解的是，如本文所使用的，术语“模块””可以指代或者包括专用集成电路(asic)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件，或者可以作为这些硬件组件的一部分。

可以理解的是，在本申请各实施例中，处理器可以是微处理器、数字信号处理器、微控制器等，和/或其任何组合。根据另一个方面，所述处理器可以是单核处理器，多核处理器等，和/或其任何组合。

下面将结合具体场景对本申请的实施例进行描述。

参考图1，图1示出了敏感音频识别系统的场景图，在该场景中，包括电子设备110和云端服务器120，其中，电子设备110可以从云端服务器120中获取多条敏感音频数据，敏感音频是指违反规定的音频，例如，含有娇喘信息的音频等。电子设备110可以将敏感音频数据输入卷积神经网络(convolutionalneuralnetwork,cnn)获取音频特征向量，通过语音识别技术从敏感音频数据中识别出文本信息，再通过bert模型从文本信息中提取文本特征向量。电子设备110将音频特征向量和文本特征向量合并成更大维度的特征向量。在将合并后的特征向量输入深度神经网络(deepneuralnetwork，dnn)并结合分类损失函数进行训练，以得到敏感音频识别模型。本申请的训练方法，通过在敏感音频数据的对模型进行训练过程中加入文本信息，可以使模型在对敏感音频进行识别时，将文本信息作为判断的一个依据，能够更加准确的判断出敏感音频。以避免违规的音频被流转。

在本申请的另一个实施例中，模型训练的过程也可以在云端服务器120，电子设备110可以与云端服务器进行通信，以获取训练好的敏感音频识别模型。在此并不作为限定。

本申请中的电子设备，电子设备可以是手机、笔记本电脑、平板电脑、桌上型电脑、膝上型电脑、超级移动个人计算机(ultra-mobilepersonalcomputer,umpc)、手持计算机、上网本、个人数字助理(personaldigitalassistant，pda)、可穿戴电子设备等具有敏感音频识别功能的设备。

下面将结合附图对本申请的实施例作进一步地详细描述。

图2示出了融合文本信息的敏感音频识别模型训练方法的流程图。该方法由电子设备执行。如图2所示，该流程图包括：

步骤210，获取敏感音频数据。其中，敏感音频数据可以是多条，尽可能的获取更多的数据，以提高模型训练的准确度。例如，100000条敏感音频数据等。敏感音频数据可以电子设备是从云端服务器获取得到，云端服务器可以基于与其通信连接的多个设备中获取。

步骤220，获取敏感音频数据的音频特征向量和文本特征向量。其中，音频特征向量可以通过神经网络模型进行提取。例如，神经网络模型可以是cnn模型或rnn模型。

在本申请的一个实施例中，电子设备从卷积神经网络的总层数的1/2-3/4之间层提取文本特征。由于太早层数不足以做语音识别，太靠后的层数存在和敏感音频分类有冲突。因而在总层数的1/2-3/4之间可以获取更准确的文本特征。

在本申请的另一个实施例中，电子设备将敏感音频数据输入语音识别模型，并获取敏感音频的文本信息，电子设备将文本信息输入bert模型，并从文本信息中提取文本特征。该方法简单，使用现有的模型，且可以精准的提取文本特征。

本申请中的具体语音识别方法和bert模型提取文本特征的方法，以及利用神经网络模型提取音频特征的方法的过程可参考现有技术中的提取方法，在此不在赘述。

步骤230，将音频特征向量与文本特征向量合并。也就是说将若干维度的音频特征向量和若干维度的文本特征向量合并后组成更大维度的特征向量。

步骤240，将合并后的两个音频特征向量和文本特征向量输入dnn后，经过分类损失函数进行训练。其中，选择具有2-3层的dnn，在合并后的音频特征向量和文本特征向量经过dnn进一步的提取后，在经过常规的分类损失函数进行训练，可以得到步骤250中的敏感音频识别模型。该敏感音频识别模型结合文本和音频数据进行判断，更加有效的判断音频是否含有娇喘等违规内容。

下面结合附图对本申请实施例的敏感音频识别方法进行描述。

参考图3，图3示出了敏感音频识别方法的流程图，该方法应用于电子设备中，具体包括以下步骤：

步骤310，获取待识别的音频数据。例如，随机在网络中下载一段音频数据。例如，随机获取10s的待识别的音频数据。若获取的待识别的音频数据超过10s，则可以通过剪切的方式获得预设的10s长度的音频数据。

步骤320，将待识别的音频数据输入敏感音频识别模型中，进行计算，将计算的数值输入softmax分类器中，进行敏感音频二分类。其中，敏感音频识别模型为上述实施例图2所示的训练方法训练得到的。具体训练方法可参考图2所示的训练过程，在此不在赘述。

步骤330，根据二分类后的计算结果判断待识别的音频数据是否为敏感音频数据。具体地，将二分类得到的正面例子类别的分数(该分数用于表示待识别的音频数据是敏感音频数据的概率)与预设阈值进行比较。例如，假设分数为为1时，待识别音频一定是敏感音频，那么，将预设阈值设为0.8，当类别的分数大于等于0.8，则电子设备判断待识别音频是敏感音频。当类别的分数小于0.8，则电子设备判断待识别音频不是敏感音频。

需要说明的是，本申请中提及的预设阈值的参数值，仅是示例性的说明，本申请也可以采用0.7,0.6等参数值等，在此并不作为对本申请的限定。

此外，在本申请的实施例中，当电子设备判断待识别的音频数据是敏感音频数据时，还可以发出警报，例如发出提示音，或者在显示器上以文字、图片的形式提醒用户设备可能接收到敏感音频，以使用户根据警报及时处理。

本申请实施例的敏感音频识别方法，采用敏感音频识别模型，该模型通过增加敏感音频的文本信息进行训练，将音频中说话的文本信息引入到敏感音频识别模型中，从而让模型可以结合文本和音频信息更加有效的判断音频是否含有娇喘的违规内容。将文本信息引入后可以有效的提高模型对违规内容判断的准确性。

基于上面的描述，下面具体描述本申请的一种电子设备，该电子设备用于执行上述各方法实施例。图4示出了电子设备的结构示意图。如图4所示，该电子设备包括：

获取模块410，获取模块用于获取敏感音频数据的音频特征向量和文本特征向量；

处理模块420，处理模块将音频特征向量与文本特征向量合并；

处理模块420将合并后的两个音频特征向量和文本特征向量输入深度神经网络，经过分类损失函数进行训练，以得到敏感音频识别模型。

在本申请的一个实施例中，获取模块410，包括：提取模块411，处理模块将敏感音频数据输入卷积神经网络，并通过提取模块从卷积神经网络的聚合层提取音频特征。

在本申请的一个实施例中，处理模块420将敏感音频数据输入语音识别模型，并通过提取模块411获取敏感音频的文本信息；处理模块将文本信息输入bert模型，并通过提取模块从文本信息中提取文本特征。

在本申请的一个实施例中，处理模块420从卷积神经网络的总层数的1/2-3/4之间层提取文本特征。

在本申请的一个实施例中，深度神经网络为2层的深度神经网络模型或3层的深度神经网络模型。

本申请实施例中的电子设备的各模块具体作用在上述实施例中已经详细的说明，具体可参见上述实施例图2和图3所示的方法，在此不在赘述。

本申请实施例的电子设备，执行上述方法，采用敏感音频识别模型，该模型通过增加敏感音频的文本信息进行训练，将音频中说话的文本信息引入到敏感音频识别模型中，从而让模型可以结合文本和音频信息更加有效的判断音频是否含有娇喘的违规内容。将文本信息引入后可以有效的提高模型对违规内容判断的准确性。

本申请还提供了一种电子设备，包括：

存储器，用于存储由设备的一个或多个处理器执行的指令，以及

处理器，用于执行上述实施例的图2和图3中描述的方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器运行时，使得处理器执行上述实施例的图2和图3中描述的方法。

现在参考图5，所示为根据本申请的一个实施例的设备1200的框图。设备1200可以包括耦合到控制器中枢1203的一个或多个处理器1201。对于至少一个实施例，控制器中枢1203经由诸如前端总线(frontsidebus，fsb)之类的多分支总线、诸如快速通道互连(quickpathinterconnect，qpi)之类的点对点接口、或者类似的连接1206与处理器1201进行通信。处理器1201执行控制一般类型的数据处理操作的指令。在一实施例中，控制器中枢1203包括，但不局限于，图形存储器控制器中枢(graphicsmemorycontrollerhub，gmch)(未示出)和输入/输出中枢(inputoutputhub，ioh)(其可以在分开的芯片上)(未示出)，其中gmch包括存储器和图形控制器并与ioh耦合。

设备1200还可包括耦合到控制器中枢1203的协处理器1202和存储器1204。或者，存储器和gmch中的一个或两者可以被集成在处理器内(如本申请中所描述的)，存储器1204和协处理器1202直接耦合到处理器1201以及控制器中枢1203，控制器中枢1203与ioh处于单个芯片中。存储器1204可以是例如动态随机存取存储器(dynamicrandomaccessmemory，dram)、相变存储器(phasechangememory，pcm)或这两者的组合。在一个实施例中，协处理器1202是专用处理器，诸如例如高吞吐量mic处理器(manyintegeratedcore，mic)、网络或通信处理器、压缩引擎、图形处理器、通用图形处理器(generalpurposecomputingongpu，gpgpu)、或嵌入式处理器等等。协处理器1202的任选性质用虚线表示在图5中。

存储器1204作为计算机可读存储介质，可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性计算机可读介质。例如，存储器1204可以包括闪存等任何合适的非易失性存储器和/或任何合适的非易失性存储设备，例如一个或多个硬盘驱动器(hard-diskdrive，hdd(s))，一个或多个光盘(compactdisc，cd)驱动器，和/或一个或多个数字通用光盘(digitalversatiledisc，dvd)驱动器。

在一个实施例中，设备1200可以进一步包括网络接口(networkinterfacecontroller，nic)1206。网络接口1206可以包括收发器，用于为设备1200提供无线电接口，进而与任何其他合适的设备(如前端模块，天线等)进行通信。在各种实施例中，网络接口1206可以与设备1200的其他组件集成。网络接口1206可以实现上述实施例中的通信单元的功能。

设备1200可以进一步包括输入/输出(input/output，i/o)设备1205。i/o1205可以包括：用户界面，该设计使得用户能够与设备1200进行交互；外围组件接口的设计使得外围组件也能够与设备1200交互；和/或传感器设计用于确定与设备1200相关的环境条件和/或位置信息。

值得注意的是，图5仅是示例性的。即虽然图5中示出了设备1200包括处理器1201、控制器中枢1203、存储器1204等多个器件，但是，在实际的应用中，使用本申请各方法的设备，可以仅包括设备1200各器件中的一部分器件，例如，可以仅包含处理器1201和nic1206。图5中可选器件的性质用虚线示出。

根据本申请的一些实施例，作为计算机可读存储介质的存储器1204上存储有指令，该指令在计算机上执行时使系统1200执行根据上述实施例中的方法，具体可参照上述实施例的方法，在此不再赘述。

现在参考图6，所示为根据本申请的一实施例的soc(systemonchip，片上系统)1300的框图。在图6中，相似的部件具有同样的附图标记。另外，虚线框是更先进的soc的可选特征。在图6中，soc1300包括：互连单元1350，其被耦合至应用处理器1310；系统代理单元1380；总线控制器单元1390；集成存储器控制器单元1340；一组或一个或多个协处理器1320，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(staticrandomaccessmemory，sram)单元1330；直接存储器存取(dma)单元1360。在一个实施例中，协处理器1320包括专用处理器，诸如例如网络或通信处理器、压缩引擎、gpgpu、高吞吐量mic处理器、或嵌入式处理器等。

静态随机存取存储器(sram)单元1330中可以包括用于存储数据和/或指令的一个或多个计算机可读介质。计算机可读存储介质中可以存储有指令，具体而言，存储有该指令的暂时和永久副本。该指令可以包括：由处理器中的至少一个单元执行时使soc1300执行根据上述实施例中的方法，具体可参照上述实施例的方法，在此不再赘述。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(digitalsignalprocessor，dsp)、微控制器、专用集成电路(applicationspecificintegratedcircuit，asic)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、光盘只读存储器(compactdiscreadonlymemory，cd-roms)、磁光盘、只读存储器(readonlymemory，rom)、随机存取存储器(ram)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory，eprom)、电可擦除可编程只读存储器(electricallyerasableprogrammablereadonlymemory，eeprom)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明书附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。