一种信息识别方法、装置、电子设备及存储介质与流程
本申请涉及互联网技术领域,具体而言,涉及一种信息识别方法、装置、电子设备及存储介质。
背景技术:
随着科技的发展,互联网技术已经渗透到人们生活的各个方面,例如,通过网络进行打车、购物、订外卖等,但是,目前网络上的信息呈爆炸性增长,信息更新的频率也越来越快,这就使得网络上存在各式各样的信息,当用户通过网络购买服务时,需要浏览大量的信息才能找到想要的服务,这无疑会降低用户体验。因此,对于服务提供商而言,如何在不给用户带来负担的前提下为用户提供更适合的服务,是一个亟待解决的问题。
技术实现要素:
有鉴于此,本申请实施例的目的在于提供一种信息识别方法、装置、电子设备及存储介质,能够在用户无感知的情况下提供更适合的服务,提升用户体验。
第一方面,本申请实施例提供了一种信息识别方法,所述方法包括:获取待识别音频;确定表征所述待识别音频的声学特征的特征向量;基于所述特征向量以及预先训练的信息识别模型,得到所述待识别音频对应的服务标签;依据所述服务标签确定出与所述服务标签相匹配的服务信息。
一种可选实施方式中,所述服务标签包括年龄识别结果;所述基于所述特征向量以及预先训练的信息识别模型,得到所述待识别音频对应的服务标签的步骤,包括:将所述特征向量输入所述信息识别模型,得到所述特征向量在各个预设年龄区间的概率值;依据所述特征向量在各个预设年龄区间的概率值,确定出所述待识别音频对应的年龄识别结果。
一种可选实施方式中,所述信息识别模型包括第一网络及第二网络;所述将所述特征向量输入所述信息识别模型,得到所述特征向量在各个预设年龄区间的概率值的步骤,包括:将所述特征向量输入所述信息识别模型,利用所述第一网络对所述特征向量进行特征提取,得到第一特征图;将从所述第一网络提取到的第一特征图输入所述第二网络并进行分类,得到所述特征向量在各个预设年龄区间的概率值。
一种可选实施方式中,所述第一网络包括卷积层及统计池化层;所述将所述特征向量输入所述信息识别模型,利用所述第一网络对所述特征向量进行特征提取,得到第一特征图的步骤,包括:将所述特征向量输入所述信息识别模型,利用所述卷积层的卷积核和卷积核偏置对所述特征向量进行卷积处理,得到第一输出特征图;利用所述统计池化层对所述第一输出特征图进行统计池化处理,得到第一特征图。
一种可选实施方式中,所述第二网络包括全连接层及多类逻辑回归层;所述将从所述第一网络提取到的第一特征图输入所述第二网络并进行分类,得到所述特征向量在各个预设年龄区间的概率值的步骤,包括:将从所述第一网络提取到的第一特征图输入所述全连接层,利用所述全连接层对第一特征图进行降维,得到第一向量;将所述第一向量输入所述多类逻辑回归层,得到所述特征向量在各个预设年龄区间的概率值。
一种可选实施方式中,所述依据所述特征向量在各个预设年龄区间的概率值,确定出所述待识别音频对应的年龄识别结果的步骤,包括:将所述特征向量在各个预设年龄区间的概率值进行加权平均,得到所述待识别音频对应的年龄识别结果。
一种可选实施方式中,服务器预先存储有多个预设年龄区间及每个预设年龄区间对应的服务内容;所述依据所述服务标签确定出与所述服务标签相匹配的服务信息的步骤,包括:依据所述年龄识别结果,从所述多个预设年龄区间中确定出所述年龄识别结果所属的目标年龄区间;获取所述目标年龄区间对应的服务内容,得到与所述服务标签相匹配的服务信息。
一种可选实施方式中,所述服务标签包括性别识别结果;所述基于所述特征向量以及预先训练的信息识别模型,得到所述待识别音频对应的服务标签的步骤,包括:将所述特征向量输入所述信息识别模型,得到所述特征向量在各个预设性别类别的概率值;利用预先训练的隐马尔科夫模型对所述特征向量在各个预设性别类别的概率值进行约束,得到所述待识别音频对应的性别识别结果。
一种可选实施方式中,所述信息识别模型包括第三网络及第四网络;所述将所述特征向量输入所述信息识别模型,得到所述特征向量在各个预设性别类别的概率值的步骤,包括:将所述特征向量输入所述信息识别模型,利用所述第三网络对所述特征向量进行特征提取,得到第二特征图;利用所述第四网络对所述第三网络输出的第二特征图进行分类,得到所述特征向量在各个预设性别类别的概率值。
一种可选实施方式中,所述第三网络包括卷积层及长短时记忆层;所述将所述特征向量输入所述信息识别模型,利用所述第三网络对所述特征向量进行特征提取,得到第二特征图的步骤,包括:将所述特征向量输入所述信息识别模型,利用所述卷积层的卷积核和卷积核偏置对所述特征向量进行卷积处理,得到第二输出特征图;利用所述长短时记忆层捕捉所述第二输出特征图的序列信息,得到第二特征图。
一种可选实施方式中,所述第四网络包括全连接层及多类逻辑回归层;所述利用所述第四网络对所述第三网络输出的第二特征图进行分类,得到所述特征向量在各个预设性别类别的概率值的步骤,包括:将所述第三网络输出的第二特征图输入所述全连接层,利用所述全连接层对第二特征图进行降维,得到第二向量;利用所述多类逻辑回归层对所述第二向量进行处理,得到所述特征向量在各个预设性别类别的概率值。
一种可选实施方式中,服务器预先存储有多个预设性别类别及每个预设性别类别对应的服务内容;所述依据所述服务标签确定出与所述服务标签相匹配的服务信息的步骤,包括:依据所述性别识别结果,从所述多个服务内容中获取所述性别识别结果对应的目标服务内容,得到与所述服务标签相匹配的服务信息。
一种可选实施方式中,所述服务标签包括身份验证结果;所述基于所述特征向量以及预先训练的信息识别模型,得到所述待识别音频对应的服务标签的步骤,包括:获取所述待识别音频对应的标准音频;确定表征所述标准音频的声学特征的特征向量;将所述待识别音频对应的特征向量和所述标准音频对应的特征向量均输入所述信息识别模型,得到所述待识别音频和所述标准音频的相似度分值;根据所述相似度分值确定出所述待识别音频对应的身份验证结果,所述身份验证结果包括验证通过结果或验证失败结果。
一种可选实施方式中,服务器预先存储有身份验证结果及所述身份验证结果对应的服务内容;所述依据所述服务标签确定出与所述服务标签相匹配的服务信息的步骤,包括:当所述身份验证结果为验证通过结果时,获取所述验证通过结果对应的服务内容作为与所述服务标签相匹配的服务信息;当所述身份验证结果为验证失败结果时,获取所述验证失败结果对应的服务内容作为与所述服务标签相匹配的服务信息。
第二方面,本申请实施例还提供了一种信息识别装置,所述装置包括:音频获取模块,用于获取待识别音频;第一执行模块,用于确定表征所述待识别音频的声学特征的特征向量;第二执行模块,用于基于所述特征向量以及预先训练的信息识别模型,得到所述待识别音频对应的服务标签;第三执行模块,用于依据所述服务标签确定出与所述服务标签相匹配的服务信息。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以运行时执行如上述的信息识别方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的信息识别方法的步骤。
本申请实施例通过获取用户的待识别音频,并确定出表征该待识别音频的声学特征的特征向量,再利用预先训练的信息识别模型对特征向量进行识别,得到待识别音频对应的服务标签,最后依据得到的服务标签确定出与该服务标签相匹配的服务信息,从而在用户无感知的情况下为用户提供更适合的服务,使用户享受服务的同时不会给用户带来负担,提高了用户体验。
本申请另一实施例将确定出的特征向量输入预先训练的信息识别模型,通过信息识别模型识别出特征向量在各个预设年龄区间的概率值,再依据得到的概率值确定出待识别音频对应的年龄识别结果,也就是,得到待识别音频的服务标签为年龄识别结果,从而能够进一步依据年龄识别结果确定出与用户年龄相匹配的服务信息。
本申请另一实施例将确定出的特征向量输入预先训练的信息识别模型,通过信息识别模型识别出特征向量在各个预设性别类别的概率值,再利用预先训练的隐马尔科夫模型对得到的概率值进行约束,以此确定出更为准确的性别识别结果,也就是,得到待识别音频的服务标签为性别识别结果,从而能够进一步依据性别识别结果确定出与用户性别相匹配的服务信息。
本申请另一实施例通过获取待识别音频对应的标准音频,并确定出表征该标准音频的声学特征的特征向量,再将待识别音频对应的特征向量和标准音频对应的特征向量均输入信息识别模型,得到待识别音频和标准音频的相似度分值,最后根据该相似度分值确定出身份验证结果,也就是,得到待识别音频的服务标签为身份验证结果,从而能够进一步依据身份验证结果确定出与用户身份相匹配的服务信息。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的信息识别系统的架构图;
图2示出了本申请实施例提供的信息识别方法流程图;
图3为图2示出的步骤s103的一个子步骤流程图;
图4为图2示出的步骤s103的另一个子步骤流程图;
图5为图2示出的步骤s103的又一个子步骤流程图;
图6示出了本申请实施例提供的信息识别装置的示意图;
图7示出了本申请实施例提供的电子设备的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
图1是本申请一些实施例的信息识别系统100的框图。例如,信息识别系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、班车服务、共享单车之类的运输服务、或其任意组合的在线运输服务平台;也可以是用于诸如外卖配送、生鲜配送、同城配送、物流配送之类的配送服务、或其任意组合的在线配送服务平台;还可以是用于诸如网上超市、网上商城、网上书店之类的购物服务、或其任意组合的电商服务平台。信息识别系统100可以包括服务器110、网络120、用户端130和数据库140中的一种或多种,服务器110中可以包括执行指令操作的处理器。
在一些实施例中,服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据,以执行本申请中描述的一个或多个功能。在一些实施例中,处理器可以包括一个或多个处理核(例如,单核处理器(s)或多核处理器(s))。仅作为举例,处理器可以包括中央处理单元(centralprocessingunit,cpu)、专用集成电路(applicationspecificintegratedcircuit,asic)、专用指令集处理器(applicationspecificinstruction-setprocessor,asip)、图形处理单元(graphicsprocessingunit,gpu)、物理处理单元(physicsprocessingunit,ppu)、数字信号处理器(digitalsignalprocessor,dsp)、现场可编程门阵列(fieldprogrammablegatearray,fpga)、可编程逻辑器件(programmablelogicdevice,pld)、控制器、微控制器单元、简化指令集计算机(reducedinstructionsetcomputing,risc)、或微处理器等,或其任意组合。
在一些实施例中,用户端130对应的设备类型可以是移动设备,比如可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,也可以是平板计算机、膝上型计算机、或机动车辆中的内置设备等。
在一些实施例中,数据库140可以连接到网络120以与信息识别系统100中的一个或多个组件(例如,服务器110、用户端130等)通信。信息识别系统100中的一个或多个组件可以经由网络120访问存储在数据库140中的数据或指令。在一些实施例中,数据库140可以直接连接到信息识别系统100中的一个或多个组件,或者,数据库140也可以是服务器110的一部分。
为了便于理解,以下实施方式主要以“网约车”应用场景为例进行描述。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕对打车进行信息识别进行描述,但是应该理解,这仅是一个示例性实施例。
请参照图2,图2示出了本申请实施例提供的信息识别方法流程图,该方法可以由信息识别系统100中的服务器110来执行,其包括以下步骤:
步骤s101,获取待识别音频。
在本申请的一个实施例中,根据信息识别方法的应用场景不同,待识别音频可以有不同的获取方式,例如,将信息识别方法应用到网约车场景,可以通过运营商获取到乘客和司机双方电话通信的音频,也可以获取乘客和司机通过打车应用程序发送的音频,如果要对乘客进行信息识别,则可以从获取到的音频中提取乘客音频,即可得到待识别音频;如果要对司机进行信息识别,则可以从获取到的音频中提取司机音频,即可得到待识别音频。
在本申请的另一个实施例中,由于信息识别模型容易受到信道变化的干扰,例如,同一说话人在电话信道和移动无线信道下容易被信息识别模型识别为两个人,因此,在获取待识别音频的过程中,可以通过引入信道补偿技术来克服这一问题。
也就是说,可以采集用户在不同信道的音频,每个信道均预先建立有独立的信道模型,基于信道模型,通过信道映射的方式,采用最大似然线性回归(maximumlikelihoodlinearregression,mllr)等算法将不同信道的音频映射至同一个标准特征空间,即可得到信道补偿后的待识别音频,进而实现同一说话人在多信道下的识别。例如,可以采集用户在电话信道和移动无线信道的音频,具体来说,通过运营商获取到的乘客和司机双方电话通信的音频即为电话信道的音频,获取到的乘客和司机通过打车应用程序发送的音频即为移动无线信道的音频,同时,可以预先对电话信道和移动无线信道收集大量的统计数据来建立信道模型,之后利用信道模型,分别对电话信道和移动无线信道建立一个映射,使得电话信道和移动无线信道的音频映射至同一个标准特征空间,即可得到待识别音频。
步骤s102,确定表征待识别音频的声学特征的特征向量。
在本申请一个实施例中,声学特征包括梅尔频率倒谱系数mfcc特征、瓶颈特征bnf特征中的至少一项,表征待识别音频的声学特征的特征向量可以是mfcc向量、bnf向量中的至少一项。
作为一种实施方式,得到待识别音频的mfcc向量的方法可以包括以下步骤:首先,将待识别音频通过一个高通滤波器进行预加重,得到预加重后的音频信号,从而提升待识别音频中的高频部分使其频谱变的平坦;第二,对预加重后的待识别音频进行分帧和加窗,具体来说,先将待识别音频分为多帧,每一帧包含待识别音频中的n个采样点,且相邻两帧之间有一段重叠区域,再将每一帧代入窗函数,窗外的值设定为0;第三,对分帧加窗后的待识别音频进行快速傅里叶变换得到待识别音频的频谱;第四,采用梅尔滤波器对经快速傅里叶变换后的待识别音频进行滤波;第五,对经梅尔滤波器滤波后的待识别音频进行对数能量参数运算;第六,对经对数能量参数运算后的待识别音频进行离散余弦变换,得到待识别音频的mfcc向量。
此外,得到待识别音频的bnf向量的方法与上述得到待识别音频的mfcc向量的方法类似,在此不再赘述。
步骤s103,基于特征向量以及预先训练的信息识别模型,得到待识别音频对应的服务标签。
在本申请一个实施例中,确定出表征待识别音频的声学特征的特征向量之后,可以将该特征向量输入预先训练的信息识别模型,利用信息识别模型得到待识别音频对应的服务标签,服务标签可以包括年龄识别结果、性别识别结果、身份验证结果中的至少一项,也就是说,可以基于用户的待识别音频的特征向量,利用信息识别模型识别出用户的年龄、性别,并能对用户的实际身份进行验证,下面对得到待识别音频对应的服务标签的过程进行详细介绍。
在一些实施例中,当服务标签包括年龄识别结果时,请参照图3,基于特征向量及信息识别模型得到年龄识别结果的过程可以包括子步骤s1031~s1032,下面进行详细描述:
子步骤s1031,将特征向量输入信息识别模型,得到特征向量在各个预设年龄区间的概率值。
在一个实施例中,当服务标签包括年龄识别结果时,可以利用信息识别模型对待识别音频进行年龄识别,此时,信息识别模型可以包括高斯混合模型(gaussianmixedmodel,gmm)、神经网络模型等,或其组合;神经网络模型可以包括bp(backpropagationneuralnetwork,反向传播)神经网络、卷积神经网络(convolutionalneuralnetworks,cnn)、循环神经网络(recurrentneuralnetwork,rnn)、长短时记忆网络(longshorttermmemorynetwork,lstm)等。
作为一种实施方式,信息识别模型可以包括第一网络及第二网络,第一网络用于对特征向量进行特征提取,第二网络用于输出特征向量在各个预设年龄区间的概率值,预设年龄类别可以由用户根据实际情况灵活设置,例如,预设10-20岁、20-30岁、30-40岁这3个年龄区间,在此不作限定。此时,将特征向量输入信息识别模型,得到特征向量在各个预设年龄区间的概率值的过程,具体包括:
第一步,将特征向量输入信息识别模型,利用第一网络对所特征向量进行特征提取,得到第一特征图。
在一个实施例中,将特征向量输入信息识别模型之后,信息识别模型的第一网络可以对特征向量进行特征提取,第一网络可以包括卷积层(convolutionallayer)、卷积层+池化层(poolinglayer)、卷积层+池化层+随机丢失层(dropoutlayer)、全连接层(fullyconnectedlayer,fclayer)等等,第一网络的具体设置可以由用户根据实际情况灵活调整,在此不再赘述。
作为一种实施方式,第一网络可以包括卷积层及统计池化层,此时,将特征向量输入信息识别模型,利用第一网络对特征向量进行特征提取,得到第一特征图的过程,可以包括:
首先,将特征向量输入信息识别模型,利用卷积层的卷积核和卷积核偏置对特征向量进行卷积处理,得到第一输出特征图。此处的卷积层可以为多层,且对卷积层的具体层数及卷积核大小不做限定,可以利用卷积层的卷积核对输入的特征向量进行卷积求和操作、外加偏置,再将结果经过激励函数输出,就能得到第一输出特征图。
然后,利用统计池化层对第一输出特征图进行统计池化处理,得到第一特征图,统计池化层能够捕捉待识别音频所有帧间的统计信息,有利于对全局信息进行建模。此处的统计池化层可以为多层,且对统计池化层的具体层数及接受域大小不做限定,可以利用统计池化层统计上一层各节点输出的均值和方差并输出至下一层,得到第一特征图。
第二步,将从第一网络提取到的第一特征图输入第二网络并进行分类,得到特征向量在各个预设年龄区间的概率值。
在一个实施例中,利用第一网络提取到第一特征图之后,将第一特征图输入第二网络并进行分类,并输出特征向量在各个预设年龄区间的概率值,第二网络可以包括全连接层+多类逻辑回归层(softmaxlayer)、1*1卷积层+多类逻辑回归层、全局池化层(globalaveragepooling,gap)+多类逻辑回归层等等,第二网络的具体设置可以由用户根据实际情况灵活调整,在此不再赘述。
作为一种实施方式,第二网络可以包括全连接层及多类逻辑回归层,此时,将从第一网络提取到的第一特征图输入第二网络并进行分类,得到特征向量在各个预设年龄区间的概率值的过程,可以包括:
首先,将从第一网络提取到的第一特征图输入全连接层,利用全连接层对第一特征图进行降维,得到第一向量。第一向量为一维向量,此处的全连接层可以为多层,且对全连接层的具体层数不做限定,可以利用全连接层将第一特征图拉平为一维向量。
然后,将第一向量输入多类逻辑回归层,得到特征向量在各个预设年龄区间的概率值。多类逻辑回归层为信息识别模型的最终输出层,可输出0~1之间数值,代表着特征向量属于每个预设年龄区间的概率值,例如,输出10-20岁概率为0、20-30岁概率为0.6、30-40岁概率为0.4。假设特征向量为r,则可由下式得到特征矢量属于第j个预设年龄类别的概率:
在一个实施例中,在利用信息识别模型识别出用户的年龄之前,需要对信息识别模型进行训练,信息识别模型的训练过程,可以包括以下步骤:
首先,获取多个第一音频样本、以及每个第一音频样本的年龄信息,此处的年龄信息为具体的年龄,例如,27.3岁等。多个第一音频样本包括了信息识别模型所能够识别的所有年龄区间的音频样本,例如,如果信息识别模型用于识别10-20岁、20-30岁、30-40岁等多个年龄区间,则多个第一音频样本包括了10-20岁、20-30岁、30-40岁等多个年龄区间分别对应的音频样本。
然后,依据每个第一音频样本的年龄标注信息和各个预设年龄区间,得到每个第一音频样本的标签。预设年龄区间可以包括信息识别模型所能够识别的所有年龄区间,例如,信息识别模型能够识别10-20岁、20-30岁、30-40岁这3个年龄区间,则预设年龄区间包括10-20岁、20-30岁、30-40岁。
第一音频样本的标签是第一音频样本所属年龄区间的相关信息,也就是,第一音频样本的标签就是其所属的实际年龄区间,例如,年龄标注信息为21岁、22岁、23岁的3个第一音频样本,它们的标签均为20-30岁。在一种可选实施例中,每个第一音频样本的标签可以采用人工标注的方式获得。在另一种可选实施例中,每个第一音频样本可以通过采集特定年龄区间的用户的音频获得,并根据用户的实际年龄,获得每个第一音频样本的标签。
接下来,针对获取的每个第一音频样本,确定表征该第一音频样本的声学特征的第一样本特征向量,第一样本特征向量的获取方式,与步骤s102中待识别音频的特征向量的获取方式类似,在此不再赘述;
最后,基于第一样本特征向量及第一样本特征向量对应的标签,对信息识别模型进行训练。具体来说,是将第一样本特征向量输入信息识别模型,利用信息识别模型对第一样本特征向量进行识别,并输出第一样本特征向量在各个预设年龄区间的概率值,并将最大概率值对应的预设年龄区间作为第一样本特征向量的预测年龄区间,由于信息识别模型识别的第一样本特征向量的预测年龄区间应当与第一样本特征向量对应的标签一致,因此,如果预测年龄区间与对应的标签不一致,则对信息识别模型进行参数调整,并将第一样本特征向量输入参数调整后的信息识别模型,重复上述过程,直至满足预设的模型训练截止条件,完后对信息识别模型的训练。
预设的模型训练截止条件可以包括以下两种情形:第一,训练次数达到预设次数(例如,200次);第二,使用测试样本集对训练后的信息识别模型进行测试,如果信息识别模型的识别准确率达到预设阈值(例如,90%)。在这两种情形下,均将最后一次参数调整后的信息识别模型作为训练后的信息识别模型。
子步骤s1032,依据特征向量在各个预设年龄区间的概率值,确定出所待识别音频对应的年龄识别结果。
在一个实施例中,按照子步骤s1031介绍的而方法得到特征向量在各个预设年龄区间的概率值之后,可以对各个预设年龄区间的概率值进行插值计算,从而得到待识别音频对应的年龄识别结果。另外,还可以将特征向量在各个预设年龄区间的概率值进行加权平均,得到待识别音频对应的年龄识别结果,为了便于计算,可以取各个预设年龄区间的中间值并计算加权平均,例如,信息识别模型输出10-20岁概率为0、20-30岁概率为0.6、30-40岁概率为0.4,则年龄识别结果为25+(35-25)*0.4=29岁。
在另一些实施例中,当服务标签包括性别识别结果时,请参照图4,基于特征向量及信息识别模型得到性别识别结果的过程可以包括子步骤s1033~s1034,下面进行详细描述:
子步骤s1033,将特征向量输入信息识别模型,得到特征向量在各个预设性别类别的概率值。
在一个实施例中,当服务标签包括性别识别结果时,可以利用信息识别模型对待识别音频进行性别识别,此时,信息识别模型可以包括gmm、神经网络模型等,或其组合;神经网络模型可以包括bp神经网络、cnn、rnn、lstm等。
作为一种实施方式,信息识别模型包括第三网络及第四网络,第三网络用于对特征向量进行特征提取并输出特征向量在各个预设性别类别的概率值,本实施例可以预设男、女、不确定这3个性别类别,这里的不确定指的是由于噪声干扰造成的识别错误,此时,将特征向量输入信息识别模型,得到特征向量在各个预设性别类别的概率值的过程,可以包括:
第一步,将特征向量输入信息识别模型,利用第三网络对特征向量进行特征提取,得到第二特征图。
在一个实施例中,将特征向量输入信息识别模型之后,信息识别模型的第一网络可以对特征向量进行特征提取,第三网络可以包括卷积层、卷积层+池化层、卷积层+池化层+随机丢失层、全连接层等等,第三网络的具体设置可以由用户根据实际情况灵活调整,在此不再赘述。
作为一种实施方式,第三网络包括卷积层及长短时记忆层,此时,将特征向量输入信息识别模型,利用第三网络对特征向量进行特征提取,得到第二特征图的过程,可以包括:
首先,将特征向量输入信息识别模型,利用卷积层的卷积核和卷积核偏置对特征向量进行卷积处理,得到第二输出特征图。此处的卷积层可以为多层,且对卷积层的具体层数及卷积核大小不做限定。
然后,利用长短时记忆层捕捉第二输出特征图的序列信息,得到第二特征图,相比于传统模型的局部特征,长短时记忆层捕捉的序列信息可以反映一段时间内待识别音频和性别的关联。
第二步,利用第四网络对第三网络输出的第二特征图进行分类,得到特征向量在各个预设性别类别的概率值。
在一个实施例中,利用第三网络提取到第二特征图之后,将第二特征图输出第四网络进行分类,并输出特征向量在各个预设性别类别的概率值,第四网络可以包括全连接层+多类逻辑回归层、1*1卷积层+多类逻辑回归层、全局池化层+多类逻辑回归层等等,第二网络的具体设置可以由用户根据实际情况灵活调整,在此不再赘述。
作为一种实施方式,第四网络包括全连接层及多类逻辑回归层,此时,利用第四网络对第三网络输出的第二特征图进行分类,得到特征向量在各个预设性别类别的概率值的步骤,包括:
首先,将第三网络输出的第二特征图输入全连接层,利用全连接层对第二特征图进行降维,得到第二向量,第二向量为一维向量,此处的全连接层可以为多层,且对全连接层的具体层数不做限定,可以利用全连接层将第二特征图拉平为一维向量。
然后,利用多类逻辑回归层对第二向量进行处理,得到特征向量在各个预设性别类别的概率值,例如,输出男概率为0.1、女概率为0.1、不确定概率为0.8。
在一个实施例中,在利用信息识别模型识别出特征向量在各个预设性别类别的概率值之前,需要对信息识别模型进行训练,具体的训练过程可以包括以下步骤:
首先,获取多个第二音频样本、以及每个第二音频样本的性别标注信息,多个第二音频样本包括了男性和女性两种类别的音频样本,性别标注信息包括男和女。在一种可选实施例中,每个第二音频样本的性别标注信息可以采用人工标注的方式获得。在另一种可选实施例中,每个第二音频样本可以通过采集特定性别的用户的音频获得。
然后,针对获取的每个第二音频样本,确定表征该第二音频样本的声学特征的第二样本特征向量,第二样本特征向量的获取方式,与步骤s102中待识别音频的特征向量的获取方式类似,在此不再赘述;
最后,基于第二样本特征向量及第二样本特征向量的性别标注信息,对信息识别模型进行训练。具体来说,是将第二样本特征向量输入信息识别模型,利用信息识别模型对第二样本特征向量进行识别,并输出第二样本特征向量在各个预设性别类别的概率值,并将最大概率值对应的性别类别作为第二样本特征向量的预测性别,由于第二样本特征向量的预测性别应当与第二样本特征向量的性别标注信息一致,因此,如果预测性别与性别标注信息不一致,则对信息识别模型进行参数调整,并将第二样本特征向量输入参数调整后的信息识别模型,重复上述过程,直至满足预设的模型训练截止条件,完后对信息识别模型的训练。
另外,在实际应用中,还可以通过获取用户的实际性别来优化信息识别模型,例如,向用户进行调查或者对用户进行实名认证的以获知用户的性别,以此来纠正信息识别模型的识别错误。
子步骤s1034,利用预先训练的隐马尔科夫模型对特征向量在各个预设性别类别的概率值进行约束,得到待识别音频对应的性别识别结果。
在一个实施例中,按照子步骤s1033介绍的而方法得到特征向量在各个预设性别类型的概率值之后,将最大概率值对应的预设性别类别作为特征向量的预测性别,并且利用预先训练的隐马尔科夫模型(hiddenmarkovmodel,hmm)在时间域上加入约束,限制预设性别类别的跳变,也就是,约束预测性别在男、女、不确定这3个类别之间的跳转,具体来说,限制类别的跳动可以通过设置hmm隐状态跳转概率来实现,即,提升状态自跳的概率且降低跳转至其它状态的概率,例如,信息识别模型输出男概率为0.1、女概率为0.1、不确定概率为0.8,则设置男、女、不确定这3个类别自跳的概率依次为0.9、0.8、0.6,男、女、不确定这3个类别跳转至其它状态的概率依次为0.1、0.2、0.4。
在另一些实施例中,当服务标签为身份验证结果时,请参照图5,基于特征向量及信息识别模型得到身份验证结果的过程可以包括子步骤s1035~s1038,下面进行详细描述:
子步骤s1035,获取待识别音频对应的标准音频。
在一个实施例中,信息识别系统100的数据库140中预先存储有每个待进行身份验证的用户的标准音频,在获取到待进行身份验证的目标用户的待识别音频后,根据目标用户的待验证身份,从数据库140中获取该待验证身份对应的标准音频。
根据用户实际身份的不同,数据库140中存储的标准音频可以有不同的获取方式,例如,对于网约车场景中的司机和乘客,可以在司机或者乘客注册时获取音频,并将注册音频作为司机或者乘客的标准音频,另外,标准音频可以包括司机或者乘客在不同信道(例如,电话信道、移动无线信道等)的音频,同时,可以预先建立司机声纹库和乘客声纹库分别用于存储司机和乘客的标准音频。
子步骤s1036,确定表征标准音频的声学特征的特征向量。
标准音频的特征向量的获取方式,与步骤s102中待识别音频的特征向量的获取方式类似,在此不再赘述。
子步骤s1037,将待识别音频对应的特征向量和标准音频对应的特征向量均输入信息识别模型,得到待识别音频和标准音频的相似度分值。
在一个实施例中,当服务标签包括身份验证结果时,可以利用信息识别模型对待识别音频进行身份验证,此时,信息识别模型可以包括gmm、概率线性判别分析包括概率线性判别分析(probabilisticlineardiscriminantanalysis,plda)模型、或者神经网络模型,利用gmm、plda模型、或者神经网络模型计算待识别音频和标准音频的相似度分值时,对比的是待识别音频对应的特征向量和标准音频对应的特征向量的权重平均值,而非单个的特征向量,可以使得对比的结果更加准确。
相似度分值包括欧氏距离、马氏距离、夹角余弦、汉明距离、相关系数、相关距离、信息熵中的任意一种。
子步骤s1038,根据相似度分值确定出待识别音频对应的身份验证结果,身份验证结果包括验证通过结果或验证失败结果。
在一个实施例中,可以根据相似度分值与预设的相似度阈值之间的大小关系来确定待识别音频对应的身份验证结果,具体来说,将相似度分值与预设的相似度阈值(例如,0.8)进行比对,当相似度分值大于或等于预设的相似度阈值(例如,0.8)时,确定出待识别音频对应的身份验证结果为验证通过;当相似度分值小于预设的相似度阈值(例如,0.8)时,确定出待识别音频对应的身份验证结果为验证失败。
结合到网约车场景,当需要对司机的身份进行验证时,通过获取司机的待识别音频及标准音频,并对比待识别音频的特征向量与标准音频的特征向量来验证司机的身份,即,验证实际使用网约车的司机与注册的司机是否为同一个人;当需要对司机的身份进行验证时,通过获取乘客的待识别音频及乘客声纹库中的标准音频,将待识别音频的特征向量与标准音频的特征向量进行对比来确认乘客的身份,即,确认实际使用网约车的乘客的身份。
需要指出的是,本申请利用信息识别模型得到待识别音频对应的服务标签,该服务标签可以是年龄识别结果、性别识别结果、身份验证结果中的一项、也可以是这三项的任意组合,也就是,可以基于用户的待识别音频的特征向量,利用信息识别模型对用户进行年龄识别、性别识别、身份验证中的至少一项,实际应用中可以根据需求灵活调整信息识别模型的结构,来得到最终的服务标签。例如,应用到网约车场景,可以同时对司机进行年龄识别、性别识别和身份验证,将得到的年龄识别结果、性别识别结果、身份验证结果与该司机的实名注册信息进行对比,以此来确定实际使用网约车的司机和注册的实际是否为同一个人,从而得到更为准确的结果。
步骤s104,依据服务标签确定出与服务标签相匹配的服务信息。
在一个实施例中,按照步骤s104介绍的方法得到待识别音频对应的服务标签之后,也就是,利用信息识别模型识别出用户的年龄、性别,并能对用户的实际身份进行验证之后,可以根据服务标签为用户匹配相应的服务。
在一些实施例中,当服务标签包括年龄识别结果时,服务器110可以预先存储有多个预设年龄区间及每个预设年龄区间对应的服务内容,例如,应用到网约车场景,服务器110可以预先存储有10-20岁、20-30岁、30-40岁、40-50岁、50岁以上这几个年龄区间、以及每个年龄区间对应的司机,如20-30岁对应口碑好的司机,50岁以上对应驾驶平稳的司机等。
此时,依据服务标签确定出与服务标签相匹配的服务信息的过程,可以包括:首先,依据年龄识别结果,从多个预设年龄区间中确定出年龄识别结果所属的目标年龄区间,例如,年龄识别结果为29岁,则年龄识别结果所属的目标年龄区间为20-30岁;然后,获取目标年龄区间对应的服务内容,得到与服务标签相匹配的服务信息,例如,确定出年龄识别结果所属的目标年龄区间为20-30岁,则从20-30岁对应的司机中随机选择一位进行派单。
年龄识别对于某些场景具有重要的作用,例如,应用到网约车场景,由于乘客端没有实名认证,故通常无法获知乘客的年龄,此时,可以利用本申请实施例介绍的信息识别方法识别乘客的年龄,并根据年龄进行订单的分配,比如,将年轻乘客的订单分配给口碑好的司机,就可以有效避免打车过程中的事故发生;又如,应用到网上购物场景,由于不同年龄段的用户可能有不同的消费习惯和消费需求,故可以通过识别用户的年龄,就能得到年龄画像,此时可以针对年龄画像对用户进行商品推荐。
在另一些实施例中,当服务标签包括性别识别结果时,服务器110可以预先存储有多个预设性别类别及每个预设性别类别对应的服务内容,例如,应用到网约车场景,服务器110可以预先存储有男性和女性两个性别类别、以及每个性别类别对应的司机,如女性对应女司机,男性对应男司机等。
此时,依据服务标签确定出与服务标签相匹配的服务信息的过程,可以包括:依据性别识别结果,从多个服务内容中获取性别识别结果对应的目标服务内容,得到与服务标签相匹配的服务信息,例如,性别识别结果为女,则从女司机中随机选择一位进行派单。
性别识别对于某些场景具有重要的作用,例如,应用到网约车场景,由于乘客端没有实名认证,故通常无法获知乘客的性别,此时,可以利用本申请实施例介绍的信息识别方法识别乘客的性别,并根据性别进行订单的分配,比如,将女性乘客的订单分配给女司机,就可以有效避免打车过程中的事故发生;又如,应用到网上购物场景,可以通过识别用户的性别,并根据性别为用户进行个性化推荐。
在另一些实施例中,当服务标签包括身份验证结果时,服务器110可以预先存储有身份验证结果及身份验证结果对应的服务内容,例如,应用到网约车场景,对于司机,验证通过结果对应正常派单,验证失败结果对应停止派单;对于乘客,验证通过结果对应生成订单,验证失败结果对应停止生成订单。
此时,依据服务标签确定出与服务标签相匹配的服务信息的过程,可以包括:当身份验证结果为验证通过结果时,获取验证通过结果对应的服务内容作为与服务标签相匹配的服务信息;当身份验证结果为验证失败结果时,获取验证失败结果对应的服务内容作为与服务标签相匹配的服务信息。
身份验证对于某些场景具有重要的作用,例如,应用到网约车场景,随着互联网的快速发展,网约车在人们的出行中占据了重要作用,但是,伴随着网约车带来的便利性,也存在着诸多的安全隐患,例如,实际使用网约车的用户(司机或乘客)可能与注册的用户不是同一个人,尤其是实际使用网约车的用户可能是有驾驶事故记录甚至犯罪记录的人,因此,可以利用本申请实施例介绍的信息识别方法对司机或者乘客进行身份验证,并根据身份验证的结果进行订单分配,例如,在身份验证失败时停止分配订单,同时,可以接入公安机关的服务平台以协助公安机关执法。
基于同一发明构思,本申请实施例中还提供了与信息识别方法对应的信息识别装置300,由于本申请实施例中的装置解决问题的原理与本申请实施例上述信息识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参照图6,图6示出了本申请实施例提供的信息识别装置300的示意图,信息识别装置300包括音频获取模块301、第一执行模块302、第二执行模块303及第三执行模块304。
音频获取模块301,用于获取待识别音频。
第一执行模块302,用于确定表征待识别音频的声学特征的特征向量。
一种可选实施方式中,声学特征包括梅尔频率倒谱系数mfcc特征、瓶颈特征bnf特征中的至少一项。
第二执行模块303,用于基于特征向量以及预先训练的信息识别模型,得到待识别音频对应的服务标签。
一种可选实施方式中,服务标签包括年龄识别结果;第二执行模块303具体用于:将特征向量输入信息识别模型,得到特征向量在各个预设年龄区间的概率值;依据特征向量在各个预设年龄区间的概率值,确定出待识别音频对应的年龄识别结果。
一种可选实施方式中,信息识别模型包括第一网络及第二网络;第二执行模块303执行将特征向量输入信息识别模型,得到特征向量在各个预设年龄区间的概率值的方式,包括:将特征向量输入信息识别模型,利用第一网络对特征向量进行特征提取,得到第一特征图;将从第一网络提取到的第一特征图输入第二网络并进行分类,得到特征向量在各个预设年龄区间的概率值。
一种可选实施方式中,第一网络包括卷积层及统计池化层;第二执行模块303执行将特征向量输入信息识别模型,利用第一网络对特征向量进行特征提取,得到第一特征图的方式,包括:将特征向量输入信息识别模型,利用卷积层的卷积核和卷积核偏置对特征向量进行卷积处理,得到第一输出特征图;利用统计池化层对第一输出特征图进行统计池化处理,得到第一特征图。
一种可选实施方式中,第二网络包括全连接层及多类逻辑回归层;第二执行模块303执行将从第一网络提取到的第一特征图输入第二网络并进行分类,得到特征向量在各个预设年龄区间的概率值的方式,包括:将从第一网络提取到的第一特征图输入全连接层,利用全连接层对第一特征图进行降维,得到第一向量;将第一向量输入多类逻辑回归层,得到特征向量在各个预设年龄区间的概率值。
一种可选实施方式中,第二执行模块303执行依据特征向量在各个预设年龄区间的概率值,确定出待识别音频对应的年龄识别结果的方式,包括:将特征向量在各个预设年龄区间的概率值进行加权平均,得到待识别音频对应的年龄识别结果。
一种可选实施方式中,服务标签包括性别识别结果;第二执行模块303执行基于特征向量以及预先训练的信息识别模型,得到待识别音频对应的服务标签的方式,包括:将特征向量输入信息识别模型,得到特征向量在各个预设性别类别的概率值;利用预先训练的隐马尔科夫模型对特征向量在各个预设性别类别的概率值进行约束,得到待识别音频对应的性别识别结果。
一种可选实施方式中,信息识别模型包括第三网络及第四网络;第二执行模块303执行将特征向量输入信息识别模型,得到特征向量在各个预设性别类别的概率值的方式,包括:将特征向量输入信息识别模型,利用第三网络对特征向量进行特征提取,得到第二特征图;利用第四网络对第三网络输出的第二特征图进行分类,得到特征向量在各个预设性别类别的概率值。
一种可选实施方式中,第三网络包括卷积层及长短时记忆层;第二执行模块303执行将特征向量输入信息识别模型,利用第三网络对特征向量进行特征提取,得到第二特征图的方式,包括:将特征向量输入信息识别模型,利用卷积层的卷积核和卷积核偏置对特征向量进行卷积处理,得到第二输出特征图;利用长短时记忆层捕捉第二输出特征图的序列信息,得到第二特征图。
一种可选实施方式中,第四网络包括全连接层及多类逻辑回归层;第二执行模块303执行利用第四网络对第三网络输出的第二特征图进行分类,得到特征向量在各个预设性别类别的概率值的方式,包括:将第三网络输出的第二特征图输入全连接层,利用全连接层对第二特征图进行降维,得到第二向量;利用多类逻辑回归层对第二向量进行处理,得到特征向量在各个预设性别类别的概率值。
一种可选实施方式中,服务标签包括身份验证结果;第二执行模块303执行基于特征向量以及预先训练的信息识别模型,得到待识别音频对应的服务标签的方式,包括:获取待识别音频对应的标准音频;确定表征标准音频的声学特征的特征向量;将待识别音频对应的特征向量和标准音频对应的特征向量均输入信息识别模型,得到待识别音频和标准音频的相似度分值;根据相似度分值确定出待识别音频对应的身份验证结果,身份验证结果包括验证通过结果或验证失败结果。
第三执行模块304,用于依据服务标签确定出与服务标签相匹配的服务信息。
一种可选实施方式中,服务器110预先存储有多个预设年龄区间及每个预设年龄区间对应的服务内容;第三执行模块304执行依据服务标签确定出与服务标签相匹配的服务信息的方式,包括:依据年龄识别结果,从多个预设年龄区间中确定出年龄识别结果所属的目标年龄区间;获取目标年龄区间对应的服务内容,得到与服务标签相匹配的服务信息。
一种可选实施方式中,服务器110预先存储有多个预设性别类别及每个预设性别类别对应的服务内容;第三执行模块304执行依据服务标签确定出与服务标签相匹配的服务信息的方式,包括:依据性别识别结果,从多个服务内容中获取性别识别结果对应的目标服务内容,得到与服务标签相匹配的服务信息。
一种可选实施方式中,服务器110预先存储有身份验证结果及身份验证结果对应的服务内容;第三执行模块304执行依据服务标签确定出与服务标签相匹配的服务信息的方式,包括:当身份验证结果为验证通过结果时,获取验证通过结果对应的服务内容作为与服务标签相匹配的服务信息;当身份验证结果为验证失败结果时,获取验证失败结果对应的服务内容作为与服务标签相匹配的服务信息。
本申请实施例还提供了一种电子设备60,如图7所示,为本申请实施例提供的电子设备60结构示意图,包括:处理器61、存储器62、和总线63。所述存储器62存储有所述处理器61可执行的机器可读指令(比如,图6中的装置中音频获取模块301、第一执行模块302、第二执行模块303、第三执行模块304对应的执行指令等),当电子设备60运行时,所述处理器61与所述存储器62之间通过总线63通信,所述机器可读指令被所述处理器61运行时执行上述信息识别方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述信息识别方法的步骤。具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述信息识别方法,从而达到在用户无感知的情况下提供更适合的服务、提升用户体验的效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除