HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

音频处理方法、装置、计算机设备及存储介质与流程

2021-01-28 14:01:29|255|起点商标网
音频处理方法、装置、计算机设备及存储介质与流程

本申请涉及多媒体技术领域,特别涉及一种音频处理方法、装置、计算机设备及存储介质。



背景技术:

随着智能硬件技术的发展,用户能够通过各种各样的智能硬件进行实时通信。在进行实时通信时,智能硬件能够对实时音频流信号进行处理,如噪声抑制、混响消除以及回声消除等。

目前,在对噪声进行抑制时,通常是对当前的音频流进行语音活动的判断,如果判断是语音,则正常进行噪声抑制;如果判断是非语音,则将当前信号完全消除,从而能够将纯噪声段的噪声完全消除干净。

上述方案存在的问题是,虽然能够将纯噪声片段消除的更加干净,但存在误消除用户的语音的风险,导致用户的语音信息丢失。



技术实现要素:

本申请实施例提供了一种音频处理方法、装置、计算机设备及存储介质,能够对噪声进行大幅度抑制的同时,不对干净语音造成影响,并且通过调整对噪声的抑制程度,不会出现消除用户语音的风险。所述技术方案如下:

一方面,提供了一种音频处理方法,所述方法包括:

获取待处理音频的频谱特征;

根据所述频谱特征,确定所述待处理音频的分类概率信息和第一噪声抑制信息,所述分类概率信息用于指示所述待处理音频为非语音的概率,所述第一噪声抑制信息用于指示以将所述待处理音频处理为纯语音为目标,对所述待处理音频中噪声的抑制程度;

根据所述分类概率信息,对所述第一噪声抑制信息进行更新,得到第二噪声抑制信息;

根据所述第二噪声抑制信息,对所述待处理音频进行噪声抑制处理。

另一方面,提供了一种音频处理装置,所述装置包括:

特征获取模块,用于获取待处理音频的频谱特征;

信息确定模块,用于根据所述频谱特征,确定所述待处理音频的分类概率信息和第一噪声抑制信息,所述分类概率信息用于指示所述待处理音频为非语音的概率,所述第一噪声抑制信息用于指示以将所述待处理音频处理为纯语音为目标,对所述待处理音频中噪声的抑制程度;

信息更新模块,用于根据所述分类概率信息,对所述第一噪声抑制信息进行更新,得到第二噪声抑制信息;

噪声抑制模块,用于根据所述第二噪声抑制信息,对所述待处理音频进行噪声抑制处理。

在一种可选的实现方式中,所述信息确定模块,包括:

第一信息确定单元,用于将所述频谱特征输入声音识别模型,得到所述声音识别模型输出的所述待处理音频的分类概率信息,所述声音识别模型用于对所述待处理音频进行分类;

第二信息确定单元,用于将所述频谱特征输入噪声抑制模型,得到所述噪声抑制模型输出的所述待处理音频的第一噪声抑制信息,所述噪声抑制模型用于确定以将所述待处理音频处理为纯语音为目标,对所述待处理音频中噪声的抑制程度。

在一种可选的实现方式中,所述第二信息确定单元,用于将所述频谱特征输入噪声抑制模型;基于所述噪声抑制模型,根据所述频谱特征与纯语音的频谱特征之间的距离,输出噪声抑制系数,将所述噪声抑制系数作为所述待处理音频的第一噪声抑制信息。

在一种可选的实现方式中,所述声音识别模型的训练步骤包括:

获取反类数据和正类数据,所述反类数据包括纯噪声数据,所述正类数据包括纯语音数据和叠加数据,所述叠加数据由所述纯噪声数据和所述纯语音数据叠加得到;

基于待训练的初始声音识别模型对所述反类数据和所述正类数据分别进行预测;

根据预测结果,调整所述初始声音识别模型的模型参数,得到所述声音识别模型。

在一种可选的实现方式中,所述噪声抑制模型的训练步骤包括:

获取反类数据和正类数据,所述反类数据包括纯噪声数据,所述正类数据包括纯语音数据和叠加数据,所述叠加数据由所述纯噪声数据和所述纯语音数据叠加得到

基于待训练的初始噪声抑制模型对所述反类数据和所述正类数据分别进行预测,得到预测噪声抑制系数;

根据所述预测噪声抑制系数和所述叠加数据的频谱特征,确定目标特征;

根据所述目标特征与所述纯语音数据的频谱特征之间的距离,调整所述初始噪声抑制模型的模型参数,得到所述噪声抑制模型。

在一种可选的实现方式中,所述根据所述目标特征与所述纯语音数据的频谱特征之间的距离,调整所述初始噪声抑制模型的模型参数,得到所述噪声抑制模型,包括:

获取参考噪声抑制系数,所述参考噪声抑制系数基于纯语音数据的频谱特征和叠加数据的频谱特征得到;

根据所述预测噪声抑制系数和所述参考噪声抑制系数,调整所述初始噪声抑制模型的模型参数,以使得所述目标特征与所述纯语音数据的频谱特征之间的距离最小,得到所述噪声抑制模型。

在一种可选的实现方式中,所述噪声抑制模块,用于根据所述第一噪声信息,获取所述待处理音频的噪声抑制系数,所述噪声抑制系数与对噪声的抑制程度成正比;获取所述分类概率信息所指示的非语音的概率与所述噪声抑制系数的乘积,将所述乘积作为所述第二噪声抑制信息。

另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行以实现本申请实施例中的音频处理方法中所执行的操作。

另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段程序代码,所述至少一段程序代码由处理器加载并执行以实现如本申请实施例中音频处理方法中所执行的操作。

另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各方面或者各方面的各种可选实现方式中提供的音频处理方法。

本申请实施例提供的技术方案带来的有益效果是:

本申请提供了一种音频处理方法,通过基于待处理音频的频谱特征,确定待处理音频为非语音的概率和对该待处理音频中噪声的抑制程度,然后基于该概率调整对该噪声的抑制程度,能够对噪声进行大幅度抑制的同时,不对干净语音造成影响,并且通过调整对噪声的抑制程度,不会出现消除用户语音的风险。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的音频处理方法的实施环境示意图;

图2是根据本申请实施例提供的一种音频处理方法的流程图;

图3是根据本申请实施例提供的一种音频处理方法流程图;

图4是根据本申请实施例提供的一种音频处理方法的系统框架示意图;

图5是根据本申请实施例提供的一种音频处理装置的框图;

图6是根据本申请实施例提供的一种终端的结构框图;

图7是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

以下介绍以下本申请实施例可能用到的技术。

云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面,进行简单易用的操作,便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频,而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以saas(softwareasaservice,软件即服务)模式为主体的服务内容,包括电话、网络、视频等服务形式,基于云计算的视频会议就叫云会议。

在云会议时代,数据的传输、处理、存储全部由视频会议厂家的计算机资源处理,用户完全无需再购置昂贵的硬件和安装繁琐的软件,只需打开浏览器,登录相应界面,就能进行高效的远程会议。

云会议系统支持多服务器动态集群部署,并提供多台高性能服务器,大大提升了会议稳定性、安全性、可用性。近年来,视频会议因能大幅提高沟通效率,持续降低沟通成本,带来内部管理水平升级,而获得众多用户欢迎,已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问,视频会议运用云计算以后,在方便性、快捷性、易用性上具有更强的吸引力,必将激发视频会议应用新高潮的到来。相应的,如何在云会议系统进行实时通信会议时,对语音信号中的噪声进行抑制,提高语音的质量,从而提高用户的参会体验,是目前需要解决的问题。

语音技术(speechtechnology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来被看好的人机交互方式之一。通过本申请实施例提供的音频处理方法,对采集到到的语音进行噪声抑制,能够得到较为干净的语音。

自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。通过机器学习技术能够训练得到声音识别模型和噪声抑制模型。

分帧,在短时分析中,将语音信号分为一段一段地来分析其特征参数,其中每一段称为一“帧”,帧长一般取10~30ms。这样,对于整体的语音信号来讲,每一帧特征参数组成了特征参数时间序列。

预加重,是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。而预加重对噪声并没有影响,因此有效地提高了输出信噪比。

傅里叶变换,表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。在不同的研究领域,傅立叶变换具有多种不同的变体形式,如连续傅立叶变换和离散傅立叶变换

短时傅里叶变换(stft,short-timefouriertransform,或short-termfouriertransform))是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位。

下面介绍一下本申请实施例提供的音频处理方法的实施环境,图1是根据本申请实施例提供的音频处理方法的实施环境示意图。该实施环境包括第一终端101、第二终端102和服务器103。

第一终端101和服务器103能够通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。可选的,第一终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视等能够运行即时通讯软件或社交软件的智能终端,但并不局限于此。第一终端101能够安装和运行有应用程序。可选的,该应用程序是社交类应用程序、在线教育类应用程序、会议类应用程序或者通信类应用程序等。示意性的,第一终端101是第一用户使用的终端,第一终端101中运行的应用程序内登录有第一用户的第一用户账号。

第二终端102和服务器103能够通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。可选的,第二终端102是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视等能够运行即时通讯软件或社交类应用程序的智能终端,但并不局限于此。第二终端102能够安装和运行有应用程序。可选的,该应用程序是社交类应用程序、在线教育类应用程序、会议类应用程序或者通信类应用程序等。示意性的,第二终端102是第二用户使用的终端,第二终端102中运行的应用程序内登录有第二用户的第二用户账号。

服务器103能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(contentdeliverynetwork,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。服务器103用于为第一终端101和第二终端102运行的应用程序提供后台服务。

需要说明的是,在本申请实施例中,第一终端101和第二终端102的划分仅是为了便于描述,对于第一终端101和第二终端102中的任一终端,既能够作为第一终端101,也能够作为第二终端102。示意性的,第一终端101和第二终端102既能进行音频采集,又能进行音频播放。例如,对于第一终端101采集的待处理音频,本申请实施例提供的音频处理方法,能够应用于采集该待处理音频的第一终端101,也能够应用于播放该待处理音频的第二终端102,还能够应用于上述服务器103。

可选的,在对音频处理的过程中,服务器103承担主要处理工作,第一终端101和第二终端102承担次要处理工作;或者,服务器103承担次要处理工作,第一终端101和第二终端102承担主要处理工作;或者,服务器103、第一终端101或第二终端102分别能够单独承担处理工作。

可选的,服务器103包括:接入服务器、音频处理服务器和数据库。接入服务器用于提供第一终端101和第二终端102的接入服务。音频处理服务器用于提供音频处理服务。音频处理服务器可以是一台或多台。当音频处理服务器是多台时,存在至少两台音频处理服务器用于提供不同的服务,和/或,存在至少两台音频处理服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。音频处理服务器能够设置有用于分类的声音识别模型和用于噪声抑制的噪声抑制模型。数据库用于存储用户账号、会话标识、待处理音频、声音识别模型以及噪声抑制模型等数据。

可选的,第一终端101和第二终端102泛指多个终端中的两个,本实施例仅以第一终端101和第二终端102来举例说明。本领域技术人员能够知晓,上述第一终端101的数量能够更多。比如上述第一终端101为几十个或几百个,或者更多数量,此时上述音频处理方法的实施环境还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络,包括但不限于局域网(localareanetwork,lan)、城域网(metropolitanareanetwork,man)、广域网(wideareanetwork,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(hypertextmark-uplanguage,html)、可扩展标记语言(extensiblemarkuplanguage,xml)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(securesocketlayer,ssl)、传输层安全(transportlayersecurity,tls)、虚拟专用网络(virtualprivatenetwork,vpn)、网际协议安全(internetprotocolsecurity,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图2是根据本申请实施例提供的一种音频处理方法的流程图,如图2所示,在本申请实施例中以应用于计算机设备为例进行说明。该音频处理方法包括以下步骤:

201、计算机设备获取待处理音频的频谱特征。

在本申请实施例中,该计算机设备能够为图1所示的第一终端101,也能够为第二终端102,还能够为服务器103。该待处理音频为第一终端101或者第二终端102采集的音频。计算机设备在获取待处理音频后,能够对该待处理音频依次进行分帧处理、预加重处理、加窗处理、傅里叶变换处理以及基于梅尔滤波器的滤波处理,然后将滤波处理结果的对数作为该待处理音频的频谱特征。基于该频谱特征的获取方式,该频谱特征还能够被称为对数梅尔能量频谱特征。

202、计算机设备根据该频谱特征,确定该待处理音频的分类概率信息和第一噪声抑制信息,该分类概率信息用于指示该待处理音频为非语音的概率,该第一噪声抑制信息用于指示以将该待处理音频处理为纯语音为目标,对该待处理音频中噪声的抑制程度。

在本申请实施例中,计算机设备能够基于待处理音频的频谱特征,如频谱特征,分别确定该待处理音频为语音的概率和非语音的概率,其中待处理音频为语音的概率和为非语音的概率的和为1;计算机设备还能够基于待处理音频的频谱特征,确定以将该待处理音频处理为纯语音为目标,对该待处理音频中噪声的抑制程度。可选的,计算机设备能够基于声音识别模型,来确定待处理音频为语音的概率和非语音的概率;基于噪声抑制模型,确定对该待处理音频中噪声的抑制程度。

203、计算机设备根据该分类概率信息,对该第一噪声抑制信息进行更新,得到第二噪声抑制信息。

在本申请实施例中,计算机设备能够根据待处理音频为非语音的概率,来调整对该待处理音频中噪声的抑制程度,从而在语音的概率较低时,以较高的抑制程度来抑制噪声;在非语音的概率较低时,以较小的抑制程度来抑制噪声。

204、计算机设备根据该第二噪声抑制信息,对该待处理音频进行噪声抑制处理。

在本申请实施例中,计算机设备能够根据第二噪声抑制信息所指示的噪声的抑制程度,来对待处理音频的频谱进行噪声抑制处理,生成新的频谱,然后对该新的频谱进行反傅里叶变换处理,得到时域波形,从而完成对待处理音频的处理。

本申请提供了一种音频处理方法,通过基于待处理音频的频谱特征,确定待处理音频为非语音的概率和对该待处理音频中噪声的抑制程度,然后基于该概率调整对该噪声的抑制程度,能够对噪声进行大幅度抑制的同时,不对干净语音造成影响,并且通过调整对噪声的抑制程度,不会出现消除用户语音的风险。

图3是根据本申请实施例提供的一种音频处理方法流程图,如图3所示,在本申请实施例中以应用于计算机设备为例进行说明。该音频处理方法包括以下步骤:

301、计算机设备获取待处理音频的频谱特征。

在本申请实施例中,该计算机设备能够为终端或者服务器,该终端为图1所示的第一终端或者第二终端,该服务器为图1所示的服务器。该待处理音频为即时通讯程序获取的音频、实时会议程序获取的音频或者在线教育程序获得的音频,本申请实施例对待处理音频的来源和用途不进行限制。

例如,以待处理音频为实时会议程序基于手机的麦克风采集的音频为例,用户在通过手机进行实时会议时,实时会议程序基于手机的麦克风进行音频采集,该音频包括用户的语音和环境噪声。终端将该音频作为待处理音频。

计算机设备在获取待处理音频后,能够对该待处理音频依次进行分帧处理、预加重处理、加窗处理、傅里叶变换处理以及基于梅尔滤波器的滤波处理,然后将滤波处理结果的对数作为该待处理音频的频谱特征。基于该频谱特征的获取方式,该频谱特征还能够被称为对数梅尔能量频谱特征。

在一种可选的实现方式中,计算机设备获取待处理音频的频谱特征的步骤包括:计算机设备对待处理音频依次进行分帧处理、预加重处理以及加窗处理,得到时域信号。然后计算机设备对时域信号进行傅里叶变换处理,得到频域信号。最后计算机设备基于梅尔滤波器对频域信号进行滤波处理,将滤波处理结果的对数作为待处理音频的频谱特征。其中,计算机设备通过分帧处理能够将待处理音频划分为多个音频帧。可选的,该傅里叶变换处理为短时傅里叶变换处理。

相应的,计算机设备获取待处理音频的频谱特征的过程,能够通过下述公式(1)-公式(5)来实现。

其中,表示分帧及预加重后第i个音频帧中第n个时域采样点的时域信号;si(n)表示分帧后第i个音频帧中第n个时域采样点的时域信号;α表示预加重参数,为经验值;si(n-1)表示分帧后第i个音频帧中第n个时域采样点的时域信号。

其中,表示加窗后第i个音频帧中第n个时域采样点的时域信号;表示分帧及预加重后第i个音频帧中第n个时域采样点的时域信号;β表示加窗参数,为经验值;n表示第i个音频帧中第n个时域采样点,n为正整数;n表示第i个音频帧中的时域采样点的总数,n为正整数。

其中,wi(m)表示傅里叶变换后第i个音频帧中第m个频域采样点的频域信号;表示加窗后第i个音频帧中第n个时域采样点的时域信号;h(n)表示窗函数,用于进行短时傅里叶变换;e-j2mnπ/n表示复指数;m表示第i个音频帧中第m个频域采样点,m为正整数;m表示第i个音频帧中的频域采样点的总数,m为正整数。

其中,pi(m)表示第i个音频帧中第m个频域采样点的短时能量谱;m表示第i个音频帧中第m个频域采样点,m为正整数;m表示第i个音频帧中的频域采样点的总数,m为正整数;wi(m)表示傅里叶变换后第i个音频帧中第m个频域采样点的频域信号。

fi(m)=log{mf[pi(m)]}(5);

其中,fi(m)表示第i个音频帧中第m个频域采样点的频谱特征;mf[]表示梅尔滤波器;pi(m)表示第i个音频帧中第m个频域采样点的短时能量谱。

需要说明的是,由于该频谱特征由计算机设备基于梅尔滤波器对短时能量谱进行处理得到,因此该频谱特征还能够被称为对数梅尔能量频谱特征。

302、计算机设备根据该频谱特征,确定该待处理音频的分类概率信息,该分类概率信息用于指示该待处理音频为非语音的概率。

在本申请实施例中,计算机设备能够基于待处理音频的频谱特征,确定该待处理音频为非语音的概率。可选的,计算机设备能够基于待处理音频的频谱特征分别确定该待处理音频为语音的概率和非语音的概率,待处理音频为语音的概率和为非语音的概率的和为1。

在一种可选的实现方式中,计算机设备能够基于声音识别模型,来确定待处理音频为非语音的概率。相应的,计算机设备根据频谱特征,确定待处理音频的分类概率信息的步骤为:计算机设备能够将频谱特征输入声音识别模型,得到该声音识别模型输出的待处理音频的分类概率信息,该声音识别模型用于对待处理音频进行分类。可选的,该声音识别模型为二分类模型或者为多分类模型,本申请实施例对此不进行限制。通过声音识别模型能够较为准确的对待处理音频进行分类。

在一种可选的实现方式中,该声音识别模型能够由计算机设备训练得到,也能够由计算机设备直接获取已训练完毕的声音识别模型。该声音识别模型的训练步骤包括:计算机设备获取反类数据和正类数据,该反类数据包括纯噪声数据,该正类数据包括纯语音数据和叠加数据,该叠加数据由纯噪声数据和纯语音数据叠加得到。然后计算机设备能够基于待训练的初始声音识别模型对反类数据和正类数据分别进行预测。最后,计算机设备能够根据预测结果,调整初始声音识别模型的模型参数,得到该声音识别模型。

可选的,首先获取两个音频库:纯语音数据库a和纯噪声数据库b,该纯语音数据库a用于存储纯语音数据,该纯噪声数据库b用于存储纯噪声数据。将上述两个音频库中的数据进行随机叠加,得到叠加数据库c。然后,将纯语音数据库a和叠加数据库c中的数据作为正类数据,纯噪声数据库b中的数据作为反类数据。再然后,分别对上述三个数据库中的音频数据进行特征提取,获取对应的频谱特征。最后,将频谱特征输入待训练的初始声音识别模型,得到预测结果,将预测结果与音频数据实际所属的类别进行比较,以二进制交叉熵作为损失函数,来调整初始声音识别模型的参数,得到声音识别模型。

其中,初始声音识别模型的损失函数能够通过下述公式(6)得到。

其中,loss1表示对音频数据进行分类时的损失,i表示第i个音频帧,i表示对音频数据进行分帧得到的音频帧的总数量;表示音频数据的真实类别;p(yi)表示对音频数据的预测概率。

303、计算机设备根据该频谱特征,确定第一噪声抑制信息,该第一噪声抑制信息用于指示以将该待处理音频处理为纯语音为目标,对该待处理音频中噪声的抑制程度。

在本申请实施例中,计算机设备能够基于待处理音频的频谱特征,确定对该待处理音频中的噪声的抑制程度,该抑制程度能够通过噪声抑制系数来量化表示。相应的,计算机设备能够将该频谱特征输入噪声抑制模型,基于该噪声抑制模型,根据该频谱特征与纯语音的频谱特征之间的距离,输出噪声抑制系数,将该噪声抑制系数作为该待处理音频的第一噪声抑制信息。

在一种可选的实现方式中,计算机设备能够基于噪声抑制模型,来确定对待处理音频中的噪声进行抑制的抑制程度。相应的,计算机设备根据该频谱特征,确定第一噪声抑制信息的步骤为:计算机设备能够将频谱特征输入噪声抑制模型,得到该噪声抑制模型输出的待处理音频的第一噪声抑制信息,该噪声抑制模型用于确定以将该待处理音频处理为纯语音为目标,对待处理音频中的噪声的抑制程度。通过噪声抑制模型能够较为准确的确定对待处理音频中的噪声的抑制程度。

在一种可选的实现方式中,该噪声抑制模型能够由计算机设备训练得到,也能够由计算机设备直接获取已训练完毕的噪声抑制模型。该噪声抑制模型的训练步骤包括:计算机设备获取反类数据和正类数据,该反类数据包括纯噪声数据,该正类数据包括纯语音数据和叠加数据,该叠加数据由纯噪声数据和纯语音数据叠加得到。计算机设备能够基于待训练的初始噪声抑制模型对反类数据和正类数据分别进行预测,得到预测噪声抑制系数。然后计算机设备根据该预测噪声抑制系数和叠加数据的频谱特征,确定目标特征。最后,计算机设备能够根据目标特征与纯语音数据的频谱特征之间的距离,调整初始噪声抑制模型的模型参数,得到噪声抑制模型。通过初始噪声抑制模型预测得到的预测噪声抑制系数,来确定目标特征,能够在叠加数据的频谱特征的基础上,得到新的频谱特征,基于该新的频谱特征与纯语音数据的频谱特征之间的距离,对模型参数进行调整,能够使得调整后的模型,更符合训练目标。

在一种可选的实现方式中,计算机设备能够根据纯语音数据的频谱特征和叠加数据的频谱特征确定参考噪声抑制系数,基于该参考噪声抑制系数对初始噪声抑制模型的模型参数进行调整。相应的,计算机设备根据目标特征与所述纯语音数据的频谱特征之间的距离,调整初始噪声抑制模型的模型参数,得到噪声抑制模型的步骤为:计算机设备能够获取参考噪声抑制系数,然后根据预测噪声抑制系数和参考噪声抑制系数,调整初始噪声抑制模型的模型参数,以使得目标特征与纯语音数据的频谱特征之间的距离最小,得到噪声抑制模型。

可选的,噪声抑制模型能够分别对每个时间点,即每个音频帧,对应的多维频带点(声学特征的维度)预测一个系数,即预测噪声抑制系数。然后将该预测噪声抑制系数乘以叠加数据库c中音频数据的频谱特征,得到一个新的频谱特征,即目标特征。然后计算该目标特征与纯语音数据库a中的音频数据的频谱特征之间的距离,通过调整模型参数来最小化该距离。

其中,初始噪声抑制模型的损失函数能够通过下述公式(7)得到。

其中,loss2表示对音频数据进行噪声抑制时的损失;e[]表示均值函数;t表示时间点;f表示上述时间点t对应的频率;表示对时频点(t,f)进行预测得到的预测噪声抑制系数;sa(t,f)表示纯语音数据库a中的音频数据的频谱特征;sc(t,f)表示叠加数据库c中音频数据的频谱特征。

需要说明的是,参考噪声抑制系数能够通过下述公式(8)得到。

其中,λt,f表示参考噪声抑制系数;sa(t,f)表示纯语音数据库a中的音频数据的频谱特征;sc(t,f)表示叠加数据库c中音频数据的频谱特征。

304、计算机设备根据该分类概率信息,对该第一噪声抑制信息进行更新,得到第二噪声抑制信息。

在本申请实施例中,计算机设备能够根据分类概率信息,得到待处理音频为非语音的概率。然后计算机设备能够根据该第一噪声信息,获取待处理音频的噪声抑制系数,该噪声抑制系数与对噪声的抑制程度成正比。最后计算机设备能够获取非语音的概率与噪声抑制系数的乘积,该乘积为更新后的噪声抑制系数,将该乘积作为第二噪声抑制信息。

相应的,计算机设备确定第二噪声抑制信息能够通过公式(9)实现。

λ″t,f=λ′t,f×p(9);

其中,λ″t,f表示更新后的噪声抑制系数;λ′t,f表示更新前的噪声抑制系数;p表示待处理音频为非语音的目标概率。

305、计算机设备根据该第二噪声抑制信息,对该待处理音频进行噪声抑制处理。

在本申请实施例中,计算机设备能够根据第二噪声抑制信息所指示的噪声的抑制程度,来对待处理音频的频谱进行抑制处理,生成新的频谱,然后通过反傅里叶变换将该新的频谱变换为时域波形,输出该时域波形,完成对待处理音频的处理。

需要说明的是,上述步骤301至步骤305是本申请实施例提供的音频处理方法的可选实现方式,相应的还有其他可选方式能够实现。例如,步骤303在步骤302之前执行,或者步骤302和步骤303同时执行。参见图4所示,图4是根据本申请实施例提供的一种音频处理方法的系统框架示意图。如图4所示,该系统框架包括特征获取系统401,声学场景识别系统402,噪声抑制消除系统403,以及融合输出系统404。其中,特征获取系统401,用于从待处理音频中获取频谱特征;声学场景识别系统402包括声学识别模型,用于确定该待处理音频为非语音的概率;噪声抑制消除系统403包括噪声抑制模型,用于确定噪声抑制系数;融合输出系统404,用于对非语音的概率和噪声抑制系数进行融合,得到更新后的噪声抑制系数,然后基于该更新后的噪声抑制系数对待处理音频的频谱进行噪声抑制处理,生成新的频谱,然后对该新的频谱进行反傅里叶变换处理,得到时域波形,输出该时域波形。

本申请提供了一种音频处理方法,通过基于待处理音频的频谱特征,确定待处理音频为非语音的概率和对噪声的抑制程度,然后基于该概率调整对噪声的抑制程度,能够对噪声进行大幅度抑制的同时,不对干净语音造成影响,并且通过调整对噪声的抑制程度,不会出现消除用户语音的风险。

图5是根据本申请实施例提供的一种音频处理装置的框图。该装置用于执行上述音频处理方法执行时的步骤,参见图5,装置包括:特征获取模块501、信息确定模块502、信息更新模块503以及噪声抑制模块504。

特征获取模块501,用于获取待处理音频的频谱特征;

信息确定模块502,用于根据该频谱特征,确定该待处理音频的分类概率信息和第一噪声抑制信息,该分类概率信息用于指示该待处理音频为非语音的概率,该第一噪声抑制信息用于指示以将该待处理音频处理为纯语音为目标,对该待处理音频中噪声的抑制程度;

信息更新模块503,用于根据该分类概率信息,对该第一噪声抑制信息进行更新,得到第二噪声抑制信息;

噪声抑制模块504,用于根据该第二噪声抑制信息,对该待处理音频进行噪声抑制处理。

在一种可选的实现方式中,该信息确定模块502,包括:

第一信息确定单元,用于将该频谱特征输入声音识别模型,得到该声音识别模型输出的该待处理音频的分类概率信息,该声音识别模型用于对该待处理音频进行分类;

第二信息确定单元,用于将该频谱特征输入噪声抑制模型,得到该噪声抑制模型输出的该待处理音频的第一噪声抑制信息,该噪声抑制模型用于确定以将该待处理音频处理为纯语音为目标,对该待处理音频中噪声的抑制程度。

在一种可选的实现方式中,该第二信息确定单元,用于将该频谱特征输入噪声抑制模型;基于该噪声抑制模型,根据该频谱特征与纯语音的频谱特征之间的距离,输出噪声抑制系数,将该噪声抑制系数作为该待处理音频的第一噪声抑制信息。

在一种可选的实现方式中,该声音识别模型的训练步骤包括:

获取反类数据和正类数据,该反类数据包括纯噪声数据,该正类数据包括纯语音数据和叠加数据,该叠加数据由该纯噪声数据和该纯语音数据叠加得到;

基于待训练的初始声音识别模型对该反类数据和该正类数据分别进行预测;

根据预测结果,调整该初始声音识别模型的模型参数,得到该声音识别模型。

在一种可选的实现方式中,该噪声抑制模型的训练步骤包括:

获取反类数据和正类数据,该反类数据包括纯噪声数据,该正类数据包括纯语音数据和叠加数据,该叠加数据由该纯噪声数据和该纯语音数据叠加得到

基于待训练的初始噪声抑制模型对该反类数据和该正类数据分别进行预测,得到预测噪声抑制系数;

根据该预测噪声抑制系数和该叠加数据的频谱特征,确定目标特征;

根据该目标特征与该纯语音数据的频谱特征之间的距离,调整该初始噪声抑制模型的模型参数,得到该噪声抑制模型。

在一种可选的实现方式中,该根据该目标特征与该纯语音数据的频谱特征之间的距离,调整该初始噪声抑制模型的模型参数,得到该噪声抑制模型,包括:

获取参考噪声抑制系数,该参考噪声抑制系数基于纯语音数据的频谱特征和叠加数据的频谱特征得到;

根据该预测噪声抑制系数和该参考噪声抑制系数,调整该初始噪声抑制模型的模型参数,以使得该目标特征与该纯语音数据的频谱特征之间的距离最小,得到该噪声抑制模型。

在一种可选的实现方式中,该噪声抑制模块504,用于根据该第一噪声信息,获取该待处理音频的噪声抑制系数,该噪声抑制系数与对噪声的抑制程度成正比;获取该分类概率信息所指示的非语音的概率与该噪声抑制系数的乘积,将该乘积作为该第二噪声抑制信息。

本申请提供了一种音频处理方法,通过基于待处理音频的频谱特征,确定待处理音频为非语音的概率和对该待处理音频中噪声的抑制程度,然后基于该概率调整对该噪声的抑制程度,能够对噪声进行大幅度抑制的同时,不对干净语音造成影响,并且通过调整对噪声的抑制程度,不会出现消除用户语音的风险。

需要说明的是:上述实施例提供的音频处理装置在进行音频处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

在本申请实施例中,计算机设备能够被配置为终端或者服务器,当计算机设备被配置为终端时,可以由终端作为执行主体来实施本申请实施例提供的技术方案,当计算机设备被配置为服务器时,可以由服务器作为执行主体来实施本申请实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本申请提供的技术方案,本申请实施例对此不作限定。

图6是根据本申请实施例提供的一种终端600的结构框图。该终端600可以是便携式移动终端,比如:智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常,终端600包括有:处理器601和存储器602。

处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器601所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路604用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏605用于显示ui(userinterface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置在终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在另一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。定位组件608可以是基于美国的gps(globalpositioningsystem,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3d动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商logo时,指纹传感器614可以与物理按键或厂商logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。

接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

图7是根据本申请实施例提供的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)701和一个或一个以上的存储器702,其中,该存储器702中存储有至少一条程序代码,该至少一条程序代码由该处理器701加载并执行以实现上述各个方法实施例提供的音频处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于计算机设备,该计算机可读存储介质中存储有至少一段程序代码,该至少一段程序代码由处理器加载并执行以实现上述实施例的音频处理方法中计算机设备所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的音频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips