HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种信号处理方法、装置、设备及计算机可读存储介质与流程

2021-01-28 17:01:57|392|起点商标网
一种信号处理方法、装置、设备及计算机可读存储介质与流程
本发明涉及计算机
技术领域:
,具体涉及一种信号处理方法、装置、设备及计算机可读存储介质。
背景技术:
:随着通信技术的不断发展,人们对信号质量的要求不断提高,特别是在一些诸如利用计算机网络、移动通信网络召开网络会议的场景下,既希望会议的通话信号清晰可辨,又能够最大限度地减少一些随着参会人员的语音一并输入的非必要的信号。在一个场景中,该非必要信号主要是指噪声信号,该噪声信号可以是一些不需要的回声音频信号。在多方远程会议的场景中,会出现多端参会人员同时说话的情况,此时,本地的语音通信设备不仅要播放其他地区参会人员的语音,还要收集本地的参会人员的本地语音,由于会议室环境等因素的影响,语音通信设备收集到的本地语音中会存在一部分特殊的噪声信号,比如会议室反射的关于所述语音通信设备所播放语音的回声。这些回声信号会给诸如交互的会议语音信号带来不利影响,比如这些回声可能在语音会议中带来“滋啦”等杂音,降低了语音交互的质量。技术实现要素:本发明实施例提供一种信号处理方法、装置、设备及计算机可读存储介质,可提高语音交互的质量。一方面,本申请实施例提供了一种信号处理方法,该方法包括:采集待处理的音频信号,并提取所述待处理的音频信号的频谱特征,所述频谱特征包括n维对数能量频谱特征;调用噪声优化模型对所述对数能量频谱特征进行处理,得到所述n维对数能量频谱特征对应的m维噪声修正系数,n和m为正整数;对所述n维对数能量频谱特征和所述m维噪声修正系数进行计算,得到处理后的音频信号;其中,所述噪声优化模型是根据包括噪声音频信号的音频训练数据训练得到的,所述噪声优化模型输出的m维噪声修正系数中包括:用于对输入的对数能量频谱特征中关于噪声音频信号的特征进行修正的p维系数,p小于m。另一方面,本申请提供了一种信号处理装置,该处理装置包括:获取单元,用于采集待处理的音频信号,并提取所述待处理的音频信号的频谱特征,所述频谱特征包括n维对数能量频谱特征;处理单元,用于调用噪声优化模型对所述对数能量频谱特征进行处理,得到所述n维对数能量频谱特征对应的m维噪声修正系数,n和m为正整数;对所述n维对数能量频谱特征和所述m维噪声修正系数进行计算,得到处理后的音频信号;其中,所述噪声优化模型是根据包括噪声音频信号的音频训练数据训练得到的,所述噪声优化模型输出的m维噪声修正系数中包括:用于对输入的对数能量频谱特征中关于噪声音频信号的特征进行修正的p维系数,p小于m。相应地,本申请实施例还提供了一种信号处理设备,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的信号处理方法。相应地,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有一条或多条指令,一条或多条指令适于由处理器加载并执行上述的信号处理方法。相应地,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的信号处理方法。本申请实施例中,对采集到的诸如音视频会议、音视频通话等情况下产生的待处理的音频信号,可以从对数能量频谱特征出发,通过预先训练优化好的噪声优化模型产生的针对该待处理的音频信号的噪声修正系数,可较为有效地对采集到的待处理的音频信号进行优化修正,降低甚至消除该待处理的音频信号中关于回声等噪声音频信号对采集到的音频信号的不利影响,从而提高语音交互的质量。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a为本发明实施例提供的一种信号处理的场景架构图;图1b为本申请实施例提供的一种信号处理流程图;图2为本申请实施例提供的一种信号处理方法的流程图;图3为本申请实施例提供的一种从时域音频信号中提取频域频谱特征的流程图;图4a为本申请实施例提供的一种模型训练方法的流程图;图4b为本申请实施例提供的另一种模型训练方法的流程图;图5为本申请实施例提供的一种噪声优化模型的训练的简要示意图;图6为本申请实施例提供的另一种信号处理方法的流程图;图7为本申请实施例提供的一种会议会话界面图;图8为本申请实施例提供的一种信号处理装置的结构示意图;图9为本申请实施例提供的一种智能设备的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。本申请实施例涉及人工智能(artificialintelligence,ai)及机器学习(machinelearning,ml),通过将ai和ml相结合能够挖掘和分析音频信号中的特征,使得设备能够更加精确的对音频信号进行识别处理,从中确定出关于诸如回声等噪声信号的频谱特征,以便于减轻甚至消除这部分噪声信号对原音频信号的不利影响。其中,ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。ai技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向,本申请实施例主要涉及其中的语言处理技术。ml是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。ml是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。ml和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。基于传统机器学习的统计估计回声消除算法可以用来对待处理的音频信号进行分析处理,此类算法例如可以包括基于自适应滤波(adaptivefilter)的回声消除算法。对于这些传统统计学习消除算法,可以根据输入和输出信号的统计特性,使用特定的算法来估计滤波器的系数、自动调整加权系数达到对回声的消除。对于滤波器系数的估计,最小均方误差(leastmeansquare,lms)通常会是优化的目标。基于神经网络方式的回声消除算法也可以用来对待处理的音频信号进行分析处理,此类回声消除算法,通过采集远端(入会对方端,far-end)与近端(入会方,near-end)的信号,并分别提取它们的频谱特征,拼接作为神经网络的输入,近端的频谱特征则作为神经网络的输出。一些主流的网络模型,如卷积神经网络(convolutionneuralnetwork,cnn)和循环卷积神经网络(recurrentneuralnetwork)都可以应用到对回声等噪声信号的消除应用中。针对以上问题,本申请提出一种信号处理方法,对于采集到的待处理的音频信号,首先提取待处理的音频信号的频谱特征,然后调用预先训练好的噪声优化模型对音频信号的对数能量频谱特征进行处理,得到对数能量频谱特征对应的噪声修正系数,并通过噪声修正系数对音频信号的对数能量频谱特征进行修正,从而降低甚至消除待处理的音频信号中的噪声,提高语音交互的质量。请参阅图1a,图1a为本发明实施例提供的一种信号处理的场景架构图。如图1a所示,场景架构图包括了入会方,参会方及终端设备101。其中,入会方与参会方通过各自的终端设备参加远程会议,比如入会方采用了终端设备101进行远程会议,在远程会议的过程中,终端设备101会采集入会方的声波发送给参会方;并且,终端设备101还会播放参会方发送的语音。在图1a的示意中,对端声波为终端设备101播放参会方的语音时发出的声波;对端声波在遇到反射物(如墙面)时会发生反射,形成回声声波。因此,在产生回声声波后,如果入会方的用户也在说话而产生入会方用户的声波,则终端设备101采集的音频信号就可能包括:入会方的人声声波所对应的音频信号和回声声波所对应的音频信号。当然,参会方信号处理的场景与入会方信号处理的场景可以是相同的。终端设备101的数量可以为一个或多个,终端设备101的形态仅用于举例,终端设备101可以包括但不限于:智能手机(如android手机、ios手机等)、平板电脑、便携式个人计算机、移动互联网设备(mobileinternetdevices,简称mid)、语音采集(播放)器等具有语音播放及收集功能的设备。参会方的数量可以为一个或多个,本申请实施例不做限定。图1b为本申请实施例提供的一种信号处理流程图。如图1b所示,信号处理流程主要包括:终端设备101采集入会方的人声声波和噪声声波,这些噪声声波例如可以是前面提及的回声声波,并根据采集的声波得到对应的音频输入信号,即得到待处理的音频信号;然后提取该待处理的音频信号的频谱特征,该频谱特征可以为n维对数能量频谱特征;调用噪声优化模型对n维对数能量频谱特征进行处理,得到n维对数能量频谱特征对应的m维噪声修正系数,在一个实施例中,所述噪声优化模型可以是基于长短时记忆单元(longshorttermmemory,lstm)的卷积神经网络构建的模型,m维噪声修正系数为估计的频谱修正系数;对各维对数能量频谱特征与对应维数的噪声修正系数进行运算,即可得到处理后的音频信号,该处理后的音频信号减弱或消除了回声等信号,可以通过会议系统传输给一个或者多个参会方。在一个实施例中,模型构建与训练时,n维对数能量频谱特征中包括n维人声音频信号的对数能量频谱和p维回声音频信号的对数能量频谱,即n=n+p。n维人声音频信号的对数能量频谱和p维回声音频信号的对数能量频谱既可以是依次先后排列的,比如前n维被定义为人声音频信号的对数能量频谱,后p维被定义为回声音频信号的对数能量频谱,也可以是交叉混合排列的。对应地,m维噪声修正系数中包括n维人声音频信号的对数能量频谱的噪声修正系数和p维回声音频信号的对数能量频谱的噪声修正系数,即m=n=n+p。n维人声音频信号的对数能量频谱的噪声修正系数和p维回声音频信号的对数能量频谱的噪声修正系数的排列方式、与n维对数能量频谱特征中n维人声音频信号的对数能量频谱和p维回声音频信号的对数能量频谱的排列方式相对应。举例说明,假设第j维噪声修正系数表征的是人声音频信号所对应的修正系数,第i维噪声修正系数表征的是噪声信号所对应的修正系数;则第j维对数能量频谱特征也是对应表示人声音频信号的一个特征,第i为对数能量频谱特征则对应表示噪声信号的一个特征。并且,在计算时,若得到的m维噪声修正系数中第j维的噪声修正系数为1,第i维的噪声修正系数为0.01,则对数能量频谱特征与对应维数的噪声修正系数进行运算是指:将n维对数能量频谱特征中第i维对数能量频谱特征的值、与m维噪声修正系数中第i维的噪声修正系数0.01相乘,得到新的对数能量频谱特征的值。可以理解的是,由于回声的对数能量频谱在与对应的噪声修正系数0.01相乘后,回声能量大幅降低,而人声的对数能量频谱在与对应的噪声修正系数1相乘后,人声能量不变,运算后回声音频信号对人声音频信号的影响会大幅降低。请参阅图2,图2为本申请实施例提供的一种信号处理方法的流程图。该方法可以由一个智能设备来执行,该智能设备具体可以是图1a中所示的终端设备101,该终端设备上安装有基于噪声优化模型设计的应用程序,本发明实施例的所述方法包括如下步骤。s201:采集待处理的音频信号,并提取待处理的音频信号的频谱特征,频谱特征包括n维对数能量频谱特征。在本发明实施例中,n维的对数能量频谱特征能够唯一地表征采集到的待处理的音频信号,且该待处理的音频信号的时长可以是预先确定的,例如,待处理的音频信号的时长是10ms,那么每10ms的音频信号会对应n维的对数能量频谱特征;又例如,待处理的音频信号的时长是100ms的音频信号,那么每100ms的音频信号会对应n维的对数能量频谱特征;当然,待处理的音频信号的时长还可以为其他值。对于用户持续发出的人声而对应输入的音频信号,会按照时间顺序,先后得到10ms(或100ms)等时长的待处理的音频信号。待处理的音频信号是对采集的时域音频信号进行划分得到,本发明实施例所提及的待处理的音频信号中包括以下至少一种音频信号:入会方用户发出的人声声音对应的人声音频信号,入会方当前环境下噪声的音频信号,在本发明实施例中,该噪声信号主要是指回声信号,本申请认为回声信号为噪声信号,因此均以回声音频信号作为噪声信号进行说明。待处理的音频信号的频谱特征是频域频谱特征,该频域频谱特征中包括n维对数能量谱(logpowerspectrum,lps)。图3为本申请实施例提供的一种从时域音频信号中提取频域频谱特征的流程图。如图3所示,首先对时域音频信号对应的声音进行分时间帧处理,并添加滑动窗操作,例如,假设时域音频信号1的时长为10秒,待处理的音频信号的时长为100ms,则按照时序先后将时域音频信号1划分为100帧待处理的音频信号;然后对划分后的每一帧声音片段进行快速傅立叶变换(fastfouriertransform,fft),得到每个频带点(frequencybin)的频谱能量分布(即频域离散频谱);接着对频域离散频谱进行取平方操作(如将频域离散频谱输入频谱平方操作器中);最后对平方运算的结果进行取对数操作得到时域音频信号对应的对数能量频谱特征。s202:调用噪声优化模型对对数能量频谱特征进行处理,得到n维对数能量频谱特征对应的m维噪声修正系数,n和m为正整数。噪声修正系数用于降低或消除待处理的音频信号中的噪声音频信号。在一个实施例中,m和n的取值可以在64维到512维之间,比如可以取500维。对于每次采集到的待处理的音频信号(10ms到100ms之间的一段语音),对应500维等维数的对数能量频谱特征。在一种实施方式中,m=n,即噪声优化模型对n维对数能量频谱特征进行处理后,得到每一维对数能量频谱特征对应的噪声修正系数。基于噪声优化模型,每一维对数能量频谱特征中包含的回声的能量越大,所期望的噪声修正系数的值越小,即期望噪声修正系数的值与噪声的能量成反比,以尽量降低甚至去除回声。各噪声修正系数的取值范围为[0,1],噪声修正系数中对应于人声部分的系数值为1或趋近于1,对应于回声部分的系数值为0或趋近于0。例如,假设500维对数能量频谱中,有400维用于表征人声音频信号的特征,100维用于表征回声音频信号的特征,则400维用于表征人声音频信号的特征的对数能量频谱的噪声修正系数的值为1或趋近于1,100维用于表征回声音频信号的特征的对数能量频谱的噪声修正系数的值为0或趋近于0。可以理解的是,若500维对数能量频谱中,400维用于表征人声音频信号的特征的对数能量频谱的噪声修正系数的值均小于能量阈值或为0,则表示该待处理的音频信号中不包括入会方的人声音频信号;同理,若500维对数能量频谱中,100维用于表征回声音频信号的特征的对数能量频谱的噪声修正系数的值均小于能量阈值或为0,则表示该待处理的音频信号中不包括回声音频信号。s203:对n维对数能量频谱特征和m维噪声修正系数进行计算,得到处理后的音频信号。在一种实施方式中,将各维对数能量频谱特征分别与对应的噪声修正系数相乘(例如第i维对数能量频谱特征与第i维噪声修正系数相乘),得到处理后的音频信号。通过降低噪声的能量,达到残留噪声消除或削弱的效果。本申请实施例中,对采集到的诸如语音会议、语音通话等情况下产生的待处理的音频信号,可以从对数能量频谱特征出发,通过预先训练优化好的噪声优化模型产生的针对该待处理的音频信号的噪声修正系数,可以较为有效地对待处理的音频信号进行优化修正,降低甚至消除该待处理的音频信号中关于噪声音频信号的特征对待处理的音频信号的不利影响,从而提高语音交互的质量。请参阅图4a,图4a为本申请实施例提供的一种模型训练方法的流程图。该方法可以由一个智能设备来执行,该智能设备具体可以是图1a中所示的终端设备101,也可以是一个用于进行模型训练优化的服务器,本发明实施例的所述方法包括如下步骤。s401:在播放有音频信号的目标环境中采集回声音频信号。其中,目标环境是指选定的一些会产生回声的环境,目标环境可以有多个,例如,办公室、会议室等。在这些环境下能够采集到回声音频信号,以进一步得到音频训练数据以对模型进行训练。在一个实施例中,为了后续得到较为合适的音频训练数据,在录制回声音频信号的过程中,可以选定不同的目标环境,在不同的目标环境下,产生回声的效果不相同,也即:有些目标环境下,回声的声音较大,而有些目标环境下,回声的声音较小,那么在采集到的回声音频信号中也就包括了不同声音强度的回声音频信号,如此一来,在后续将这些回声音频信号与干净的人声音频信号混合后,可以得到包括不同声音强度的回声的混合音频信号,进而能够在多回声声音强度下更为全面地进行模型训练。并且,在一些实施例中,在这些能够产生不同声音强度的目标环境下,还可以对播放音频信号的设备进行声音调节,以不同的音量大小播放音频,从而得到更为丰富的回声音频信号。另外,所述回声音频信号还可以是对不同的音频信号播放设备,在相同或不同的目标环境下播放时采集到的。那么后续还可以针对不同的客户端(例如手机等智能终端、八爪鱼等专用会议设备)生成音频训练数据,并训练得到针对不同客户端的噪声优化模型。s402:获取人声音频信号。在一种实施方式中,人声音频信号是通过直接采集用户声音的方式生成的。在另一种实施方式中,人声音频信号是通过预存的语音音频信号库中获取的。s403:将获取到的人声音频信号和回声音频信号在时域上叠加,得到混合音频信号,根据混合音频信号生成音频训练数据。在一种实施方式中,将多个人声音频信号分别与采集的回声音频信号进行叠加,得到音频训练数据。其中,每一段混合音频信号中均包括回声音频信号和人声音频信号。在另一种实施方式中,混合音频信号中还可以是部分时段包括回声音频信号和人声音频信号,而部分时段不包括人声音频信号,仅包括回声音频信号。也就是说,音频训练数据可以包括x段混合音频信号,每一段混合音频信号中均包括回声音频信号,第i段混合音频信号包括人声音频信号与回声音频信号,第j段混合音频信号仅包括回声音频信号,其中,i,j,x为正整数,i≠j,且i,j小于或等于x。例如,音频训练数据包括100段混合音频信号,50段混合音频信号仅包括回声音频信号,50段混合音频信号包括回声音频信号和人声音频信号。s404:采用音频训练数据触发对初始模型进行训练,得到噪声优化模型。噪声优化模型是通过音频训练数据和损失函数对初始模型进行训练得到的。将音频训练数据进行计算转换得到对应的对数能量频谱特征,对对数能量频谱特征再进行归一化处理后作为初始模型的输入,针对初始模型输出的结果,基于损失函数进行损失计算,根据损失计算的结果来调整初始模型的参数,以便于最终得到一个噪声优化模型。在一种实施方式中,噪声优化模型所采用的损失函数可以为:mine[(ymix:clean+echo(w)hmodel_coef(w)-xclean(w))2]其中,w表示所在的具体维数值,ymix:clean+echo(w)是噪声优化模型的输入,即音频训练数据中的一段混合音频信号所对应的n维对数能量频谱特征;hmodel_coef(w)是噪声优化模型估计的系数,也即前述提及的噪声修正系数;ymix:clean+echo(w)hmodel_coef(w)为第一干净频谱特征。xclean(w)是人声音频信号对应的对数能量频谱特征,即第二干净频谱特征。基于该损失函数得到的值,对噪声修正模型中的参数(比如卷积参数)进行优化,使得噪声优化模型的参数优化后,对于目标音频训练数据(所有的音频训练数据中的任一音频训练数据),噪声优化模型能够生成对应的噪声修正系数,且目标音频训练数据所对应的对数能量频谱特征与该噪声修正系数相乘后得到的值、与该音频训练数据中的人声音频信号所对应的对数能量频谱特征之间的差值为最小。进一步地,gmodel_coef(w)的表现形式为:噪声优化模型可以认为是基于上述的表现形式构建的,其中,sclean(w)为第二干净对数频谱特征所对应的人声音频信号的对数频谱能量;secho(w)为回声音频信号的对数频谱能量;sclean(w)+secho(w)为混合音频信号所对应的对数频谱能量。可以认为,混合音频信号所对应的对数频谱能量为人声音频信号的对数频谱能量与回声音频信号的对数频谱能量的和。进一步地,sclean(w)=log{|f[xclean(t)]|2},secho(w)=log{|f[xecho(t)]|2},即通过傅里叶快速变换并求对数,分别得到人声音频信号的对数频谱能量和回声音频信号的对数频谱能量。s405:对优化训练得到的噪声优化模型进行测试。通过测试来确定噪声优化模型的性能,其中,该测试步骤为可选步骤。上述s401到s404描述了本申请的噪声优化模型的训练过程中,具体再请参见图5,图5为本申请实施例提供的一种噪声优化模型的训练的简要示意图。如图5所示,首先采集回声并生成对应的回声音频信号(echosignal);然后采用不同的人声音频信号(如提前采集的人声,或采集的当前用户的声音)分别与回声音频信号在时域上叠加,得到多个不同的混合音频信号,并将这些混合音频信号作为初始模型的音频训练数据;接着采用音频训练数据对初始模型进行训练优化得到噪声优化模型,采用的损失函数如上所述。继续参考图5,在噪声优化模型训练优化完成后,再进入测试环节。收集音频测试数据,并对音频测试数据进行计算转换得到对应的对数能量频谱特征,将音频测试数据的对数能量频谱特征输入到噪声优化模型,得到噪声优化模型输出的噪声修正系数,将噪声优化模型输出的噪声修正系数与音频测试数据的对数能量频谱特征相乘,得到测试结果。如果测试结果在播放时不包含“滋啦”的杂音,和/或噪声优化模型中损失函数的数值小于噪声消除阈值,则判定该噪声优化模型测试通过。将该噪声优化模型部署到诸如会议应用等终端客户端中,以便于执行下述的关于图6所对应的实施例。相应地,如果测试结果在播放时包含“滋啦”的杂音,和/或噪声优化模型中损失函数的数值大于噪声消除阈值,则判定该噪声优化模型测试不通过,并继续通过上述s401-s404中的方法对该噪声优化模型进行训练,直至测试通过。请参阅图4b,图4b为本申请实施例提供的另一种模型训练方法的流程图。该方法可以由一个智能设备来执行,该智能设备具体可以是图1a中所示的终端设备101,也可以是一个用于进行模型训练优化的服务器,本发明实施例的所述方法包括如下步骤。s411:在播放有音频信号的多个目标环境中进行音频录制操作,得到多段噪声音频信息,每段噪声音频信息包括噪声音频信号和录制设备信息。其中,目标环境是指选定的一些会产生回声的环境,目标环境可以有多个,例如,办公室、会议室等。在这些环境下能够采集到回声音频信号,可以进一步得到音频训练数据以对模型进行训练。在一种实施方式中,还可以采用不同的音频录制设备(如智能终端,多方会议电话,八爪鱼之类的专用会议设备等),采集不同音量大小(如将语音播放设备的播放音量等级分别设为1-10级)、不同目标环境下播放音频信号,以收集产生的回声音频信号,得到多段回声音频信息,而每段回声音频信息包括回声音频信号及录制设备信息。例如,第1段回声音频信息是使用麦克风在会议室1中采集的语音播放设备使用2级播放音量播放语音过程中的回声得到的;第2段回声音频信息是使用多方会议电话在会议室1中采集的语音播放设备使用2级播放音量播放语音过程中的回声得到;第3段回声音频信息是使用麦克风在会议室2中采集的语音播放设备使用2级播放音量播放语音过程中的回声得到的;第4段回声音频信息是使用手机等智能终端在会议室1中采集的语音播放设备使用5级播放音量播放语音过程中的回声得到的。s412:根据多段噪声音频信息生成各录制设备信息所对应的音频训练数据;其中,音频训练数据包括y段噪声音频信号,其中y为正整数。在s412中可以根据多段噪声音频信息分别生成不同录制设备对应的音频训练数据,可以理解的是,例如,根据智能终端录制的回声音频信号生成智能终端对应的音频训练数据1,根据多方会议电话(例如八爪鱼等会议专用设备)录制的回声音频信号生成多方会议电话对应的音频训练数据2。s413:采用音频训练数据触发对初始模型进行训练,得到噪声优化模型。通过不同的录制设备采集回声音频信号,可以得到不同录制设备的音频训练数据,进而得到更具针对性的噪声优化模型;例如,当某个目标环境下的录制设备为手机等智能终端时,则基于智能终端采集到的不同声音强度的回声音频信号生成的音频训练数据,可以训练得到一个针对智能终端的噪声优化模型;当某个目标环境下的录制设备为八爪鱼等会议专用设备时,则基于会议专用设备采集到的不同声音强度的回声音频信号生成的音频训练数据,可以训练得到一个会议专用设备所对应的噪声优化模型。可以理解的是,在模型训练时的录制设备对应为模型使用时的客户端所对应的语音输入设备,可以建立一个映射表,该映射表记录设备类型标识(录制设备或者说语音输入设备对应的类型标识)与噪声优化模型的标识之间的关系。s414:对优化训练得到的噪声优化模型进行测试。通过测试来确定噪声优化模型的性能,其中,该测试步骤为可选步骤。可以分别基于不同类型的设备对相应的噪声优化模型进行性能测试。可以理解的是,上述s413和s414的具体描述还可以参考图4a所对应的s404和s405的相关内容的描述,在此不赘述。由于不同噪声优化模型对应不同类型的设备,后续在模型使用的过程中,可以参考采集声音的设备的类型,来选择对应的噪声优化模型进行削弱甚至去除回声等噪声的优化处理。本申请实施例将回声作为一种特定的噪声(即噪声中的一种)来进行消除,且在训练过程中不需要采集参会方的信号,有效减少了模型维度(尺寸),进而提高计算效率。图6,图6为本申请实施例提供的另一种信号处理方法的流程图。该方法可以由一个智能设备来执行,该智能设备具体可以是图1a中所示的终端设备101,该终端设备上安装有会议应用,该会议应用中部署有测试通过后的噪声优化模型,本发明实施例的所述方法包括如下步骤。s601:采集待处理的音频信号,并提取待处理的音频信号的频谱特征,频谱特征包括n维对数能量频谱特征。当终端用户打开会议应用参加互联网会议时,无论是视频会议还是纯语音会议,都可以调用终端设备的麦克风来采集待处理的音频信号,此时的待处理的音频信号即为会议音频信号。会议音频信号可能包括人声音频信号,也可能包括回声音频信号,还可能同时包括人声音频信号和回声音频信号。具体的,会议音频信号是在检测到进入如图7所示的会议会话界面时(即在多端会议通信过程中)采集到的。在一种实施方式中,在会议音频信号的频谱特征之前,终端设备可以判断当前所在位置的空间类型,以便于根据空间类型来确定是否调用会议应用中部署的噪声优化模型来对回声等进行优化。其中,若终端设备当前所在位置的空间类型属于第一类型(本申请中,第一类型是指所处位置空旷,回声一般较小甚至没有的环境空间类型),则对采集到的会议音频信号进行编码处理,并将编码后的会议音频信号发送给参会方,即无需对第一类型空间下的会议音频信号进行回声消除处理。若终端设备当前所在位置的空间类型属于第二类型(本申请中,第二类型主要是指室内等环境,比如通过定位发现用户在某栋大楼中时,则认为该会议用户的空间类型属于第二类型),则执行提取会议音频信号的频谱特征的步骤,以便于执行后续的回声消除的相关步骤。可见,通过判断当前所在位置的空间类型,能够避免对回声小于阈值的待处理音频信号进行回声消除处理,进而降低内存资源浪费,提高信号处理的效率。s602:对提取的频谱特征进行归一化处理。在一种实施方式中,通过对提取的频谱特征进行归一化处理,将提取的频谱特征映射到[0,1]的处理数值区间内。s603:调用噪声优化模型对对数能量频谱特征进行处理,得到n维对数能量频谱特征对应的m维噪声修正系数,n和m为正整数。具体的,对数能量频谱特征是10ms-100ms之间的一段语音对应64维或500维等对数能量频谱特征,输出是与能量频谱特征相同维数(64-512)的系数。在一种实施方式中,在存储的噪声优化模型集合中记录了至少两个噪声优化模型时,可以根据当前会议环境下所处位置的位置属性,从噪声优化模型集合中选取与该位置属性关联的噪声优化模型,并调用该关联噪声优化模型对当前作为输入的会议音频信号的对数能量频谱特征进行处理。其中,位置属性是指位置标识,例如,位置a位于xx区yy大厦,对应的标识为567678;位置b位于zz区xy大厦,对应的标识877454。进一步地,建立位置属性与噪声优化模型的关系映射表,表1为本申请实施例提供的一种示例性的关系映射表:表1地址位置标识噪声优化模型标识xx区yy大厦567678mx-68465zz区xy大厦877454mx-68968………上述表1中,地址,位置标识及噪声优化模型标识均具有索引功能,每一个地址、位置标识和噪声优化模型标识相互关联。当终端设备通过定位功能定位到当前会议环境下所处位置属于上述表1中某一地址时,则调用与之关联的噪声优化模型对待处理的会议音频信号的对数能量频谱特征进行处理,得到会议音频信号的对数能量频谱特征的噪声修正系数。可选的,终端设备将本次会议音频信号的对数能量频谱特征添加至一个音频训练数据集中,并通过更新后的音频训练数据对当前会议环境下所处位置对应的噪声优化模型进行再次优化,具体的优化方式可参考图4a中步骤s404和步骤s405,在此不再赘述。相应地,若终端设备通过定位功能未检测当前会议环境下所处位置属于上述表1中某一地址时,则采集当前会议环境下的环境音频信号;例如,在未检测到入会方用户说话时,采集环境音频信号(即当前会议环境的回音)。并将该环境音频信号与人声音频信号相叠加得到新的音频训练数据(即针对当前会议环境的音频训练数据),通过新的音频训练数据对噪声优化模型进行优化训练,得到优化后的噪声优化模型(即针对当前会议环境的噪声优化模型),优化训练的具体实施过程可参考步骤s401-s405中训练噪声优化模型的过程,在此不再赘述。将当前会议环境的位置属性与优化后的噪声优化模型关联存储至上述关系映射表中。由前述实施例所述,针对不同类型的录制设备也即对应的客户端所在的语音输入设备还可以对应有不同类型的噪声优化模型,因此,在一个实施例中,当用户通过会议应用参加会议时,还可以判断当前采集用户声音的语音输入设备的类型,如果类型为手机等智能终端,则在s603调用的噪声优化模型为与智能终端对应的已经优化好的噪声优化模型,如果类型为八爪鱼等会议专用设备类型,则在s603中调用的噪声优化模型为与会议专用设备类型对应的已经优化好的噪声优化模型。在一个实施例中,手机等智能终端可能通过蓝牙等无线连接方式外挂其他语音输入设备,则可以对当前与智能终端建立无线连接的设备进行判断,如果为语音输入设备(比如麦克风、或会议专用设备等),则同样是基于该外挂语音输入设备的类型来选择噪声优化模型。如果没有检测到当前会议应用所对应的语音输入设备的类型,则使用默认或者随机选择的噪声优化模型执行相应处理即可。可以通过映射表的方式建立设备类型标识和噪声优化模型之间的映射关系,以此找到并调用相应的噪声优化模型。s604:对n维对数能量频谱特征和m维噪声修正系数进行计算,得到处理后的音频信号。在一种实施方式中,在得到处理后的音频信号后,本发明实施例还可以进一步执行如下步骤。s605:对处理后的音频信号进行反对数变换,得到会议音频信号。s606:对会议音频信号进行编码,并将编码后的会议音频信号发送给会议会话界面上各个参会账号所登录的终端设备。本申请实施例中,根据不同的多端通信环境对噪声优化模型进行二次优化,使得优化后的噪声优化模型更具有针对性,从而进一步提高优化后的噪声优化模型对当前会议环境的回声消除效果。此外,通过将不同环境的环境属性与对应的噪声优化模型进行关联存储,使得用户在下次进行远程会议通信时,能够快速调用对应的噪声优化模型,进一步提升用户体验。上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。请参见图8,图8为本申请实施例提供的一种信号处理装置的结构示意图,该装置可以搭载在上述方法实施例中的智能设备上,该智能设备具体可以是图1a中所示的终端设备101,该终端设备上安装有基于噪声优化模型设计的应用程序。图8所示的信号处理装置可以用于执行上述图2,图4a,图4b和图6所描述的方法实施例中的部分或全部功能。其中,各个单元的详细描述如下:获取单元801,用于采集待处理的音频信号,并提取所述待处理的音频信号的频谱特征,所述频谱特征包括n维对数能量频谱特征;处理单元802,用于调用噪声优化模型对所述对数能量频谱特征进行处理,得到所述n维对数能量频谱特征对应的m维噪声修正系数,n和m为正整数;对所述n维对数能量频谱特征和所述m维噪声修正系数进行计算,得到处理后的音频信号;其中,所述噪声优化模型是根据包括噪声音频信号的音频训练数据训练得到的,所述噪声优化模型输出的m维噪声修正系数中包括:用于对输入的对数能量频谱特征中关于噪声音频信号的特征进行修正的p维系数,p小于m。在一个实施例中,所述处理单元802,还用于:在播放有音频信号的目标环境中采集噪声音频信号;获取人声音频信号;将获取到的人声音频信号和噪声音频信号在时域上叠加,得到混合音频信号,根据所述混合音频信号生成音频训练数据;其中,所述音频训练数据包括x段混合音频信号,第i段混合音频信号包括人声音频信号与噪声音频信号,其中,i,x为正整数,且i小于或等于x。在一个实施例中,所述处理单元802,还用于:在播放有音频信号的多个目标环境中进行音频录制操作,得到多段噪声音频信息,每段噪声音频信息包括噪声音频信号和录制设备信息;根据所述多段噪声音频信息生成所述录制设备信息所对应的音频训练数据;其中,所述音频训练数据包括y段噪声音频信号,其中y为正整数。在一个实施例中,所述噪声优化模型是将基于第一干净对数频谱特征、与第二干净对数频谱特征的均方误差构建的损失函数来对初始模型进行优化后得到的;所述第一干净对数频谱特征是根据所述音频训练数据中的混合音频信号、和通过所述初始模型对所述音频训练数据中的混合音频信号进行处理后输出的训练噪声修正系数相乘后得到的,所述第二干净频谱特征是根据所述人声音频信号得到的。在一个实施例中,构建的所述初始模型输出的训练噪声修正系数用于体现第二干净对数频谱特征所对应的人声音频信号的对数频谱能量、与混合音频信号所对应的对数频谱能量的比值;其中,所述混合音频信号所对应的对数频谱能量为:混合音频信号中噪声音频的对数频谱能量、与混合音频信号中人声音频信号的对数频谱能量之和。在一个实施例中,所述待处理的音频信号是在检测到进入会议会话界面时采集到的,所述处理后的音频信号是指所述n维对数能量频谱特征和所述m维噪声修正系数相乘后得到的信号,所述处理单元802,还用于:将所述处理后的音频信号进行反对数变换,得到会议音频信号;对所述会议音频信号进行编码,并将编码后的会议音频信号发送给所述会议会话界面上所对应的各个参会账号。在一个实施例中,所述处理单元802,还用于:在检测到来自于参会账号的声音信号时,采集环境音频信号;将所述环境音频信号作为新的音频训练数据对所述噪声优化模型进行优化训练,得到优化后的噪声优化模型;记录优化后的噪声优化模型,以便于后续根据优化后的噪声优化模型对采集到的待处理的音频信号对应的对数能量频谱特征进行处理。在一个实施例中,在存储的噪声优化模型集合中记录了至少两个噪声优化模型;所述处理单元802,具体用于:调用噪声优化模型对所述对数能量频谱特征进行处理;根据当前会议环境下所处位置的位置属性,从所述噪声优化模型集合中选取一个噪声优化模型;调用选取的噪声优化模型对所述对数能量频谱特征进行处理。在一个实施例中,在提取所述待处理的音频信号的频谱特征之前,所述处理单元802,还用于:判断当前所在位置的空间类型;若所述空间类型为第一类型,则对采集到的待处理的音频信号进行编码处理,得到编码后的音频信号;若所述空间类型为第二类型,则触发执行所述提取所述待处理的音频信号的频谱特征的步骤。根据本申请的一个实施例,图2,图4a,图4b和图6所示的信号处理方法所涉及的部分步骤可由图8所示的信号处理装置中的各个单元来执行。例如,图2中所示的步骤s201可由图8所示的获取单元801执行,步骤s202和步骤s203可由图8所示的处理单元802执行。图4a中所示的步骤s401和步骤s402可由图8所示的获取单元801执行,步骤s403~步骤s405可由图8所示的处理单元802执行。图4b中所示的步骤s411可由图8所示的获取单元801执行,步骤s412~步骤s414可由图8所示的处理单元802执行。图6中所示的步骤s601可由图8所示的获取单元801执行,步骤s602~步骤s606可由图8所示的处理单元802执行。图8所示的信号处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,信号处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行如图2,图4a,图4b和图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的信号处理装置,以及来实现本申请实施例的信号处理方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算装置中,并在其中运行。基于同一发明构思,本申请实施例中提供的信号处理装置解决问题的原理与有益效果与本申请方法实施例中信号处理装置解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。请参阅图9,图9为本申请实施例提供的一种智能设备的结构示意图,所述智能设备至少包括处理器901、通信接口902和存储器903。其中,处理器901、通信接口902和存储器903可通过总线或其他方式连接。其中,处理器901(或称中央处理器(centralprocessingunit,cpu))是终端的计算核心以及控制核心,其可以解析终端内的各类指令以及处理终端的各类数据,例如:cpu可以用于解析用户向终端所发送的开关机指令,并控制终端进行开关机操作;再如:cpu可以在终端内部结构之间传输各类交互数据,等等。通信接口902可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等),受处理器901的控制可以用于收发数据;通信接口902还可以用于终端内部数据的传输以及交互。存储器903(memory)是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器903既可以包括终端的内置存储器,当然也可以包括终端所支持的扩展存储器。存储器903提供存储空间,该存储空间存储了终端的操作系统,可包括但不限于:android系统、ios系统、windowsphone系统等等,本申请对此并不作限定。在本申请实施例中,处理器901通过运行存储器903中的可执行程序代码,执行如下操作:通过通信接口902采集待处理的音频信号,并提取所述待处理的音频信号的频谱特征,所述频谱特征包括n维对数能量频谱特征;调用噪声优化模型对所述对数能量频谱特征进行处理,得到所述n维对数能量频谱特征对应的m维噪声修正系数,n和m为正整数;对所述n维对数能量频谱特征和所述m维噪声修正系数进行计算,得到处理后的音频信号;其中,所述噪声优化模型是根据包括噪声音频信号的音频训练数据训练得到的,所述噪声优化模型输出的m维噪声修正系数中包括:用于对输入的对数能量频谱特征中关于噪声音频信号的特征进行修正的p维系数,p小于m。作为一种可选的实施例,处理器901还执行如下操作:在播放有音频信号的目标环境中采集噪声音频信号;获取人声音频信号;将获取到的人声音频信号和噪声音频信号在时域上叠加,得到混合音频信号,根据所述混合音频信号生成音频训练数据;其中,所述音频训练数据包括x段混合音频信号,第i段混合音频信号包括人声音频信号与噪声音频信号,其中,i,x为正整数,且i小于或等于x。作为一种可选的实施例,处理器901还执行如下操作:在播放有音频信号的多个目标环境中进行音频录制操作,得到多段噪声音频信息,每段噪声音频信息包括噪声音频信号和录制设备信息;根据所述多段噪声音频信息生成所述录制设备信息所对应的音频训练数据;其中,所述音频训练数据包括y段噪声音频信号,其中y为正整数。作为一种可选的实施例,所述噪声优化模型是将基于第一干净对数频谱特征、与第二干净对数频谱特征的均方误差构建的损失函数来对初始模型进行优化后得到的;所述第一干净对数频谱特征是根据所述音频训练数据中的混合音频信号、和通过所述初始模型对所述音频训练数据中的混合音频信号进行处理后输出的训练噪声修正系数相乘后得到的,所述第二干净频谱特征是根据所述人声音频信号得到的。作为一种可选的实施例,构建的所述初始模型输出的训练噪声修正系数用于体现第二干净对数频谱特征所对应的人声音频信号的对数频谱能量、与混合音频信号所对应的对数频谱能量的比值;其中,所述混合音频信号所对应的对数频谱能量为:混合音频信号中噪声音频的对数频谱能量、与混合音频信号中人声音频信号的对数频谱能量之和。作为一种可选的实施例,所述待处理的音频信号是在检测到进入会议会话界面时采集到的,所述处理后的音频信号是指所述n维对数能量频谱特征和所述m维噪声修正系数相乘后得到的信号,处理器901还执行如下操作:将所述处理后的音频信号进行反对数变换,得到会议音频信号;对所述会议音频信号进行编码,并将编码后的会议音频信号发送给所述会议会话界面上所对应的各个参会账号。作为一种可选的实施例,处理器901还执行如下操作:在检测到来自于参会账号的声音信号时,采集环境音频信号;将所述环境音频信号作为新的音频训练数据对所述噪声优化模型进行优化训练,得到优化后的噪声优化模型;记录优化后的噪声优化模型,以便于后续根据优化后的噪声优化模型对采集到的待处理的音频信号对应的对数能量频谱特征进行处理。作为一种可选的实施例,在存储的噪声优化模型集合中记录了至少两个噪声优化模型;处理器901调用噪声优化模型对所述对数能量频谱特征进行处理的具体实施例为:根据当前会议环境下所处位置的位置属性,从所述噪声优化模型集合中选取一个噪声优化模型;调用选取的噪声优化模型对所述对数能量频谱特征进行处理。作为一种可选的实施例,在提取所述待处理的音频信号的频谱特征之前,处理器901还执行如下操作:判断当前所在位置的空间类型;若所述空间类型为第一类型,则对采集到的待处理的音频信号进行编码处理,得到编码后的音频信号;若所述空间类型为第二类型,则触发执行所述提取所述待处理的音频信号的频谱特征的步骤。基于同一发明构思,本申请实施例中提供的智能设备解决问题的原理与有益效果与本申请方法实施例中信号处理方法解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述方法实施例所述的信号处理方法。本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述实施例提及的各种方法。需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,可读存储介质可以包括:闪存盘、只读存储器(read-onlymemory,rom)、随机存取器(randomaccessmemory,ram)、磁盘或光盘等。以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。当前第1页1 2 3 

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips