一种采用自然语言的分布式智能交互的实现方法及其系统与流程
本发明涉及智能交互的技术领域,尤其涉及一种采用自然语言的分布式智能交互的实现方法及其系统。
背景技术:
随着人机交互技术的不断进步,以互联网技术为代表的信息技术的发展,使得基于对话的交互技术日益受到更广泛的重视和使用。人们在互联网中获取和生活工作息息相关的大量信息,而语言是信息中最直接的一种,如何从众多的语言信息中将合适和重要的信息进行反馈显得尤为重要。人机交互作为信息时代对人类生产生活具有重大影响的基础技术,受到广泛重视。
传统的采用自然语言的智能交互策略主要有两种:基于语言学规则的方法和基于检索的方法。但是随着应用场景的不断复杂化以及用户对于交互体验要求的不断提高,基于规则匹配的方法无法实时进行。而基于检索的聊天机器人虽然可以保证回复语句的语法合理性和语句流畅性,但却受限于训练数据中内容的丰富程度,如果用户需要的回复不在对话数据库之中,对话系统则无法给出较满意的答复。
现有深度学习方法主要采用端到端的自动语音识别模型对用户语音进行识别,然后利用传统的采用自然语言的智能交互策略进行交互,但现有的自动语音识别模型却存在以下问题,一方面,ctc语音识别模型对输出单元之间作了相互独立性假设,但事实上这对上下文紧密相关的语音识别是并不合理的,另一方面,基于注意力机制的语音识别模型将不规则的输入输出进行灵活对齐,但是通常语音识别却具有严格单调对应的输入输出,因此有可能使识别结果包含删除和插入的错误。且现有语言生成模型主要采用编码器-解码器结构对输入语料进行训练,由于缺乏外部知识,该模型只能从来自不同人生产的社交语料库中学习己有的信息,而现有的解码模型总是选择概率更大的词语作为输出,即使这些词语可能存在语义错误或者前后不一致的问题。因此当前的很多端到端的语言生成模型无法提供包含个人特征且有信息量的连贯回复。
鉴于此,在对用户语音进行准确识别的同时,如何根据用户语音识别结果,结合识别结果的上下文,进行流畅且信息丰富的回复,实现智能交互,成为本领域技术人员亟待解决的问题。
技术实现要素:
本发明提供一种采用自然语言的分布式智能交互的实现方法及其系统,在对用户语音进行准确识别的同时,如何根据用户语音识别结果,结合识别结果的上下文,进行流畅且信息丰富的回复。
为实现上述目的,本发明提供的一种采用自然语言的分布式智能交互的实现方法,包括:
接收用户语音信号,并对用户语音进行预加重、加窗分帧处理;
利用基于逐级分段的vad检测方法对用户语音信号中的噪音以及静音帧进行检测;
利用wf-mfcc算法对上述经过预处理的用户语音信号进行特征提取,得到用户语音信号的wf-mfcc特征;
利用结合权重和self-attention机制的lstm模型对wf-mfcc特征进行提取,得到用户语义特征;
利用基于信息权重的编码-解码过程对用户语义特征进行编码、解码处理;
利用基于用户信息的注意力调整过程实现自然语言的交互式生成。
可选地,所述对用户语音进行预加重、加窗分帧处理,包括:
使用数字滤波器对用户语音信号的频率进行预加重,其公式为:
h(z)=1-μz-1
其中:
z为声音频率;
μ为数字滤波器参数,本发明取为0.9375;
对所述用户语音信号进行分帧处理,通过将用户语音信号分段为每4毫秒长的帧,同时使相邻帧之间重叠约0-0.5倍帧长,防止了信号丢失;
对语音信号进行加窗处理,使帧信号的信号平滑降低到零,相当于在帧信号两端增加了坡度,平缓而不突兀,本发明所选窗函数为汉明窗的窗函数:
其中:
n为窗长;
n为用户语音信号。
可选地,所述基于逐级分段的vad检测方法为:
先将信号分解到高频和低频空间,再将低频空间a1(n)分解到高频和低频空间,然后继续分解低频空间a2(n),其中用b1(n)~b4(n)以及a4(n)五个子带表征原信号中所有的频率信号,所述逐级分段处理的流程为:
其中:
ai(n),bi(n)分别表示不同的频域空间。
根据求取小波子带系数能量的方法判断语音段是否为静音,所述求取小波子带系数能量公式为:
其中:
n(m)为小波子带中所含有的小波系数的数量;
m为小波子带的个数;
对子带的能量均值以及方差进行计算:
每一个语音帧信号特征矢量,由五个子带的平均能量以及方差构成,因此每一个语音帧信号的特征矢量为:
yn=[e1,e2,e3,e4,e5,σ2]t
所述特征矢量由六个特征量所组成,可以看出语音信号在时域和频域上的能量分部,通过能量分部可以看出语音帧的信号特点,因此本发明设置阈值为ω,其中ω的计算公式为:
ω=2×σ2
当ω<σ2时为无用帧,当σ2<ω<1.2σ2时存在噪音的语音帧,当1.2σ2<ω<1.5σ2时为静音帧。
可选地,所述利用wf-mfcc算法对上述经过预处理的用户语音信号进行特征提取,包括:
1)对经预处理的用户语音信号以帧为单位进行小波分解,得到不同频段的小波系数wt,所述小波分解的计算公式为:
其中:
a为小波分解的尺度;
τ为小波分解的平移量;
f为用户语音信号的频率;
ω(n)为加窗后的用户语音信号;
根据系数所属的频段将各个排序好的频谱进行重组,最后合成了一个完整的频谱;
2)对不同频段的小波系数,继续采用分层快速傅里叶变化,也就是不同频段分别做快速傅里叶变换,所述快速傅里叶变换的过程为:
其中:
n为快速傅里叶变换的点数;
a为小波分解的尺度;
3)经离散余弦变换得到wf-mfcc特征,所述离散余弦变换的过程为:
n=1,2,...,l,l指mfcc系数阶数,本发明取为12;
a为小波变换尺度的总数。
可选地,所述利用结合权重和self-attention机制的lstm模型对wf-mfcc特征进行提取,包括:
所述lstm模型将每一个中间节点的结果都进行输出,由于本发明将用户语音信号以帧为单位进行小波分解,因此所得wf-mfcc特征为n个语音帧wf-mfcc特征的组合,若用户语音信号被分为t帧,lstm的神经元个数为n,则经过本发明所述模型得到的输出结果为:
其中:
hi为输入的帧序列x={x1,x2,...,xt}通过lstm后得到的每帧的学习结果;由于每一帧的维度为神经元的个数,因此h的形状为n*t;
self-attention层将整个h作为层输入,a作为attention的编码输出,其计算公式为:
a=softmax(g(htw1)w2)
其中:
w1为形如n*a的矩阵,a为小波分解的尺度;
w2为形如a*dr的矩阵,dr为注意力机制中的参数;
g(·)为relu激活函数;
最终输入到下一层作为语音的embedding的向量,是通过attention学习到的权重值与输入的h相乘得到的结果计算出,其计算公式为:
m=a×h
其中:
a为通过attention学习到的权重值;
lstm模型的最终输出即为用户语义特征。
可选地,所述基于信息权重的编码-解码过程为:
在编码的第i步,使用动态计算信息权重的方式生成基于信息权重的上下文矩阵ci,其计算过程如下:
其中:
t为用户语音信号被分为的帧数;
score(si,hi)为第i步解码器的输出;
si,hi分别为解码层和编码层的隐状态,当i=0,h0为用户语义特征;
ai,j为第i步每个编码层隐状态的权重,表示哪个隐状态对上下文向量的贡献更多。
可选地,所述基于用户信息的注意力调整过程为:
将m维的用户信息得分矩阵it通过补零的方式扩充到|v|+m维的矩阵ot:
ot=[score(st,d1),...score(st,dk),score(si,h1),...score(si,hi)]
其中:
k为用户信息库中key的个数;
将合并后的分数经过softmax操作得到归一化的概率分布,从其中选择出概率最大的词或者key作为输出,如果输出是key,则从表中查找对应的用户信息进行输出。可由下式得到模型的输出yt:
yt=softmax(ot)
利用重排序方法计算模型输出句子的得分函数,选取所述得分较高的句子作为基于自然语言的交互式输出,所述重排序方法的计算公式为:
其中:
logp(y|x)为给定用户语义特征x生成句子y的对数概率;
|l|为生成句子的长度;
logp(x|y)为将句子y输入另一个标准的编码-解码模型,输出用户语义特征x的概率。
此外,为实现上述目的,本发明还提供一种采用自然语言的分布式智能交互系统,所述系统包括:
语音传感器装置,用于接收用户的语音信号;
存储处理器,用于对接收到的语音信号进行存储,并进行预加重、加窗分帧以及基于逐级分段的vad检测处理;
特征提取器,用于提取语音信号中的wf-mfcc特征以及用户语义特征;
语言生成装置,用于基于信息权重的编码-解码过程以及基于用户信息的注意力调整过程,分布式进行自然语言的生成。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有特征提取程序指令,所述特征提取指令可被一个或者多个处理器执行,以实现如上所述的采用自然语言的分布式智能交互的实现方法的步骤。
相对于现有技术,本发明提出一种采用自然语言的分布式智能交互的实现方法及其系统,该技术具有以下优势:
首先,现有对语音端点进行检测的方法主要为双门限vad检测方法,该方法利用了短时能量和短时过零率的两个门限,用门限来确定语音信号的起点和终点,在开始进行端点检测之前,首先为短时能量和短时过零率确定两个门限,其中一个高另一个低,门限低的数值比较小,容易对信号的变化产生敏感,门限高的数值比较大,信号必须超过一定强度后门限才会被超过,由于低门限可能不是语音的起点,噪声也能导致门限较低,当用户语音信号的信噪比较低时,无法准确检测到噪音对用户语音信号的干扰。
因此本发明提出一种结合逐级分段的端点检测方法,首先通过对用户语音x(n)进行逐级分段处理,先将信号分解到高频和低频空间,再将低频空间a1(n)分解到高频b2(n)和低频空间,然后继续分解低频空间a2(n),其中用b1(n)~b4(n)以及a4(n)五个子带表征原信号中所有的频率信号,由于语音信号的小波子带内的平均能量具有不均匀分布的特性,它在低频子带中语音信号的能量非常大,而在高频子带中语音信号的能量又非常的小,因此本发明提出一种小波子带系数能量公式对上述五个子带的能量进行计算,从而得到每个语音帧的特征矢量yn=[e1,e2,e3,e4,e5,σ2]t,所述特征矢量由六个特征量所组成,可以看出语音信号在时域和频域上的能量分部,通过能量分部可以看出语音帧的信号特点,因此本发明设置阈值为ω,其中ω=2×σ2,当ω<σ2时为无用帧,当σ2<ω<1.2σ2时存在噪音的语音帧,当1.2σ2<ω<1.5σ2时为静音帧,相较于现有技术利用短时能量设定门限,本发明对用户语音信号进行逐步分解处理,对每一步处理得到的结果进行能量分部的计算,且基于能量变化情况设定语音帧阈值,当语音帧能量变化的方差达到一定阈值时,则认为该语音帧中存在噪音,从而避免了由于短时能量存在误差导致的语音帧识别错误,能够更为准确识别出用户语音中的噪音语音帧,并通过对识别出的噪音语音帧进行删除处理,减少了噪音信号对用户语音信号的干扰。
由于mfcc特征参数是源自mel,mel是一种特殊特征参数,因为人耳在不同条件下的感知能力不同,尤其是在频率大小不同的情况下,它原理上借鉴了人耳听声的特性,它与频率在高频段呈现的是一种对数关系,也就是说加快的频率造成了影响,会让人耳感知能力也就下降,超过一定频率人就听不见语音了,使得高频mfcc特征会被忽略;因此本发明提出一种wf-mfcc算法对用户语音信号的特征进行提取,首先通过对用户语音特征进行小波分解,相较于mfcc特征提取过程中的傅里叶变换处理,将傅里叶变换中无限长的三角函数换成了有限长的会衰减的小波基,
附图说明
图1为本发明一实施例提供的一种采用自然语言的分布式智能交互的实现方法的流程示意图;
图2为本发明一实施例提供的采用自然语言的分布式智能交互系统的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在对用户语音进行准确识别的同时,根据用户语音识别结果,结合识别结果的上下文,进行流畅且信息丰富的回复,实现智能交互。参照图1所示,为本发明一实施例提供的采用自然语言的分布式智能交互的实现方法的流程示意图。
在本实施例中,采用自然语言的分布式智能交互的实现方法包括:
s1、接收用户语音信号,并对用户语音进行预加重、加窗分帧以及基于逐级分段的vad检测。
首先,本发明接收用户语音信号,并对其进行相应的语音信号预处理操作,所述预处理操作包括对用户语音信号的预加重、加窗分帧以及基于逐级分段的vad检测方法;
所述预加重即提高用户语音信号的高频部分,在低频到高频的整个频带中,使得信号频谱变得平坦,信噪比基本一致,以便于后续的一些处理,同时,还能通过增加语音部分能量,抑制随机噪声和直流漂移的影响。在本发明一个实施例中,本发明选择使用数字滤波器对用户语音信号的频率进行预加重,其公式为:
h(z)=1-μz-1
其中:
z为声音频率;
μ为数字滤波器参数,本发明取为0.9375。
进一步地,本发明根据语音信号在一个非常小的时间范围内,其特性基本保持不变即相对稳定的特点,对所述用户语音信号进行分帧处理,通过将用户语音信号分段为每4毫秒长的帧,同时使相邻帧之间重叠约0-0.5倍帧长,防止了信号丢失;同时在对语音信号分帧后,语音信号会在信号连续处突然截止(帧结束),称之为音频帧的截断效应。所以本发明对语音信号进行加窗处理,使帧信号的信号平滑降低到零,相当于在帧信号两端增加了坡度,平缓而不突兀,在本发明实施例中,所选窗函数为汉明窗的窗函数:
其中:
n为窗长;
n为用户语音信号。
进一步地,本发明对用户语音信号x(n)进行逐级分段处理,先将信号分解到高频和低频空间,再将低频空间a1(n)分解到高频和低频空间,然后继续分解低频空间a2(n),其中用b1(n)~b4(n)以及a4(n)五个子带表征原信号中所有的频率信号,所述逐级分段处理的流程为:
其中:
ai(n),bi(n)分别表示不同的频域空间。
在分析语音信号的频域特性时,本发明得到语音信号的小波子带内的平均能量是不均匀分布的特性,它在低频子带中语音信号的能量非常大,而在高频子带中语音信号的能量又非常的小,基于此特性本发明根据求取小波子带系数能量的方法判断语音段是否为静音,所述求取小波子带系数能量公式为:
其中:
n(m)为小波子带中所含有的小波系数的数量;
m为小波子带的个数。
进一步地,本发明对子带的能量均值以及方差进行计算:
每一个语音帧信号特征矢量,由五个子带的平均能量以及方差构成,因此每一个语音帧信号的特征矢量为:
yn=[e1,e2,e3,e4,e5,σ2]t
所述特征矢量由六个特征量所组成,可以看出语音信号在时域和频域上的能量分部,通过能量分部可以看出语音帧的信号特点,因此本发明设置阈值为ω,其中ω的计算公式为:
ω=2×σ2
当ω<σ2时为无用帧,当σ2<ω<1.2σ2时存在噪音的语音帧,当1.2σ2<ω<1.5σ2时为静音帧。
s2、利用wf-mfcc算法对上述经过预处理的用户语音信号进行特征提取,得到用户语音信号的wf-mfcc特征。
进一步地,由于mfcc特征参数是源自mel,mel是一种特殊特征参数,因为人耳在不同条件下的感知能力不同,尤其是在频率大小不同的情况下,它原理上借鉴了人耳听声的特性,它与频率在高频段呈现的是一种对数关系,也就是说加快的频率造成了影响,会让人耳感知能力也就下降,超过一定频率人就听不见语音了,使得高频mfcc特征会被忽略。
因此本发明提出一种wf-mfcc算法对用户语音信号的特征进行提取,所述wf-mfcc特征提取的过程为:
1)对经预处理的用户语音信号以帧为单位进行小波分解,得到不同频段的小波系数wt,所述小波分解的计算公式为:
其中:
a为小波分解的尺度;
τ为小波分解的平移量;
f为用户语音信号的频率;
ω(n)为加窗后的用户语音信号;
根据系数所属的频段将各个排序好的频谱进行重组,最后合成了一个完整的频谱;
2)对不同频段的小波系数,继续采用分层快速傅里叶变化,也就是不同频段分别做快速傅里叶变换,所述快速傅里叶变换的过程为:
其中:
n为快速傅里叶变换的点数;
a为小波分解的尺度;
3)经离散余弦变换得到wf-mfcc特征,所述离散余弦变换的过程为:
n=1,2,...,l,l指mfcc系数阶数,本发明取为12;
a为小波变换尺度的总数。
s3、利用结合权重和self-attention机制的lstm模型对wf-mfcc特征进行提取,得到用户语义特征。
进一步地,本发明将所述wf-mfcc特征输入到lstm模型中,相较于传统lstm模型,本发明所述lstm模型将每一个中间节点的结果都进行输出,由于本发明将用户语音信号以帧为单位进行小波分解,因此所得wf-mfcc特征为n个语音帧wf-mfcc特征的组合,若用户语音信号被分为t帧,lstm的神经元个数为n,则经过本发明所述模型得到的输出结果为:
其中:
hi为输入的帧序列x={x1,x2,…,xt}通过lstm后得到的每帧的学习结果;由于每一帧的维度为神经元的个数,因此h的形状为n*t;
self-attention层将整个h作为层输入,a作为attention的编码输出,其计算公式为:
a=softmax(g(htw1)w2)
其中:
w1为形如n*a的矩阵,a为小波分解的尺度;
w2为形如a*dr的矩阵,dr为注意力机制中的参数;
g(·)为relu激活函数;
最终输入到下一层作为语音的embedding的向量,是通过attention学习到的权重值与输入的h相乘得到的结果计算出,其计算公式为:
m=a×h
lstm模型的最终输出即为用户语义特征,相比较于仅仅使用最后一节点的输出作为整个句子的embedding,self-attention的方法不仅加上了所有节点的输出,能够获得整段语音的信息,同时还赋予了不同帧不同的权重,使得有效帧占有更高权重,更加有利于用户语义特征的提取。
s4、将基于交互的自然语言生成过程分为基于信息权重的编码-解码过程以及基于用户信息的注意力调整过程,分布式进行自然语言的生成,实现自然语言的交互式生成。
进一步地,对于所述用户语义特征,本发明将基于交互的自然语言生成过程分为基于信息权重的编码-解码过程以及基于用户信息的注意力调整过程,两个过程相互独立,相较于传统编码-解码过程,本发明在编码的第i步,使用动态计算信息权重的方式生成基于信息权重的上下文矩阵ci,其计算过程如下:
其中:
t为用户语音信号被分为的帧数;
score(si,hi)为第i步解码器的输出;
si,hi分别为解码层和编码层的隐状态,当i=0,h0为用户语义特征;
ai,j为第i步每个编码层隐状态的权重,表示哪个隐状态对上下文向量的贡献更多;
进一步地,本文使用了4个常用的用户背景信息,例如姓名、年龄、地址、工作内容等,将这些存储为类似数据库的键-值对形式,每种用户信息类别作为key,预先设定的具体值作为value,利用上述编码-解码步骤计算计算用户语义特征和keys之间的相关度,选择相关性最高的key对应的值作为回复信息。
由于模型仅仅能检索到要回复的信息还不够,还需要知道这些用户信息应该处于输出回复的什么位置。为了解决这个问题,本发明把编码-解码过程得到的相关性分数和decoder层得到的所有词的得分整合到一起,因此本发明将m维的用户信息得分矩阵it通过补零的方式扩充到|v|+m维的矩阵ot:
ot=[score(st,d1),...score(st,dk),score(si,h1),...score(si,hi)]
其中:
k为用户信息库中key的个数。
将合并后的分数经过softmax操作得到归一化的概率分布,从其中选择出概率最大的词或者key作为输出,如果输出是key,则从表中查找对应的用户信息进行输出。可由下式得到模型的输出yt:
yt=softmax(ot)
利用重排序方法计算模型输出句子的得分函数,选取所述得分较高的句子作为基于自然语言的交互式输出,所述重排序方法的计算公式为:
其中:
logp(y|x)为给定用户语义特征x生成句子y的对数概率;
|l|为生成句子的长度;
logp(x|y)为将句子y输入另一个标准的编码-解码模型,输出用户语义特征x的概率。
下面通过一个仿真实验来说明本发明的具体实施方式,并对发明的实现方法进行测试。本发明所述仿真实验的硬件环境为中央处理器(centerprocessingunit,cpu):intel(r)xeon(r)e5-2687v3,主频为:2.5ghz,内存为128gb;图像处理器(graphicprocessingunit,gpu)cuda;四路nvidiageforcegtc1080ti。对比算法为采用greedysearch的标准encoder-decoder模型,采用beamsearch的encoder-decoder模型,加入个人信息分类器的encoder-decoder模型。
根据所述仿真实验结果,采用greedysearch的标准encoder-decoder模型的回复准确度为43.5%,采用beamsearch的encoder-decoder模型的回复准确度为22.1%,加入个人信息分类器的encoder-decoder模型的回复准确度为59.7%,本发明所述算法的回复准确度为74.2%;同时本发明所述采用自然语言的分布式智能交互的实现方法相较于传统机器学习计算方法能提高交互式自然语言生成的准确度。
发明还提供一种采用自然语言的分布式智能交互系统。参照图2所示,为本发明一实施例提供的采用自然语言的分布式智能交互系统的内部结构示意图。
在本实施例中,所述采用自然语言的分布式智能交互系统1至少包括语音传感器装置11、存储处理器12、特征提取器13、语言生成装置14,通信总线15,以及网络接口16。
其中,语音传感器装置11可以是pc(personalcomputer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
存储处理器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是采用自然语言的分布式智能交互系统1的内部存储单元,例如该采用自然语言的分布式智能交互系统1的硬盘。存储器12在另一些实施例中也可以是采用自然语言的分布式智能交互系统1的外部存储设备,例如采用自然语言的分布式智能交互系统1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器12还可以既包括采用自然语言的分布式智能交互系统1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于采用自然语言的分布式智能交互系统1的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
特征提取器13在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器12中存储的程序代码或处理数据,例如执行特征提取程序指令等。
语言生成装置14用于基于信息权重的编码-解码过程以及基于用户信息的注意力调整过程,分布式进行自然语言的生成。
通信总线15用于实现这些组件之间的连接通信。
网络接口16可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该系统1与其他电子设备之间建立通信连接。
可选地,该系统1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在采用自然语言的分布式智能交互系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-16以及采用自然语言的分布式智能交互系统1,本领域技术人员可以理解的是,图1示出的结构并不构成对采用自然语言的分布式智能交互系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储处理器12中存储有特征提取程序指令;特征提取器13执行存储处理器12中存储的特征提取程序指令的步骤,与采用自然语言的分布式智能交互的实现方法相同,在此不作类述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有特征提取程序指令,所述特征提取程序指令可被一个或多个处理器执行,以实现如下操作:
接收用户语音信号,并对用户语音进行预加重、加窗分帧处理;
利用基于逐级分段的vad检测方法对用户语音信号中的噪音以及静音帧进行检测;
利用wf-mfcc算法对上述经过预处理的用户语音信号进行特征提取,得到用户语音信号的wf-mfcc特征;
利用结合权重和self-attention机制的lstm模型对wf-mfcc特征进行提取,得到用户语义特征;
利用基于信息权重的编码-解码过程对用户语义特征进行编码、解码处理;
利用基于用户信息的注意力调整过程实现自然语言的交互式生成。
本发明计算机可读存储介质具体实施方式与上述采用自然语言的分布式智能交互的实时方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除