一种语音识别方法及系统与流程
本发明涉及语音识别的技术领域,尤其涉及一种语音识别方法及系统。
背景技术:
近年来,随着移动互联网的兴起和智能手机等移动终端的普日益及,自然人机交互技术受到广泛关注并发展迅速。语音识别技术是自然人机交互的重要桥梁,能够大力地促进人工智能的发展。但是,现实生活中,不管是机器还是人类接受到的语音信号都是通过空气等媒介才能间接地传递过来,因此,这些声波信号极易受到各种噪声干扰以及不同环境存在的回声、混响等影响导致失真,甚至在更复杂的声学场景下,还会把目标语音完全掩盖,这就对语音识别系统在真实场景中的应用提出了巨大的挑战。
传统声学模型训练时,为了得到每个音素对应的发音模型,必须准确得到每个音素对应的特征,亦即执行所谓的对齐操作,如在gmm-hmm模型中,为了使对齐准确,往往需要根据每次训练之后,根据损失值进行对齐多次,且在噪声环境下对齐操作极易受噪声的干扰,这种对齐错位将导致模型出现插入错误与替换错误。
同时为提升噪声环境下语音识别系统的鲁棒性,现有技术大多采用基于子空间的语音增强算法和谱减法进行待识别语音的增强处理,其中,基于子空间的语音增强算法利用线性代数中的基础理论,将带有噪声的语音信号分解为两个独立的子向量空间,分别由噪声和干净语音作为主导,然后只保留干净语音信号所在的分量,来还原期望的干净语音信号,但是子空间法的问题在于矩阵分解的计算量大且结构繁杂,并不利于实际工程应用;谱减法具有算法结构简单、计算复杂度低的优点,因此在当前语音识别工程应用中最为常用,但是,谱减法在计算时会采用半波整流的方法保证信号幅度谱不为负数,这导致了信号在频谱上某些位置会出现毛刺,在听感上就表现为刺耳的“音乐噪声”,带来难以抑制的失真问题。
鉴于此,如何有效去除干扰说话人以及环境噪音信息,保留目标说话人的语音信息,并对目标说话人的语音信息进行识别,成为本领域技术人员亟待解决的问题。
技术实现要素:
本发明提供一种语音识别方法,能够有效去除干扰说话人以及环境噪音信息,保留目标说话人的语音信息,并对目标说话人的语音信息进行识别。
为实现上述目的,本发明提供的一种语音识别方法,包括:
获取待识别语音信号,并计算待识别语音信号的能量密度谱;
将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图;
利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除;
利用盲源分离算法估计待识别语音中目标语音信号的mask值;
利用基于mask值的多通道增强算法对目标语音信号进行增强;
利用预训练的dfsmn-ctc模型对语音信号进行识别,得到语音识别结果。
可选地,所述计算待识别语音信号的能量密度谱,包括:
1)对待识别语音信号进行短时傅里叶变换:
其中:
x(n)为待识别语音的离散时域采样信号,n=0,1,...,n-1,n为时域采样点信号,n为语音信号的长度;
xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;
m为帧同步的时间信号,m=0,1,...,m-1,m为帧长;
ω为窗序列;
2)采用离散傅里叶变换dft得:
其中:
0≤k≤n-1,k为待识别语音的离散时域采样信号的幅度值;
n为时域采样点信号;
x(n,k)是待识别语音的离散时域采样信号的短时幅度谱估计;
xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;
m为帧同步信号,m=0,1,...,m-1,m为帧长;
n为语音信号的长度;
3)计算时间m处的频谱能量密度函数:
p(n,k)=|x(n,k)|2=(x(n,k))×(conj(x(n,k)))
其中:
n为时域采样点信号;
k为待识别语音的离散时域采样信号的幅度值;
x(n,k)为待识别语音的离散时域采样信号的短时幅度谱估计;
conj(·)函数用于计算复数的共轭值;
p(n,k)为信号x(n)的短时自相关函数的傅里叶变换,它是二维的非负实值函数;
用时间n作为横坐标,k作为纵坐标,将p(n,k)的值表示为灰度级所构成的二维图像就是能量密度谱;通过变换101gp(n,k)能得到语谱图的db表示。
可选地,所述将能量密度谱进行伪彩色映射,包括:
1)将p(n,k)的最大值pmax(n,k)映射为归一化1电平,将最小值pmin(n,k)映射为归一化0电平;
2)将p(n,k)线性映射为0~1间的电平li,计算机监视器根据li的值将能量密度谱以伪彩色模式显示出来;
3)选择基准电平值base,将小于base的值限定在此基准电平上,将大于base的值线性映射到0~1的归一化彩色值,则彩色矩阵值l={l(n,k)}的数学表示为:
其中:
n为时域采样点信号;
k为待识别语音的离散时域采样信号的幅度值;
base为基准电平值,本发明将其设为0;
p(n,k)为信号x(n)的短时自相关函数的傅里叶变换,它是二维的非负实值函数。
可选地,所述自适应的时域滤波器为:
所述时域滤波器的结构为频域分块自适应滤波器的结构,时域滤波器的系数向量可表示为w(n)=[w0(n),...,wm-1(n)]t,时域滤波器的误差向量为e(n)=[e(n),...e(n+m-1)]t,时域滤波器的滤波器系数w(k)和误差信号向量e(k)分别为:
w(k)=[w0(k),...,w2m-1(k)]t=f[wt(km)0...0]
e(k)=f[0…0e(km)]t
其中:
f是2m×2m的dft矩阵;
k为待识别语音的离散时域采样信号;
m为待识别语音信号的帧长;
wi为时域滤波器的系数向量;
e(·)为时域滤波器的误差向量;
所述时域滤波器的频域自适应系数迭代表达式为:
w(k+1)=w(k)+2μ(k)∧(k)-1x(k)e(k)
其中:
w(k)为时域滤波器的滤波器系数;
k为待识别语音的离散时域采样信号;
e(k)为误差信号向量;
μ(k)=diag{μ0(k)...μ2m-1(k)}为归一化步长矩阵;
∧(k)=diagdiag{p0(k)...p2m-1(k)}为输入信号功率矩阵;
x(k)为输入的语音信号矩阵。
可选地,所述利用盲源分离算法估计语音信号的mask值,包括:
1)计算目标语音信号的位置特征:
其中:
xt,f为时频域信号;
t为时间帧;
f为语音信号频率;
2)采用复角中心混合模型对目标语音分离的方向特征进行建模,所述复角中心混合模型的概率密度函数为:
其中:
kf,n为时不变的混合权值;
a(dt,f;bf,n)为一个复角中心高斯分布;
b为正定的厄密特矩阵;
n为噪音信号;
t为时间帧;
f为语音信号频率;
m为语音信号帧长;
3)通过最大化em算法的对数似然函数的方法估计参数θf:
其中:
t为总的语音帧数;
a(dt,f;bf,n)为一个复角中心高斯分布;
b为正定的厄密特矩阵;
并估计得到后验概率rt,f,n:
其中:
kf,n为时不变的混合权值;
b为正定的厄密特矩阵;
n为噪音信号;
t为时间帧;
m为语音信号帧长;
rt,f,n为所求目标语音信号的mask值。
可选地,所述利用基于mask值的多通道增强算法进行语音信号增强,包括:
1)计算每个声源的协方差矩阵:
其中:
h为共轭装置;
n为第n个声源;
hf,n表示第n个声源到语音获取装置的导向矢量;
ut,f为噪声;
rt,f,n为语音信号的mask值
ωf,n为空间滤波器系数;
2)计算噪声的空间相关矩阵
其中:
yf,t为声源的协方差矩阵;
3)利用协方差矩阵的特征值来估计目标声源的导向矢量,其中第n个带噪语音的协方差矩阵计算公式为:
因此目标说话人的空间相关矩阵为:
根据所得目标说话人的空间相关矩阵,本发明根据不同的噪音形式,选取不同的方式对该空间矩阵中的语音信号进行增强处理;
针对非平稳噪声,本发明对每个单通道信号采用盲源分离算法,使用复角中心混合模型估计语音中各个源信号的mask值,从而得到目标声源的导向矢量,最终得到空间滤波器系数,加强目标方向信号,抑制噪声干扰方向,使得噪声得到有效的抑制;而对于不同人声的重叠干扰,本发明使用不同的盲源分离估计准则得到目标信号的新mask值与经过空间滤波器增强后的单通道信号相乘。
可选地,所述dfsmn-ctc模型为:
所述dfsmn-ctc模型由若干个dfsmn单元以及一个ctc层复合而成,在dfsmn单元节点后接2个完全连接的relu层,顶部是一个线性投影层,即dfsmn-ctc模型由五个部分组成:relu层、线性投影层、ctc层、记忆块和底层的跳过连接,只有第一层没有从底层跳过连接的组件,记忆块之间的连接称为跳转连接;
所述dfsmn-ctc模型的语音识别流程为:
其中:
t代表模型所处的时刻;
n代表记忆块的编号;
wn为第n个记忆块的权重;
此外,为实现上述目的,本发明还提供一种语音识别系统,所述系统包括:
语音接收装置,用于接收待识别的语音信号;
语音处理器,用于计算待识别语音信号的能量密度谱,同时将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图,并利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除,以及利用基于mask值的多通道增强算法对目标语音信号进行增强;
语音识别装置,用于利用预训练的dfsmn-ctc模型对语音信号进行识别。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音识别指令,所述语音识别指令可被一个或者多个处理器执行,以实现如上所述的语音识别的实现方法的步骤。
相对于现有技术,本发明提出一种语音识别方法,该技术具有以下优势:
首先,由于现有技术主要采用固定参数的滤波器进行回音消除,该技术具有较大的局限性,如需要提前准确地获得系统的冲激响应,且该冲激响应具有稳定性,此时可以将参考信号x(n)与该预知的冲激响应进行卷积,来估计所采集到的回声信号,进而实现回声消除处理,由于设备所使用的环境、位置的不确定性,实际应用中很难保证传播路径是恒定不变的,因此该方法存在较大的不确定性。因此本发明提出一种自适应的时域滤波器来处理声学回声,从而无须提前确定系统的冲激响应,所述时域滤波器的结构为频域分块自适应滤波器的结构,通过对语音信号中的每个频域进行分块,精确控制到滤波器收敛过程中的每个频带,从而实现整体的最优滤波,同时在进行回音消除过程中,本发明所提出的自适应时域滤波器能实时根据自适应迭代公式,进行滤波器系数的更新迭代,因此本发明所述自适应的时域滤波器无需提前设定滤波器系数,能够根据所输入的语音信号得到当前最优的滤波器系数来处理声学回声。
针对复杂声学场景下,同时存在不同说话人同时说话的干扰以及各种非平稳噪声的影响,现有技术大多采用基于子空间的语音增强算法和谱减法进行待识别语音的增强处理,其中,基于子空间的语音增强算法利用线性代数中的基础理论,将带有噪声的语音信号分解为两个独立的子向量空间,分别由噪声和干净语音作为主导,然后只保留干净语音信号所在的分量,来还原期望的干净语音信号,但是子空间法的问题在于矩阵分解的计算量大且结构繁杂,并不利于实际工程应用;谱减法具有算法结构简单、计算复杂度低的优点,因此在当前语音识别工程应用中最为常用,但是,谱减法在计算时会采用半波整流的方法保证信号幅度谱不为负数,这导致了信号在频谱上某些位置会出现毛刺,在听感上就表现为刺耳的“音乐噪声”,带来难以抑制的失真问题。因此本发明分别针对噪声与人声重叠干扰进行抑制处理,针对非平稳噪声,对每个单通道信号采用盲源分离算法,使用复角中心混合模型估计语音中各个源信号的mask值(用于降噪),从而得到目标声源的导向矢量,最终得到空间滤波器系数,加强目标方向信号,抑制噪声干扰方向,使得噪声得到有效的抑制;对于不同人声的重叠干扰,使用不同的盲源分离估计准则得到目标信号的新mask值与经过空间滤波器增强后的单通道信号相乘,有效去除干扰说话人信息,很好地保留了目标说话人信息,提高了信噪比。
传统声学模型训练时,为了得到每个音素对应的发音模型,必须准确得到每个音素对应的特征,亦即执行所谓的对齐操作,如在gmm-hmm模型中,为了使对齐准确,往往需要根据每次训练之后,根据损失值进行对齐多次,且在噪声环境下对齐操作极易受噪声的干扰,这种对齐错位将导致模型出现插入错误与替换错误。因此本发明构建了一种dfsmn-ctc模型,其中ctc层引入了额外的“空白”,以应对文本中可能出现的相邻相同字符,使得输入序列必须比期望的输出序列要长,因此ctc层不要求声音对齐,在忽视“blank”的前提下,ctc层会将所有识别出来的重复字符合并为一个字符,同时本发明所述模型在添加“blank”之后,就会把期望中的重复字符隔开,解决包含重复字符的识别问题。
附图说明
图1为本发明一实施例提供的一种语音识别方法的流程示意图;
图2为本发明一实施例提供的一种语音识别系统的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
通过计算待识别语音信号的能量密度谱,将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图,并利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除以及利用盲源分离算法估计待识别语音中目标语音信号的mask值,从而利用基于mask值的多通道增强算法对目标语音信号进行增强,同时利用预训练的dfsmn-ctc模型对语音信号进行识别,得到语音识别结果,实现了语音的识别。参照图1所示,为本发明一实施例提供的语音识别方法示意图。
在本实施例中,语音识别方法包括:
s1、获取待识别语音信号,并计算待识别语音信号的能量密度谱,同时将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图。
首先,本发明获取待识别语音信号,并计算待识别语音信号的能量密度谱,所述能量密度谱的计算过程为:
1)对待识别语音信号进行短时傅里叶变换:
其中:
x(n)为待识别语音的离散时域采样信号,n=0,1,...,n-1,n为时域采样点信号,n为语音信号的长度;
xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;
m为帧同步的时间信号,m=0,1,...,m-1,m为帧长;
ω为窗序列;
2)采用离散傅里叶变换dft得:
其中:
0≤k≤n-1,k为待识别语音的离散时域采样信号的幅度值;
x(n,k)为待识别语音的离散时域采样信号的短时幅度谱估计;
xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;
m为帧同步信号,m=0,1,...,m-1,m为帧长;
n为语音信号的长度;
3)计算时间m处的频谱能量密度函数:
p(n,k)=|x(n,k)|2=(x(n,k))×(conj(x(n,k)))
其中:
x(n,k)为待识别语音的离散时域采样信号的短时幅度谱估计;
n为时域采样点信号;
k为待识别语音的离散时域采样信号的幅度值;
conj(·)函数用于计算复数的共轭值;
p(n,k)为信号x(n)的短时自相关函数的傅里叶变换,它是二维的非负实值函数;
用时间n作为横坐标,k作为纵坐标,将p(n,k)的值表示为灰度级所构成的二维图像就是能量密度谱;通过变换101gp(n,k)能得到语谱图的db表示。
进一步地,根据所得待识别语音的能量密度谱,本发明将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图,所述伪彩色映射的映射过程为:
1)将p(n,k)的最大值pmax(n,k)映射为归一化1电平,将最小值pmin(n,k)映射为归一化0电平;
2)将p(n,k)线性映射为0~1间的电平li,计算机监视器根据li的值将能量密度谱以伪彩色模式显示出来;
3)选择基准电平值base,将小于base的值限定在此基准电平上,将大于base的值线性映射到0~1的归一化彩色值,则彩色矩阵值l={l(n,k)}的数学表示为:
其中:
base为基准电平值,本发明将其设为0;
n为时域采样点信号;
k为待识别语音的离散时域采样信号的幅度值;
p(n,k)为信号x(n)的短时自相关函数的傅里叶变换,它是二维的非负实值函数。
s2、利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除。
进一步地,根据上述所得彩色语谱图,本发明利用声学回声消除算法对彩色语谱图中的语音信号进行回声消除处理,从而输出经回声消除的输出信号,所述声学回声消除算法的输出信号e(n)为:
e(n)=x(n)-y(n)
其中:
d(n)为彩色语谱图中的语音信号;
x(n)为所获取的待识别语音信号;
h(n)为滤波器,本发明采用了一种自适应的时域滤波器;
由于现有技术主要采用固定参数的滤波器进行回音消除,该技术具有较大的局限性,如需要提前准确地获得系统的冲激响应,且该冲激响应具有稳定性,此时可以将参考信号x(n)与该预知的冲激响应进行卷积,来估计所采集到的回声信号,进而实现回声消除处理,由于设备所使用的环境、位置的不确定性,实际应用中很难保证传播路径是恒定不变的,因此该方法存在较大的不确定性。
因此本发明提出一种自适应的时域滤波器来处理声学回声,所述时域滤波器的结构为频域分块自适应滤波器的结构,时域滤波器的系数向量可表示为w(n)=[w0(n),...,wm-1(n)]t,时域滤波器的误差向量为e(n)=[e(n),...e(n+m-1)]t,时域滤波器的滤波器系数w(k)和误差信号向量e(k)分别为:
w(k)=[w0(k),...,w2m-1(k)]t=f[wt(km)0…0]
e(k)=f[0…0e(km)]t
其中:
f是2m×2m的dft矩阵;
k为待识别语音的离散时域采样信号;
m为待识别语音信号的帧长;
wi为时域滤波器的系数向量;
e(·)为时域滤波器的误差向量;
因此本发明所述时域滤波器的频域自适应系数迭代表达式为:
w(k+1)=w(k)+2μ(k)∧(k)-1x(k)e(k)
其中:
w(k)为时域滤波器的滤波器系数;
k为待识别语音的离散时域采样信号;
e(k)为误差信号向量;
μ(k)=diag{μ0(k)...μ2m-1(k)}为归一化步长矩阵;
∧(k)=diagdiag{p0(k)...p2m-1(k)}为输入信号功率矩阵;
x(k)为输入的语音信号矩阵。
s3、采用盲源分离算法估计待识别语音中目标语音信号的mask值,并利用基于mask值的多通道增强算法对目标语音信号进行增强。
进一步地,本发明采用盲源分离算法估计待识别语音中目标语音信号的mask值,从而确定所述待识别语音信号中的目标语音信号,所述目标语音信号的mask值的估计过程为:
1)计算目标语音信号的位置特征:
其中:
xt,f为时频域信号;
t为时间帧;
f为语音信号频率;
2)采用复角中心混合模型对目标语音分离的方向特征进行建模,所述复角中心混合模型的概率密度函数为:
其中:
kf,n为时不变的混合权值;
a(dt,f;bf,n)为一个复角中心高斯分布;
b为正定的厄密特矩阵;
n为噪音信号;
t为时间帧;
f为语音信号频率;
m为语音信号帧长;
3)通过最大化em算法的对数似然函数的方法估计参数θf:
其中:
t为总的语音帧数;
a(dt,f;bf,n)为一个复角中心高斯分布;
b为正定的厄密特矩阵;
并估计得到后验概率rt,f,n:
其中:
kf,n为时不变的混合权值;
b为正定的厄密特矩阵;
n为噪音信号;
t为时间帧;
m为语音信号帧长;
rt,f,n为所求目标语音信号的mask值。
进一步地,本发明利用基于mask值的多通道增强算法对目标语音信号进行增强,所述基于mask值的多通道增强算法的算法流程为:
1)计算每个声源的协方差矩阵:
其中:
h为共轭装置;
n为第n个声源;
hf,n表示第n个声源到语音获取装置的导向矢量;
ut,f为噪声;
rt,f,n为语音信号的mask值
ωf,n为空间滤波器系数;
2)计算噪声的空间相关矩阵
其中:
yf,t为声源的协方差矩阵;
3)利用协方差矩阵的特征值来估计目标声源的导向矢量,其中第n个带噪语音的协方差矩阵计算公式为:
因此目标说话人的空间相关矩阵为:
根据所得目标说话人的空间相关矩阵,本发明根据不同的噪音形式,选取不同的方式对该空间矩阵中的语音信号进行增强处理;
针对非平稳噪声,本发明对每个单通道信号采用盲源分离算法,使用复角中心混合模型估计语音中各个源信号的mask值(用于降噪),从而得到目标声源的导向矢量,最终得到空间滤波器系数,加强目标方向信号,抑制噪声干扰方向,使得噪声得到有效的抑制;而对于不同人声的重叠干扰,本发明使用不同的盲源分离估计准则得到目标信号的新mask值与经过空间滤波器增强后的单通道信号相乘。
s4、利用预训练的dfsmn-ctc模型对语音信号进行识别,得到语音识别结果。
进一步地,对于上述语音信号增强结果,本发明利用预训练的dfsmn-ctc模型对语音信号进行识别,最后一层的输出结果即为语音识别结果;
传统声学模型训练时,为了得到每个音素对应的发音模型,必须准确得到每个音素对应的特征,亦即执行所谓的对齐操作,如在gmm-hmm模型中,为了使对齐准确,往往需要根据每次训练之后,根据损失值进行对齐多次,且在噪声环境下对齐操作极易受噪声的干扰,这种对齐错位将导致模型出现插入错误与替换错误,因此本发明构建了一种dfsmn-ctc模型,其中ctc层引入了额外的“空白”,以应对文本中可能出现的相邻相同字符,使得输入序列必须比期望的输出序列要长,因此ctc层不要求声音对齐,在忽视“blank”的前提下,ctc层会将所有识别出来的重复字符合并为一个字符,在添加“blank”之后,就会把期望中的重复字符隔开,解决包含重复字符的识别问题。
所述dfsmn-ctc模型由若干个dfsmn单元以及一个ctc层复合而成,在dfsmn单元节点后接2个完全连接的relu层,顶部是一个线性投影层。也即dfsmn-ctc模型由五个部分组成:relu层、线性投影层、ctc层、记忆块和底层的跳过连接,只有第一层没有从底层跳过连接的组件,记忆块之间的连接称为跳转连接。跳转连接使用网络有能力记忆更加长时的信息,进一步增加了模型的长时建模能力。
进一步地,本发明所述dfsmn-ctc模型的语音识别流程为:
其中:
t代表模型所处的时刻;
n代表记忆块的编号;
wn为第n个记忆块的权重;
下面通过一个算法实验来说明本发明的具体实施方式,并对发明的处理方法进行测试。本发明算法的硬件测试环境部署在tensorflow深度学习框架中,处理器为intel(r)core(tm)i5-7700cpu8核,操作系统为ubuntu16.04,显卡位geforcegtx1070,显存16g,开发环境为python2.7,开发工具为anaconda科学计算库;对比算法模型为gmm-hmm算法,lstm-ce算法以及dfcnn算法。
在本发明所述算法实验中,数据集为720小时中文朗读语音,内容为在安静环境下对小说的中文朗读语音,由1536个朗读者朗读,其中女性为921位,男性为615位。共有422704句,训练集、验证集、测试集所占比例为8:1:1,分别为338169句,42285句和42250句。全部语音为16位编码,采样率为16khz,非压缩的pcm编码格式。本发明将数据集中的语音分别输入gmm-hmm算法,lstm-ce算法,dfcnn算法以及本发明所述语音识别算法中进行算法的训练以及测试,并将识别结果与原始小说文本进行基于欧式距离的文本向量相似度匹配,所述相似度匹配结果即为语音识别结果的正确率。
根据所述实验结果,gmm-hmm算法的语音识别结果正确率为85.4%,lstm-ce算法的语音识别结果正确率为92.78%,dfcnn算法的语音识别结果正确率为93.52%,本发明所述算法的语音识别结果正确率为95.16%,相较于对比算法,本发明所提出的语音识别方法具有更高的语音识别正确率。
发明还提供一种语音识别系统。参照图2所示,为本发明一实施例提供的语音识别系统的内部结构示意图。
在本实施例中,所述语音识别系统1至少包括语音接收装置11、语音处理器12、语音识别装置13,通信总线14,以及网络接口15。
其中,语音接收装置11可以是pc(personalcomputer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
语音处理器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。语音处理器12在一些实施例中可以是语音识别系统1的内部存储单元,例如该语音识别系统1的硬盘。语音处理器12在另一些实施例中也可以是语音识别系统1的外部存储设备,例如语音识别系统1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,语音处理器12还可以既包括语音识别系统1的内部存储单元也包括外部存储设备。语音处理器12不仅可以用于存储安装于语音识别系统1的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
语音识别装置13在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行语音处理器12中存储的程序代码或处理数据,例如语音识别程序指令等。
通信总线14用于实现这些组件之间的连接通信。
网络接口15可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该系统1与其他电子设备之间建立通信连接。
可选地,该系统1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在语音识别系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-15以及语音识别系统1,本领域技术人员可以理解的是,图1示出的结构并不构成对语音识别系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,语音处理器12中存储有语音识别程序指令;语音识别装置13执行语音处理器12中存储的语音识别程序指令的步骤,与语音识别方法的实现方法相同,在此不作类述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音识别程序指令,所述语音识别程序指令可被一个或多个处理器执行,以实现如下操作:
获取待识别语音信号,并计算待识别语音信号的能量密度谱;
将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图;
利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除;
利用盲源分离算法估计待识别语音中目标语音信号的mask值;
利用基于mask值的多通道增强算法对目标语音信号进行增强;
利用预训练的dfsmn-ctc模型对语音信号进行识别,得到语音识别结果。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除