语音处理装置及语音处理方法与流程

2021-01-28 13:01:11|

281|

起点商标网

本发明的一个实施方式涉及声音信号的信号处理。

背景技术：

以往，存在一种语音调整装置，其对从传声器输入的声音信号的电平的强度进行测定，将声音信号的电平的强度和预先设定出的语音强度阈值进行比较，由此对声音信号是语音还是噪声进行判定(例如，参照专利文献1)。该语音调整装置将以大于规定的语音强度阈值的状态(有声状态)超过任意的一定时间(5～10秒)而继续的声音信号视作不是人类的语音的周围噪声。另外，该语音调整装置视为在以小于阈值的状态(无声状态)超过一定时间(20～30秒)而继续的声音信号中不包含周围的噪声。

专利文献1：日本特开2016－85420号公报

技术实现要素：

但是，现有的语音调整装置没有考虑到下述情况，即，将正在使用该语音调整装置的近端侧的说话者的语音针对处于远离的位置(远端侧)的其他语音调整装置或具有扬声器的装置而以适当的电平发送至远端侧。

本发明的一个实施方式的目的在于，将近端侧的说话者的语音以适当的电平发送至远端侧。

本发明的一个实施方式所涉及的语音处理方法，求出由第1传声器拾音到的声音信号所包含的近端侧的说话者的语音的概率，基于求出的所述概率，决定所述声音信号的增益，基于决定出的所述声音信号的增益而对所述声音信号进行处理，将处理后的所述声音信号发送至远端侧。

发明的效果

根据本发明的一个实施方式，能够将近端侧的说话者的语音以适当的电平发送至远端侧。

附图说明

图1是表示实施方式1的语音处理系统的结构的图。

图2是表示实施方式1的语音处理装置的主要结构的框图。

图3是表示实施方式1的语音处理装置的功能结构的框图。

图4是实施方式1的倒谱的波形的一个例子，图4(a)是表示在声音信号中含有语音的波形的图，图4(b)是表示在声音信号中不包含语音的波形的图。

图5是表示实施方式1的语音处理装置的动作的一个例子的流程图。

图6是表示实施方式1的使用了倒谱进行的特征量的提取处理的一个例子的流程图。

图7是表示实施方式1的增益决定部的动作的一个例子的流程图。

图8是表示实施方式2的语音处理装置的功能结构的框图。

图9是表示实施方式3的语音处理装置的主要结构的框图。

图10是表示实施方式3的语音处理装置的功能结构的框图。

图11是表示音响装置的主要的硬件结构的框图。

标号的说明

1、1a、3…语音处理装置

11…通信部(发送部)

15…传声器

121…特征量提取部(语音推定部)

122…增益决定部

124…sn比计算部

125…相关性计算部

具体实施方式

(实施方式1)

图1是表示实施方式1所涉及的语音处理系统100的结构的图。语音处理系统100具有经由网络2彼此连接的多个(在图1中为2个)语音处理装置1及语音处理装置3。

语音处理装置1设置于第1地点。语音处理装置3设置于第2地点。即，语音处理装置1及语音处理装置3彼此设置在远程处。

语音处理装置1及语音处理装置3例如在远程的会议系统中使用。语音处理装置1例如将语音处理装置1的利用者的语音经由网络2而发送至语音处理装置3。另外，语音处理装置3的利用者的语音也同样地经由网络2而发送至语音处理装置1。

语音处理装置1及语音处理装置3具有相同的结构及功能。另外，在下面的说明中，将语音处理装置1的利用者称为近端侧的利用者或说话者。另外，在下面的说明中，将语音处理装置3的利用者称为远端侧的利用者或收听者。并且，在下面的说明中，通过将语音处理装置1的说话者的语音经由网络2而发送至语音处理装置3的例子进行说明。

此外，下面的实施方式的说明是一个例子，且本发明并不限定于下面的例子。

图2是表示语音处理装置1的主要结构的框图。语音处理装置1如图2所示，具有通信部11、cpu12、ram13、存储器14、传声器15、扬声器16及用户接口(i/f)17。在本例中所说的通信部11相当于本发明的发送部。此外，语音处理装置3具有与语音处理装置1相同的结构及相同的功能，因此省略说明。

cpu12从存储介质即存储器14读出程序，暂时存储于ram13，由此进行各种动作。

存储器14由闪存或硬盘驱动器(hdd)等构成。存储器14如上述所示存储有cpu12的动作用程序。存储器14存储有特征量提取程序、增益决定程序及通信控制程序。特征量提取程序是用于构成后面记述的语音的特征量提取部121的程序。增益决定程序是用于构成后面记述的增益决定部122的程序。通信控制程序是用于对后面记述的通信部11进行控制的程序。

传声器15对包含说话者的语音及周围的噪声在内的声音信号进行拾音。传声器15对拾音到的声音信号(包含说话者的语音及周围的噪声在内的声音)进行数字变换。传声器15将数字变换后的声音信号输出至cpu12。

cpu12对从传声器15输入的声音信号实施信号处理。cpu12将实施了信号处理的声音信号输出至通信部11。此外，语音处理装置1也可以具有信号处理的专用处理器(dsp：digitalsignalprocessor)。在该情况下，按照cpu12的指示，dsp进行信号处理。

cpu12作为信号处理，根据由传声器15拾音到的声音信号而求出是说话者的语音的概率(是人声的可靠度)。cpu12基于是语音的概率而对声音信号实施信号处理，以使得远端侧的收听者更容易听见近端侧的语音。此外，信号处理的详细内容在后面记述。此外，在本例中所说的、是语音的概率可以是0～100或0～1的值，也可以设置基准，通过与该基准相比较的程度而求出概率。

用户i/f17接收来自利用者的操作。从利用者接收的操作例如是扬声器16的音量的调整等。

通信部11将由cpu12进行信号处理后的声音信号经由网络2而发送至远端侧的语音处理装置3(参照图1)。另外，通信部11从语音处理装置3对远端侧的声音信号进行接收，输出至扬声器16。

扬声器16对由通信部11输出的远端侧的声音信号(利用者的语音)进行放音。另外，扬声器16可以构成为在输入的声音信号为数字信号的情况下，在进行d/a变换后对声音信号进行放音。

关于cpu12的详细的功能及动作，参照图3进行说明。图3是表示语音处理装置1的功能结构的框图。cpu12将由传声器15拾音到的语音调节为适当的电平，输出至通信部11。

cpu12如图3所示，具有特征量提取部121、增益决定部122和电平调节部123。在本例中所说的特征量提取部121相当于本发明的语音推定部。

特征量提取部121从由传声器15拾音到的声音信号中，作为是语音的概率，对语音的特征量进行提取。更详细地说，特征量提取部121例如使用倒谱(cepstrum)而对语音的特征量进行提取。

图4(a)是倒谱的波形的一个例子，是表示在声音信号中含有语音的例子的图。图4(b)是倒谱的波形的一个例子，是表示在声音信号中不包含语音的例子的图。图4(a)及图4(b)的纵轴表示电平(db)。另外，图4(a)及图4(b)的横轴表示倒频率(ms)。此外，图4(a)及图4(b)是对低倒频率成分进行了放大的图。

特征量提取部121如图4(a)所示，例如使用提升器(lifter)(在倒谱中使用的滤波器)等，分离为由单点划线包围的低阶的倒谱和由双点划线包围的高阶的倒谱。在这里，低阶的倒谱与频谱的包络成分相对应。另外，高阶的倒谱与频谱的微细成分相对应。

语音由基音和泛音构成。语音的基音表现为高阶的倒谱的峰值。即，特征量提取部121在高阶的倒谱中检测到峰值的情况下，推定为由传声器15拾音到的声音信号是语音的概率高。在本例中，特征量提取部121在高阶的倒谱中检测到峰值的情况下，将峰值电平变换(标准化)为0～1的值，作为特征量而输出至增益决定部122。

另一方面，特征量提取部121如图4(b)所示，在高阶的倒谱中没有检测到峰值的情况下，推定为是语音的概率低。特征量提取部121将在高阶的倒谱中没有峰值这样的内容(将特征量设为0这样的内容)输出至增益决定部122。

增益决定部122基于由特征量提取部121提取出的特征量(0～1的值)，决定由传声器15拾音到的声音信号的增益。增益决定部122例如在特征量为0～1的情况下，将增益决定为大于0(最小值)的值。另外，增益决定部122在提取出的特征量为0的情况下，将增益决定为0(最小值)。

此外，增益决定部122也可以与接收到的特征量相应地将增益决定为0～1之间。另外，增益决定部122也可以预先决定阈值，将接收到的特征量和阈值进行比较而决定增益。在该情况下，例如如果特征量小于或等于阈值，则增益决定部122将增益决定为0。另外，在该情况下，例如如果特征量超过阈值，则将增益决定为0～1。

电平调节部123使用由增益决定部122决定出的增益，对由传声器15拾音到的声音信号的电平进行调节。

语音处理装置1如果由传声器15拾音到的声音信号是语音的概率(特征量)高，则将增益决定为1或与概率相应地决定为0～1之间。另外，如果由传声器15拾音到的声音信号是语音的概率低，则将增益决定为0。由此，语音处理装置1能够对近端侧的不需要的噪声进行抑制。因此，远端侧的收听者能够以适当的电平听见近端侧的说话者的语音。

关于语音处理装置1的动作，参照图5进行说明。图5是表示语音处理装置1的动作的一个例子的流程图。

特征量提取部121从由传声器15拾音到的声音信号，作为语音的概率而对语音的特征量进行提取(s1)。增益决定部122基于语音的特征量，决定由传声器15拾音到的声音信号的增益(s2)。电平调节部123使用决定出的增益而对声音信号的电平进行调节(s3)。发送部将处理后的信号发送至远端侧(s4)。

接下来，关于通过特征量提取部121进行的特征量的提取处理的一个例子，参照图6进行说明。图6是表示使用了倒谱进行的特征量的提取处理的一个例子的流程图。

首先，特征量提取部121对由传声器15拾音到的声音信号实施fft(fastfuriestransform)(高速傅立叶变换处理)，对实施了fft的信号的绝对值进行计算。由此，特征量提取部121对声音信号的振幅频谱进行计算(s11)。接下来，特征量提取部121对振幅频谱进行对数计算(log计算)，将振幅频谱变换为分贝(db)。由此，特征量提取部121计算对数频谱(s12)。并且，特征量提取部121对对数频谱实施dct(discretecosinetransform)(离散余弦变换处理)。由此特征量提取部121对倒谱(波形)进行计算(s13)。特征量提取部121根据计算出的倒谱的波形而对高阶的倒谱的峰值电平进行检测(s14)。特征量提取部121将对检测出的峰值电平进行标准化得到的特征量输出至增益决定部122(s15)。

此外，特征量提取部121在高阶倒谱中没有检测到峰值电平的情况下，将语音的特征量(是语音的概率)设为0而输出至增益决定部122。

接下来，关于增益决定部122的动作的一个例子，参照图7进行说明。图7是表示增益决定部122的动作的一个例子的流程图。此外，下面的说明为一个例子，并不受到限定。

增益决定部122从特征量提取部121接收特征量(s21)。增益决定部122与接收到的特征量相应地决定增益(s22)。如果接收到的特征量为0～1、或如果超过预先决定的阈值(s22：yes)，则增益决定部122将增益决定为大于0的值，输出至电平调节部123(s23)。

另一方面，如果特征量为0或特征量低于阈值(s22：no)，则增益决定部122将增益决定为0，输出至电平调节部123(s23)。

实施方式1的语音处理装置1基于根据倒谱的波形的峰值电平求出的是语音的概率(语音的特征量)，决定增益。语音处理装置1通过基于是语音的概率(语音的特征量)而决定出的增益，对由传声器15拾音到的声音信号的电平进行调节。由此，实施方式1的语音处理装置1能够将近端侧的说话者的语音以适当的电平发送至远端侧。

此外，增益决定部122例如也可以在接收到的特征量为1或超过阈值的情况下，瞬时地提高增益。在该情况下，语音处理装置1容易听见语音的起始部分(能够抑制语音的起始漏音)。另外，增益决定部122也可以在接收到的特征量为0或小于或等于阈值的情况下，伴随时间的经过而阶段性地降低增益。在该情况下，语音处理装置1由于音量不会急剧地降低，因此不会使利用者觉察到不适感。

(实施方式2)

关于实施方式2的语音处理装置1及语音处理装置3的cpu12a，参照图8进行说明。图8是表示实施方式2的cpu12a的功能结构的框图。此外，对与上述的实施方式1的cpu12相同的结构标注相同的标号，省略说明。另外，设为实施方式2的语音处理装置1及3具有相同的结构及相同的功能，在下面的说明中，以语音处理装置1的cpu12a为代表而进行说明。

实施方式2的cpu12a如图8所示，具有sn比计算部124，该sn比计算部124对周围的噪声相对于由传声器15拾音到的声音信号的sn(signaltonoise)比率进行计算。即，cpu12a读出程序而执行sn比率的计算。

sn比计算部124对声音信号和噪声(例如，打字声、空调声、远离装置的位置处的声音等除了说话者的语音以外的声音)的sn比率进行计算。sn比率例如通过下面的算式1进行计算。

【式1】

在上述的算式1中，ps是由传声器15拾音到的声音信号的功率。另外，pn是由传声器15拾音到的噪声的功率。在该情况下，sn比计算部124例如预先在没有由近端侧的说话者发出语音(没有说话)的状态下计算出噪声的功率。sn比计算部124使用预先计算出的噪声的功率和拾音到的声音信号的功率而对sn比率进行计算。在sn比率大的情况下，表示噪声相对于语音小。另外，在sn比率小的情况下，表示噪声相对于语音大。

增益决定部122例如与通过sn比计算部124计算出的sn比率和通过特征量提取部121提取出的特征量之积相应地决定增益。

此外，增益决定部122也可以将预先决定的阈值和上述积进行比较。在该情况下，如果上述积超过阈值，则增益决定部122将增益决定为0～1。另外，如果上述积小于或等于阈值，则增益决定部122将增益决定为0。

另外，增益决定部122并不限定于与通过特征量提取部121提取出的语音的特征量和通过sn比计算部124计算出的sn比率之积相应地决定增益的例子。增益决定部122例如也可以针对语音的特征量及计算出的sn比率使用逻辑式例如逻辑与、逻辑或、逻辑异或等或多个逻辑式的组合而决定增益。

实施方式2的语音处理装置1不仅基于近端侧的说话者的通过特征量提取部121得到的是语音的概率(语音的特征量)，还基于噪声相对于声音信号的sn比率对声音信号的电平进行调节。由此，语音处理装置1能够将由传声器15拾音到的近端侧的说话者的语音以更适当的电平发送至远端侧。

此外，在实施方式2的语音处理装置1中，以cpu12a读出sn比计算程序而执行的例子进行了说明，但sn比计算部也可以由sn比计算电路构成。

(实施方式3)

关于实施方式3的语音处理装置1a，参照图9进行说明。图9是表示实施方式3的语音处理装置1a的主要结构的框图。图10是表示实施方式3的语音处理装置1a的cpu12b的功能结构的框图。此外，语音处理装置3具有与语音处理装置1a相同的结构及功能，因此在下面的说明中，以语音处理装置1a为代表而进行说明。另外，对与语音处理装置1相同的结构标注相同的标号，省略说明。

实施方式3的语音处理装置1a如图9所示，具有多个(在图9中为2个)传声器15a及传声器15b。语音处理装置1a从传声器15a及传声器15b分别对近端侧的声音信号进行拾音。

传声器15a及传声器15b各自将声音信号输出至cpu12b。

cpu12b如图10所示，具有相关性计算部125。相关性计算部125对由多个传声器15a及传声器15b拾音到的声音信号的相关性进行计算。相关性计算部125对白色化相互函数进行计算。

相关性计算部125求出从传声器15a生成的第1声音信号s1(t)的频谱及从传声器15b生成的第2声音信号s2(t)的频谱的相关性。

此外，在下面的说明中，作为一个例子，传声器15a为指向性传声器。传声器15b为在全方向具有均一的灵敏度的无指向性传声器。但是，传声器15a及传声器15b的指向性的方式并不限定于本例。例如，传声器15a及传声器15b也可以都为无指向性的传声器，也可以都为指向性的传声器。另外，传声器的数量也并不限定于2个，语音处理装置1a例如可以具有大于或等于3个传声器。

白色化相互函数例如通过下面的算式2～算式6进行计算。首先，相关性计算部125按照下面的算式2及算式3，对第1声音信号s1(t)及第2声音信号s2(t)分别实施fft。而且，相关性计算部125将第1声音信号s1(t)及第2声音信号s2(t)变换为频率区域的信号s1(ω)及信号s2(ω)。

【式2】

【式3】

接下来，相关性计算部125对频率区域的信号s1(ω)及信号s2(ω)的互相关函数s1、2(ω)进行计算。

【式4】

上述的算式4中的＊表示复共轭(关于多个复数，将虚部设为－1倍)。

并且，相关性计算部125根据通过算式4计算出的互相关函数s1、2(ω)，例如实施ifft(inversefastfourietransfer(傅立叶逆变换))而对白色化相互函数系数cps1,2(τ)进行计算。

【式5】

并且根据白色化相互函数系数cps1,2(τ)对白色化相互函数系数成为最大的时间差tdoa1,2进行计算。

【式6】

tdoa1，2＝argmax(csp1，2(τ))

相关性计算部125通过使用上述的算式2～算式6，求出第1声音信号及第2声音信号s2(t)的波形的时间差(相位差)tdoa1,2。在时间差tdoa1,2大的情况下，相关性计算部125视为在装置的附近存在音源，判定为来自音源的语音是近端侧的说话者的语音。另一方面，相关性计算部125在时间差tdoa1,2小的情况下，判定为间接音多，是来自装置的远方的音源的噪声。

增益决定部122使用由特征量提取部121提取出的语音的特征量和由相关性计算部125判定出的判定结果之积而决定拾音到的声音信号的增益。

实施方式3的语音处理装置1a的相关性计算部125通过使用白色化相互函数而对来自音源的声音信号是语音还是远方的噪声进行判定。由此，实施方式3的语音处理装置1a不仅根据是近端侧的说话者的语音的概率(语音的特征量)，还根据是否是来自远方的噪声而对声音信号的电平进行调节。因此，语音处理装置1a能够将由传声器15拾音到的近端侧的说话者的语音以更适当的电平发送至远端侧。

此外，增益决定部122并不限定于使用是语音的概率(语音的特征量)及通过相关性计算部125得到的判定结果之积而决定增益的例子。增益决定部122例如也可以针对是语音的概率(语音的特征量)及该判定结果使用逻辑式例如逻辑与、逻辑或、逻辑异或等或多个逻辑式的组合而决定增益。

另外，实施方式3的语音处理装置1a也可以与实施方式2的语音处理装置1组合使用。在该情况下，例如，增益决定部122通过是语音的概率+sn比率×该判定结果，决定由传声器15拾音到的声音信号的增益。由此，语音处理装置1a能够更高精度地将由传声器15拾音到的近端侧的说话者的语音以适当的电平发送至远端侧。此外，增益决定部122也可以针对是语音的概率(语音的特征量)、sn比率及该判定结果将多个逻辑式例如逻辑与、逻辑或、逻辑异或等组合而决定增益。

另外，在实施方式3的语音处理装置1a中，以cpu12b读出相关性计算程序而执行的例子进行了说明，但相关性计算部125也可以由相关性计算电路构成。

(变形例1)

对变形例1的语音处理装置1的特征量提取部121进行说明。语音处理装置1通过机器学习，对声音信号是否是近端侧的说话者的语音进行判定。

语音处理装置1例如预先存储有多个语音样本。语音处理装置1对多个语音样本的特征量进行计算，将语音的特征量设为学习模型而模式化。语音处理装置1将由传声器15拾音到的声音信号与所存储的语音样本的特征量相比较。语音处理装置1通过由传声器15拾音到的语音的特征量和所存储的语音样本的特征量的模式匹配，求出是语音的概率。

例如，语音处理装置1对语音的特征量及噪声的特征量进行学习，作为各自的语音模型及噪声模型而模式化。语音处理装置1输入未知的(由传声器拾音到的)声音信号，基于表示似然性更高的值的模型，对该声音信号是否是语音进行判定。

变形例1的语音处理装置1通过机器学习，根据由传声器15拾音到的声音信号而求出语音的概率。由此，变形例1的语音处理装置1能够通过更简易的方法，将由传声器15拾音到的近端侧的说话者的语音以适当的电平发送至远端侧。

此外，变形例1的语音处理装置1也可以使用神经网络而求出是语音的概率。即，变形例1的语音处理装置1输入通过神经网络预先学习的未知的声音信号的特征量，基于输出结果对声音信号是否是语音进行判定。

(变形例2)

对变形例2的语音处理装置1的特征量提取部121进行说明。变形例2的语音处理装置1的特征量提取部121根据声音信号的基音和泛音的频率分布而对语音的特征量进行提取。

特征量提取部121例如对由传声器15拾音到的声音信号实施fft。特征量提取部121如果从由传声器15拾音到的声音信号检测到基音和基音的整数倍的泛音，则推定为是说话者的语音。

变形例2的语音处理装置1能够通过更简易的方法求出是语音的概率(对语音的特征量进行提取)。

(其他变形例)

以下列举其他变形例。

其他变形例的语音处理装置1的特征量提取部121对频带中的功率(db)进行计算。更详细地说，特征量提取部121对声音信号实施fft，对功率进行计算。特征量提取部121与由传声器15拾音到的声音信号的功率相应地，求出声音信号是语音的概率。换言之，特征量提取部121与由传声器15拾音到的声音信号的功率相应地，对声音信号是否是语音进行判定。

另外，其他变形例的语音处理装置1的特征量提取部121通过频谱流量方法(spectralfluxmethod)对语音的特征量进行提取。频谱流量表示语音频谱的局部性的变化。即，如果频谱流量大，则表示声音的变动大。即，如果频谱流量大，则语音处理装置1的特征量提取部121判断为近端侧的说话者说了话。

另外，其他变形例的语音处理装置1的特征量提取部121通过非周期性指标对语音的特征量进行提取。非周期性指标表示语音的周期成分及非周期成分的比例。非周期性指标用于如嘶哑的辅音这样的表示周期性的成分和非周期性的成分混合存在的音。本变形例的特征量提取部121对非周期性指标进行计算。即，语音处理装置1的特征量提取部121如果检测到非周期性指标，则判定为近端侧的说话者正在说话。

另外，其他变形例的特征量提取部121作为是语音的概率(语音的特征量)而对声音信号的时间波形与零交叉的次数进行计算。特征量提取部121对在语音的时间区域中成为零交叉的点的出现频度进行计算。零交叉是与语音的基音即音高(pitch)相对应的。即，语音处理装置1的特征量提取部121如果检测到零交叉，则推定为近端侧的说话者的语音的概率高。

此外，本发明的结构也可以全部通过fgpa(field-programmablegatearray)等硬件实现。例如，如图11所示，语音处理装置1或语音处理装置1a也可以是具有与特征量提取部121相对应的特征量提取电路121a、与增益决定部122相对应的增益决定电路122a。

另外，也可以是cpu12、cpu12a或cpu12b读出并执行在存储器14中存储的通信控制程序而实现通信部11的硬件的功能。

另外，本发明的结构也可以适当将硬件及软件组合而实现。

应该认为上述的实施方式及变形例的说明在所有方面都是例示，且并不是限制性的内容。本发明的范围不是由上述的实施方式及变形例而是由权利要求书表示。并且，本发明的范围包含与权利要求书等同的含义以及范围内的全部变更。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除