机器人及其语音识别装置的制作方法

2021-01-28 17:01:43|

355|

起点商标网

本公开涉及语音处理领域，具体地，涉及一种机器人及其语音识别装置。

背景技术：

目前，通常会在机器人身上安装单麦、线性麦克风，以进行语音识别。然而，当将机器人应用到诸如会展、营业厅等环境中时，由于环境嘈杂而且机器人是不断运动的，所以语音识别准确率差。

技术实现要素：

本公开的目的是提供一种机器人及其语音识别装置，能够在各种场景下准确地进行语音识别。

根据本公开的第一实施例，提供一种应用于机器人的语音识别装置，包括：分布式麦克风阵列，该分布式麦克风阵列包括位于所述机器人的正面上的第一麦克风阵列和位于所述机器人的背面上的第二麦克风阵列，用于分别获取第一语音信号和第二语音信号；语音处理器，用于融合所述第一语音信号和所述第二语音信号进行语音识别。

可选地，所述第一麦克风阵列和所述第二麦克风阵列分别是下述中的一者：线性麦克风阵列、环形麦克风阵列和球面麦克风阵列。

可选地，所述第一麦克风阵列位于所述机器人的前胸上，所述第二麦克风阵列位于所述机器人的后背上。

可选地，所述语音处理器包括：音源方向确定单元，用于基于所述第一语音信号确定第一音源方向，基于所述第二语音信号确定第二音源方向；波束成形单元，用于对确定出所述第一音源方向的所述第一语音信号执行波束成形，对确定出所述第二音源方向的所述第二语音信号执行波束成形；信噪比计算单元，用于分别计算波束成形后的第一语音信号的信噪比和第二语音信号的信噪比；降噪处理单元，用于将信噪比优的语音信号用作噪声参考信号，并利用所述噪声参考信号对信噪比差的语音信号进行降噪处理；以及语音识别单元，用于基于降噪处理后的语音信号进行语音识别。

可选地，所述波束成形单元用于：利用所述第一麦克风阵列所对应的第一面阵计算所述第一语音信号的第一空间延迟，利用所述第二麦克风阵列所对应的第二面阵计算所述第二语音信号的第二空间延迟；根据所述第一空间延迟计算所述第一语音信号的方向向量的权重并更新相对应的阻止矩阵，根据所述第二空间延迟计算所述第二语音信号的方向向量的权重并更新相对应的阻止矩阵。

可选地，所述语音处理器还包括最终音源方向确定单元，用于将信噪比优的语音信号的音源方向确定为最终音源方向。

可选地，所述语音处理器还包括回声消除单元，用于在执行波束成形之前选择距离喇叭较远一些的麦克风阵列来执行回声消除。

根据本公开的第二实施例，提供一种机器人，包括根据本公开第一实施例所述的语音识别装置。

根据本公开的第三实施例，提供一种应用于机器人的语音识别方法，包括：由位于所述机器人的正面上的第一麦克风阵列获取第一语音信号，由位于所述机器人的背面上的第二麦克风阵列获取第二语音信号；融合所述第一语音信号和所述第二语音信号进行语音识别。

可选地，所述融合所述第一语音信号和所述第二语音信号进行语音识别，包括：基于所述第一语音信号确定第一音源方向，基于所述第二语音信号确定第二音源方向；对确定出所述第一音源方向的所述第一语音信号执行波束成形，对确定出所述第二音源方向的所述第二语音信号执行波束成形；分别计算波束成形后的第一语音信号的信噪比和第二语音信号的信噪比；将信噪比优的语音信号用作噪声参考信号，并利用所述噪声参考信号对信噪比差的语音信号进行降噪处理；以及基于降噪处理后的语音信号进行语音识别。

可选地，所述对确定出所述第一音源方向的所述第一语音信号执行波束成形，对确定出所述第二音源方向的所述第二语音信号执行波束成形，包括：利用所述第一麦克风阵列所对应的第一环形面阵计算所述第一语音信号的第一空间延迟，利用所述第二麦克风阵列所对应的第二环形面阵计算所述第二语音信号的第二空间延迟；根据所述第一空间延迟计算所述第一语音信号的方向向量的权重并更新相对应的阻止矩阵，根据所述第二空间延迟计算所述第二语音信号的方向向量的权重并更新相对应的阻止矩阵。

可选地，所述方法还包括：将信噪比优的语音信号的音源方向确定为最终音源方向。

可选地，所述方法还包括：在执行波束成形之前选择距离喇叭较远一些的麦克风阵列来执行回声消除。

通过采用上述技术方案，由于根据本公开实施例的语音识别装置和方法是利用位于机器人正面和背面上的分布式麦克风阵列进行拾音并融合第一语音信号和第二语音信号进行语音识别，因此在强噪声(例如会展、营业厅等环境中)以及机器人运动的场景中，能够进行360度定位和拾音，准确地进行语音识别，增强了语音交互的鲁棒性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1示出根据本公开一种实施例的应用于机器人的语音识别装置的示意框图。

图2示出了第一麦克风阵列和第二麦克风阵列分别位于机器人的前胸和后背上并且均是8麦环形麦克风阵列的示意图。

图3a和3b分别示出了平着和竖着放置的环形麦克风阵列的示意图。

图4示出根据本公开一种实施例的应用于机器人的语音识别方法的流程图。

图5示出如何融合第一语音信号和第二语音信号进行语音识别的流程图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1示出根据本公开一种实施例的应用于机器人的语音识别装置的示意框图。如图1所示，该语音识别装置包括：分布式麦克风阵列1，该分布式麦克风阵列1包括位于机器人的正面上的第一麦克风阵列11和位于机器人的背面上的第二麦克风阵列12，用于分别获取第一语音信号和第二语音信号；语音处理器2，用于融合第一语音信号和第二语音信号进行语音识别。

第一麦克风阵列11可以布置在机器人的前胸、腿的正面等至少一个位置上，优选布置在前胸上。第二麦克风阵列12可以布置在机器人的后背、后脑勺、腿的背面等至少一个位置上，优选布置在后背上。

第一麦克风阵列11和第二麦克风阵列12可以分别是下述中的一者：线性麦克风阵列、环形麦克风阵列和球面麦克风阵列。例如，第一麦克风阵列11和第二麦克风阵列12可以均由环形麦克风阵列实现，也可以是第一麦克风阵列11由线性麦克风阵列实现而第二麦克风阵列12由环形麦克风阵列实现，等等。另外，线性麦克风阵列可以是n行m列的阵列，其中n和m均为大于2的正整数，以便实现360度的语音识别；环形麦克风阵列可以是j麦麦克风阵列，其中j是大于4的正整数，例如可以是4麦环形麦克风阵列、5麦环形麦克风阵列、8麦环形麦克风阵列等等。

借助第一麦克风阵列11，实现了机器人正面空间的三维定位拾音，借助第二麦克风阵列12，实现了机器人背面空间的三维定位拾音，通过低压麦克风阵列11和第二麦克风阵列12的结合则可以实现整个机器人四面八方、无死角的空间定位拾音，能够实现更为聚焦的波束成形，提升降噪效果。而且，通过分布式麦克风阵列的布置，能够解决机器人的身体不平滑有起伏导致麦克风孔径深度不一致的问题以及机器人产品体态导致的无法部署麦克风来有效接收任意方向的语音的问题。

图2示出了第一麦克风阵列11和第二麦克风阵列12分别位于机器人的前胸和后背上并且均是8麦环形麦克风阵列的示意图。图2中的双箭头表示标号12所指示的8麦环形麦克风阵列位于机器人的后背上。则，第一麦克风阵列11获取到的第一语音信号就是8通道的语音信号，第二麦克风阵列12获取到的第二语音信号也是8通道的语音信号。

通过采用上述技术方案，由于根据本公开实施例的语音识别装置包括位于机器人正面和背面上的分布式麦克风阵列，而且语音处理器2是融合第一语音信号和第二语音信号进行语音识别，因此在强噪声(例如会展、营业厅等环境中)以及机器人运动的场景中，能够进行360度定位和拾音，准确地进行语音识别，增强了语音交互的鲁棒性。

在一种实施方式中，语音处理器2可以包括音源方向确定单元、波束成形单元、信噪比计算单元、降噪处理单元和语音识别单元。

音源方向确定单元用于基于第一语音信号确定第一音源方向，基于第二语音信号确定第二音源方向，例如可以使用到达方向(directionofarrival，doa)估计算法来确定音源方向。

波束成形单元用于对确定出第一音源方向的第一语音信号执行波束成形，对确定出第二音源方向的第二语音信号执行波束成形。

信噪比计算单元用于分别计算波束成形后的第一语音信号的信噪比和第二语音信号的信噪比。

降噪处理单元，用于将信噪比优的语音信号用作噪声参考信号，并利用噪声参考信号对信噪比差的语音信号进行降噪处理，例如，如果第一语音信号的信噪比优于第二语音信号的信噪比，则降噪处理单元会将第一语音信号用作噪声参考信号，也即在波束成形后的后置滤波处理过程中会将第一语音信号用作后置滤波的噪声谱输入，然后基于例如维纳滤波或者统计模型或其他方法等来完成对第二语音信号中的稳态噪声的消除。在实际应用场景中，由于机器人体态的原因，在交互的过程中，必然会有一面阵列背向实际音源而立，因此，可将正对着实际音源的麦克风阵列用于拾音降噪，将背向实际音源的麦克风阵列用做参考信号。降噪处理单元可以采用各种合适的滤波器来实现。

语音识别单元，用于基于降噪处理后的语音信号进行语音识别。仍以上面所举示例为例，在将第一语音信号用作噪声谱输入来对第二语音信号中的稳态噪声进行消除的情况下，语音识别单元会基于降噪处理后的第二语音信号进行语音识别。

在现有技术中，只采用单一的麦克风阵列进行拾音，因此只需要定位一个音源方向，在进行降噪处理时需要采用利用统计模型得到的噪声谱作为噪声参考信号。而在本申请中，通过由分布式麦克风阵列从机器人的正面和背面分别拾取语音信号，因此需要对各个麦克风阵列所拾取的语音信号分别进行音源方向定位，并且在降噪处理时，是将信噪比优的语音信号用作噪声参考信号，并利用该噪声参考信号来对信噪比差的语音信号进行降噪处理，因此，相比于现有技术，能够进一步避免在较强噪声环境中因采用统计模型带来的噪声谱估计不准确而导致降噪后非线性失真的问题，进而提高了语音识别率及其准确率。

在一种实施方式中，语音处理器2还包括最终音源方向确定单元，用于将信噪比优的语音信号的音源方向确定为最终音源方向。这样，有利于提升机器人移动过程中目标跟踪的准确性。

在现有技术中，诸如平面麦克风阵列、环形麦克风阵列等都是平着放置的，因此在进行波束成形处理时是采用线阵、环阵的计算方式。而在本公开中，麦克风阵列是被竖着布置在机器人身上的。图3a和3b分别示出了平着和竖着放置的环形麦克风阵列的示意图。发明人发现，现有由的线阵、环阵计算方式不再适用，否则会导致波束成形处理结果不准确。因此，需要对现有的波束成形进行改进，才能实现对竖着放置的麦克风阵列拾取的语音信号进行波束成形处理。也即，波束成形单元用于：利用第一麦克风阵列11所对应的第一面阵计算第一语音信号的第一空间延迟，利用第二麦克风阵列12所对应的第二面阵计算第二语音信号的第二空间延迟，例如，当第一麦克风阵列11和第二麦克风阵列12都是环形麦克风阵列时，第一面阵和第二面阵均是环形面阵；根据第一空间延迟计算第一语音信号的方向向量的权重并更新相对应的阻止矩阵，根据第二空间延迟计算第二语音信号的方向向量的权重并更新相对应的阻止矩阵。通过采用上述技术方案，能够使波束成形处理的结果更准确，进而使语音识别准确率更高。

在一种实施方式中，语音处理器2还包括回声消除单元，用于在执行波束成形之前选择距离喇叭较远一些的麦克风阵列来执行回声消除。在会展、营业厅等场所中，喇叭播放的声音会弥漫全场，因此选择哪个麦克风阵列作为回声消除其效果基本一致，原则上是选择距离喇叭远一些的麦克风阵列进行回声消除，原因是受喇叭腔体的震动或者非线性变化影响最小，同时波束成形的优势会发挥的更好。

根据本公开的又一实施例，提供一种机器人，该机器人包括根据本公开实施例的语音识别装置。

图4示出根据本公开一种实施例的应用于机器人的语音识别方法的流程图。如图4所示，该方法包括：

在步骤s41中，由位于机器人的正面上的第一麦克风阵列获取第一语音信号，由位于机器人的背面上的第二麦克风阵列获取第二语音信号；

在步骤s42中，融合第一语音信号和第二语音信号进行语音识别。

通过采用上述技术方案，由于根据本公开实施例的语音识别方法利用位于机器人正面和背面上的分布式麦克风阵列进行拾音并融合第一语音信号和第二语音信号进行语音识别，因此在强噪声(例如会展、营业厅等环境中)以及机器人运动的场景中，能够进行360度定位和拾音，准确地进行语音识别，增强了语音交互的鲁棒性。

图5示出如何融合第一语音信号和第二语音信号进行语音识别的流程图。如图5所示，包括：

在步骤s42a中，基于第一语音信号确定第一音源方向，基于第二语音信号确定第二音源方向；

在步骤s42b中，对确定出第一音源方向的第一语音信号执行波束成形，对确定出第二音源方向的第二语音信号执行波束成形；

在步骤s42c中，分别计算波束成形后的第一语音信号的信噪比和第二语音信号的信噪比；

在步骤s42d中，将信噪比优的语音信号用作噪声参考信号，并利用噪声参考信号对信噪比差的语音信号进行降噪处理；以及

在步骤s42e中，基于降噪处理后的语音信号进行语音识别。

可选地，步骤s42b中所述的对确定出第一音源方向的第一语音信号执行波束成形，对确定出第二音源方向的第二语音信号执行波束成形，包括：利用第一麦克风阵列所对应的第一环形面阵计算第一语音信号的第一空间延迟，利用第二麦克风阵列所对应的第二环形面阵计算第二语音信号的第二空间延迟；根据第一空间延迟计算第一语音信号的方向向量的权重并更新相对应的阻止矩阵，根据第二空间延迟计算第二语音信号的方向向量的权重并更新相对应的阻止矩阵。

可选地，根据本公开实施例的方法还包括：将信噪比优的语音信号的音源方向确定为最终音源方向。

可选地，根据本公开实施例的方法还包括：在执行波束成形之前选择距离喇叭较远一些的麦克风阵列来执行回声消除。

根据本公开实施例的语音识别方法中所涉及的各个步骤的具体实现方式已经在根据本公开实施例的装置中进行了详细描述，此处不再赘述。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。