一种提高声源拾音准确度的多喇叭播放方法、装置、系统及存储介质与流程

2021-01-28 15:01:02|

294|

起点商标网

本发明涉及数据处理领域，尤其涉及一种提高声源拾音准确度的多喇叭播放方法、装置、系统及存储介质。

背景技术：

目前涉及人机语音交互有智能机器人、智能音箱等产品，现有技术的语音交互方案着重放在人机交互娱乐、设备拾音等场景优化，未考虑到少数耳背群体的交互体验。

技术实现要素：

本发明提供了一种提高声源拾音准确度的多喇叭播放方法，包括执行以下步骤：

步骤s1：基准输出开始；

步骤s2：声纹识别发出语音者是否为机主；如果是，执行步骤s3，否则，执行步骤s6；

步骤s3：多麦阵列识别声源的方位是否发生改变，如果是，则执行步骤s4，否则执行步骤s5；

步骤s4：云台接收到方向指令后自动转向机主声源方向，同时云台判断是否获取到机主的反面基准指令，如果是，则将正面基准的m、n值进行互换，执行反面基准后再返回执行步骤s3，如果否，则执行步骤s5；

步骤s5：执行正面基准，提升机主的拾音准确度；

步骤s6：基准输出结束。

作为本发明的进一步改进，在所述步骤s5中，还包括执行以下步骤：步骤1：设备输出默认确认语音v1；v1：请确认音量是否清晰；

步骤2：机主是否回应；如果回应，则执行步骤3，否则执行c方案；

步骤3：切换输出语音v2；v2：请确认左、右哪边不清晰；

步骤4：判断回应内容中是否包含不清晰关键词，如果包含，则执行步骤5，否则执行是否为机主的首次回应判断，如果是机主的首次回应，则将机主定义为正常听力的使用者，否则，执行步骤5；

步骤5：判断回应内容中是否包含左or右关键词，如果包含左关键词，则执行a方案，如果包含右关键词，则执行b方案，否则执行步骤6；

步骤6：锁定m、n、o音量设定作为正面基准参数；

步骤7：利用声纹识别技术将正面基准锁定仅适用于机主；

步骤8：正面基准获取成功。

作为本发明的进一步改进，所述步骤5的a方案、b方案和所述步骤2的c方案具体如下：

所述a方案：m＝m+设定值、n、o不变；

所述b方案：n＝n+设定值、m＝m-设定值、o不变；

所述c方案：m＝m+设定值、n＝n+设定值、o＝o+设定值；

在执行所述步骤5的a方案、b方案和所述步骤2的c方案之前，还包括执行以下步骤：

默认步骤：默认左侧音量m、n、o等于默认值；

在执行完所述步骤5的a方案、b方案和所述步骤2的c方案之后，还包括执行以下步骤：

限制最高音量步骤：通过m或者n或者o是否不大于设定音量，来判断音量是否为最高，如果是，则执行步骤6，否则返回执行步骤1。

作为本发明的进一步改进，在所述a方案、所述b方案、所述c方案中，所述设定值为10；在所述默认步骤中，所述默认值等于50db；在所述限制最高音量步骤，所述设定音量为90db。

本发明还公开了一种提高声源拾音准确度的多喇叭播放装置，包括：开始单元：用于基准输出开始；

声纹识别单元：用于声纹识别发出语音者是否为机主；如果是，进入多麦阵列识别单元，否则，进入输出单元；

多麦阵列识别单元：用于多麦阵列识别声源的方位是否发生改变，如果是，则进入云台判断单元，否则进入提升单元；

云台判断单元：用于云台接收到方向指令后自动转向机主声源方向，同时云台判断是否获取到机主的反面基准指令，如果是，则将正面基准的m、n值进行互换，执行反面基准后再返回进入多麦阵列识别单元，如果否，则进入提升单元；

提升单元：用于执行正面基准，提升机主的拾音准确度；

输出单元：基准输出结束。

作为本发明的进一步改进，在所述提升单元中，还包括：

语音模块：用于设备输出默认确认语音v1；v1：请确认音量是否清晰；回应模块：用于机主是否回应；如果回应，则执行步骤3，否则执行c方案；

语音切换模块：用于切换输出语音v2；v2：请确认左、右哪边不清晰；第一判断模块：用于判断回应内容中是否包含不清晰关键词，如果包含，则进入提升模块，否则进入是否为机主的首次回应判断，如果是机主的首次回应，则将机主定义为正常听力的使用者，否则，进入第二判断模块；第二判断模块：用于判断回应内容中是否包含左or右关键词，如果包含左关键词，则执行a方案，如果包含右关键词，则执行b方案，否则进入音量锁定模块；

音量锁定模块：用于锁定m、n、o音量设定作为正面基准参数；

正面基准锁定模块：用于利用声纹识别技术将正面基准锁定仅适用于机主；获取模块：正面基准获取成功。

作为本发明的进一步改进，所述第二判断模块的a方案、b方案和所述回应模块的c方案具体如下：

所述a方案：m＝m+设定值、n、o不变；

所述b方案：n＝n+设定值、m＝m-设定值、o不变；

所述c方案：m＝m+设定值、n＝n+设定值、o＝o+设定值；

在执行所述第二判断模块的a方案、b方案和所述回应模块的c方案之前，还包括：

默认模块：用于默认左侧音量m、右侧音量n、背部音量o等于默认值；

在执行完所述第二判断模块的a方案、b方案和所述回应模块的c方案之后，还包括：

限制最高音量模块：用于通过m或者n或者o是否不大于设定音量，来判断音量是否为最高，如果是，则进入锁定模块，否则进入语音确认模块。

作为本发明的进一步改进，在所述a方案、所述b方案、所述c方案中，所述设定值为10；在所述默认模块中，所述默认值等于50db；在所述限制最高音量模块中，所述设定音量为90db。

本发明还公开了一种提高声源拾音准确度的多喇叭播放系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的多喇叭播放方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的多喇叭播放方法的步骤。

本发明的有益效果是：1.本发明的多喇叭播放方法，是针对患有耳背疾病群体(如老人群体)的方法，能帮助该群体提高在与智能设备的语音交互中的拾音准确度和平衡感，以达到最佳体验；2.本发明的多喇叭播放方法，通过结合多麦识别音源方位技术和多喇叭针对性播放调节，来提升人机交互时、患有耳背的设备机主对于获取设备语音内容的拾音准确度，进而提高智能设备与耳背群体的人机交互体验。

附图说明

图1是本发明的基准输出流程图；

图2是本发明的正面基准获取流程图。

具体实施方式

名词解释：

多麦阵列：环形6-mic阵列等，支持识别判断声源方位；

多喇叭(扬声器)：至少有2个独立的音频信号通道，支持立体声播放，即包括左右声道；

声纹识别：一种生物识别技术，支持识别人物声音进行身份确认；

分贝：量度两个相同单位之数量比例的计量单位，主要用于度量声音强度，常用db表示；

上位机：指可以直接发出操百控命令的计算机；

云台下位机：设备底部装有步进马达，可以根据上位机发送的指令(电脉冲信号)转化为相应的角位移，实现设备旋转。

本发明公开了一种声源拾音准确度的多喇叭播放方法，包括：

(1)喇叭正面基准和背面基准

正面基准：机主正面对着设备，机主手可操作设备的最大距离，设备与机主最佳交互的左右喇叭音量设定，即各独立声道输出的音量分贝高低设定不同(如机主为左耳背，则音量设定为左高右低)，保证机主获取设备声音的左右平衡感，提高对设备语音内容的拾音准确度。

正面基准作用：当麦克阵列确认机主在某个方位时，优先执行正面基准设定进行播放，并主动输出确认语音寻求机主回应，以多重确认方式、结合此基准进一步补充每个方位的最佳拾音准确度。

正面基准获取：通过设备开机初始化设置的引导语音功能，从中加入判断使用该设备机主的正面拾音能力机制。

结合声纹识别技术将所有基准设定参数锁定在仅可用于设备机主。

(2)以正面基准为基础，结合声源定位、云台控制设备主动旋转面向机主，保证机主在位于设备任何角度时，都能获得正面基准的体验。

(3)反面基准：与正面基准位置相反(即机主背对着设备)，把正面基准的喇叭音量设定参数进行左右互换，则为反面基准参数，前后左右方向均同理；

反面基准作用：当机主背对设备时仍能获取到同样的拾音准确度；

反面基准执行机制：机主主动输出切换指令(如：请切换到背面)，设备获取语音指令后，优先判断方位，再使用该方位基准进行左右参数互换输出即可；当机主方位发生改变时，优先执行已改变方位的基准参数，反面基准执行自动失效。

如图1所示，本发明公开的一种提高声源拾音准确度的多喇叭播放方法，包括执行以下步骤：

步骤s1：基准输出开始；

步骤s2：声纹识别发出语音者是否为机主；如果是，执行步骤s3，否则，执行步骤s6；

步骤s3：多麦阵列识别声源的方位是否发生改变，如果是，则执行步骤s4，否则执行步骤s5；

步骤s5：执行正面基准，提升机主的拾音准确度；

步骤s6：基准输出结束。

如图2所示，在所述步骤s5中，还包括执行以下步骤：

步骤1：设备输出默认确认语音v1；v1：请确认音量是否清晰；

步骤2：机主是否回应；如果回应，则执行步骤3，否则执行c方案；

步骤3：切换输出语音v2；v2：请确认左、右哪边不清晰；

步骤4：判断回应内容中是否包含不清晰等关键词，如果包含，则执行步骤5，否则执行是否为机主的首次回应判断，如果是机主的首次回应，则将机主定义为正常听力的使用者，否则，执行步骤5；

步骤5：判断回应内容中是否包含左or右关键词，如果包含左关键词，则执行a方案，如果包含右关键词，则执行b方案，否则执行步骤6；

步骤6：锁定m、n、o音量设定作为正面基准参数；

步骤7：利用声纹识别技术将正面基准锁定仅适用于机主；

步骤8：正面基准获取成功。

所述步骤5的a方案、b方案和所述步骤2的c方案具体如下：

所述a方案：m＝m+设定值、n、o不变；

所述b方案：n＝n+设定值、m＝m-设定值、o不变；

所述c方案：m＝m+设定值、n＝n+设定值、o＝o+设定值；

在执行所述步骤5的a方案、b方案和所述步骤2的c方案之前，还包括执行以下步骤：

默认步骤：默认左侧音量m、右侧音量n、背部音量o等于默认值；

在执行完所述步骤5的a方案、b方案和所述步骤2的c方案之后，还包括执行以下步骤：

限制最高音量步骤：通过m或者n或者o是否不大于设定音量，来判断音量是否为最高，如果是，则执行步骤6，否则返回执行步骤1。

在所述a方案、所述b方案、所述c方案中，所述设定值为10；在所述默认步骤中，所述默认值等于50db；在所述限制最高音量步骤，所述设定音量为90db。

本发明公开了一种提高声源拾音准确度的多喇叭播放装置，包括：

开始单元：用于基准输出开始；

声纹识别单元：用于声纹识别发出语音者是否为机主；如果是，进入多麦阵列识别单元，否则，进入输出单元；

多麦阵列识别单元：用于多麦阵列识别声源的方位是否发生改变，如果是，则进入云台判断单元，否则进入提升单元；

提升单元：用于执行正面基准，提升机主的拾音准确度；

输出单元：基准输出结束。

在所述提升单元中，还包括：

语音模块：用于设备输出默认确认语音v1；v1：请确认音量是否清晰；

回应模块：用于机主是否回应；如果回应，则执行步骤3，否则执行c方案；

语音切换模块：用于切换输出语音v2；v2：请确认左、右哪边不清晰；第一判断模块：用于判断回应内容中是否包含不清晰等关键词，如果包含，则进入提升模块，否则进入是否为机主的首次回应判断，如果是机主的首次回应，则将机主定义为正常听力的使用者，否则，进入第二判断模块；

第二判断模块：用于判断回应内容中是否包含左or右关键词，如果包含左关键词，则执行a方案，如果包含右关键词，则执行b方案，否则进入音量锁定模块；

音量锁定模块：用于锁定m、n、o音量设定作为正面基准参数；

正面基准锁定模块：用于利用声纹识别技术将正面基准锁定仅适用于机主；获取模块：正面基准获取成功。

所述第二判断模块的a方案、b方案和所述回应模块的c方案具体如下：

所述a方案：m＝m+设定值、n、o不变；

所述b方案：n＝n+设定值、m＝m-设定值、o不变；

所述c方案：m＝m+设定值、n＝n+设定值、o＝o+设定值；

在执行所述第二判断模块的a方案、b方案和所述回应模块的c方案之前，还包括：

默认模块：用于默认左侧音量m、右侧音量n、背部音量o等于默认值；

在执行完所述第二判断模块的a方案、b方案和所述回应模块的c方案之后，还包括：

限制最高音量模块：用于通过m或者n或者o是否不大于设定音量，来判断音量是否为最高，如果是，则进入锁定模块，否则进入语音确认模块。

在所述a方案、所述b方案、所述c方案中，所述设定值为10；在所述默认模块中，所述默认值等于50db；在所述限制最高音量模块中，所述设定音量为90db。

本发明公开了一种提高声源拾音准确度的多喇叭播放系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的多喇叭播放方法的步骤。

本发明公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时本发明所述的多喇叭播放方法的步骤。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除