音频设备及语音识别方法与流程

2021-01-28 12:01:23|

285|

起点商标网

[0001]
本申请涉及语音助手技术领域，具体而言，涉及一种音频设备及语音识别方法。

背景技术：

[0002]
随着人们对无线生活的追求，真无线耳机、无线音箱等音频设备进入了普通家庭。为了向用户提供更便利的使用体验，语音助手也开始应用于智能耳机、智能音箱。带语音助手的智能耳机、智能音箱一般功耗很高，尤其是有较高的待机功耗。而更低的功耗，能给用户带来很多便利。
[0003]
智能语音无线产品得到了越来越多的应用。但一般功耗较大。

技术实现要素：

[0004]
本申请实施例的目的在于提供一种音频设备及语音识别方法，用以降低具有语音助手功能的电子设备的功耗。
[0005]
本申请提供一种音频设备，包括：探测模块及语音活动检测模块，所述探测模块为雷达探测器或被动红外传感器，所述探测模块用于每隔第一预设时长发送探测信号，并在探测到所述探测信号的反射信号且所述反射信号满足预设条件时唤醒所述语音活动检测模块；所述语音活动检测模块用于在被唤醒后，检测有无语音信号。
[0006]
本申请中，探测模块每隔第一预设时长发送探测信号，相较于探测模块持续发送探测信号的方案能够降一定程度上低音频设备的功耗；并且，语音活动检测模块在探测模块探测到基于探测信号的反射信号且反射信号满足预设条件时才被唤醒并检测有无语音信号，相较于现有技术中具有语音助手功能的音频设备的语音活动检测模块持续地检测有无语音信号的方案能够进一步降低音频设备的功耗。
[0007]
在一种可能的实施方式中，所述探测模块还用于在唤醒所述语音活动检测模块后，每隔第二预设时长发送所述探测信号，所述第二预设时长大于所述第一预设时长。
[0008]
本申请中，探测模块在唤醒语音活动检测模块每隔第二预设时长发送探测信号，且第二预设时长大于第一预设时长，这样能够在维持探测模块的探测功能的同时，通过降低探测频率降低音频设备的功耗。
[0009]
在一种可能的实施方式中，所述探测模块在每次发出所述探测信号后，若超出第三预设时长未探测到所述探测信号的反射信号或者在第三预设时长内探测到所述探测信号的反射信号且所述反射信号不满足预设条件，指示所述语音活动检测模块切换至待机状态；以及在所述语音活动检测模块切换至待机状态后，切换至每隔所述第一预设时长发送所述探测信号。
[0010]
本申请中，探测模块在每间隔第二预设时长发射探测信号后，如果超出第三预设时长未探测到探测信号的反射信号或者在第三预设时长内探测到探测信号的反射信号但反射信号不满足预设条件，这表明用户并不想使用语音助手功能，此时指示语音活动检测模块切换至待机状态，能够一定程度上降低音频设备的功耗，而探测模块在语音活动检测
模块切换至待机状态后，切换至每隔第一预设时长发送探测信号能够保证探测模块的探测功能。
[0011]
在一种可能的实施方式中，所述探测模块还用于在确定所述语音活动检测模块被唤醒时，切换至待机状态。
[0012]
本申请中，探测模块在确定语音活动检测模块被唤醒时切换至待机状态，能够降低音频设备的功耗。
[0013]
在一种可能的实施方式中，所述语音活动检测模块还用于在超出第四预设时长未检测到语音信号时，切换至待机状态，并唤醒所述探测模块，使所述探测模块每隔所述第一预设时长发送所述探测信号。
[0014]
本申请中，语音活动检测模块在超出第四预设时长未检测到语音信号时，切换至待机状态能够一定程度上降低音频设备的功耗，同时，唤醒探测模块使得探测模块每个第一预设时长发送探测信号，能够保证用户后续在想要使用语音助手时，语音活动检测模块能够被及时唤醒，进而使得音频设备能够及时地对用户的语音指令进行响应。
[0015]
在一种可能的实施方式中，所述音频设备还包括无线传输模块，所述无线传输模块用于在所述语音活动检测模块检测到语音信号且需要将该语音信号发送至远端服务器时，将所述语音信号发送至所述远端服务器进行关键字检测和/或语音识别，以及接收所述远端服务器反馈的关键字检测结果和/或语音识别结果。
[0016]
本申请中，通过无线传输模块在语音活动检测模块检测到语音信号时，将所述语音信号发送至远端服务器进行关键字检测和/或语音识别，以及接收远端服务器反馈的关键字检测结果和/或语音识别结果，一方面，能够减轻音频设备本地的运算压力，另一方面，由于远端服务器的运算能力通常强于音频设备，因此，能够较为准确且高效地对用户语音指令进行识别。
[0017]
在一种可能的实施方式中，在所述探测模块为雷达探测器时，所述无线传输模块与所述雷达探测器使用相同频段；所述雷达探测器的收发天线与所述无线传输模块的收发天线复用；以及所述雷达探测器与所述无线传输模块复用射频电路。
[0018]
本申请中，雷达探测器与无线传输模块使用相同频段，且两者的收发天线及射频电路复用简化音频设备的结构，一定程度上能够减低音频设备的成本。
[0019]
在一种可能的实施方式中，所述无线传输模块在所述探测模块探测到所述探测信号的反射信号时被唤醒；或者，在所述语音活动检测模块确定检测到语音信号时被唤醒；或者，在所述语音活动检测模块检测到语音信号且需要将该语音信号发送至远端服务器进行关键字检测和/或语音识别时被唤醒。
[0020]
本申请中，无线传输模块在探测模块探测到探测信号的反射信号时被唤醒；或者，在语音活动检测模块确定检测到语音信号时被唤醒；或者，在语音活动检测模块检测到语音信号且需要该语音信号发送至远端服务器进行关键字检测和/或语音识别时被唤醒，而非一直处于唤醒状态，由此可以一定程度上降低音频设备的功耗。
[0021]
在一种可能的实施方式中，所述音频设备还包括处理模块，所述处理模块用于获取所述无线传输模块所接收的所述远端服务器反馈的关键字检测结果和/或语音识别结果，并根据所述关键字检测结果和/或语音识别结果进行相应的操作。
[0022]
在一种可能的实施方式中，所述音频设备还包括处理模块，用于在所述语音活动
检测模块检测到语音信号后，对该语音信号进行语音识别，并根据所述语音识别结果进行相应的操作。
[0023]
在一种可能的实施方式中，所述处理模块包括关键字检测子模块，语音识别子模块及执行子模块，所述关键字检测子模块用于在所述处理模块确定对所述语音活动检测模块所检测到的语音信号进行语音识别时被唤醒，对所述语音活动检测模块所检测到的语音信号进行关键字检测，并在确定关键字匹配时，唤醒所述语音识别子模块；所述语音识别子模块用于对所述语音活动检测模块所检测到的语音信号进行语音识别，并输出语音识别结果；所述执行子模块用于在所述语音识别子模块输出所述语音识别结果时被唤醒，并根据所述语音识别结果进行相应的操作。
[0024]
本申请还提供一种语音识别方法，应用于前述音频设备，所述语音识别方法包括：通过所述探测模块每隔第一预设时长发送探测信号；在所述探测模块探测到所述探测信号的反射信号且所述反射信号满足预设条件时，唤醒所述语音活动检测模块；在所述语音活动检测模块被唤醒后，通过所述语音活动检测模块检测有无语音信号。
[0025]
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。
附图说明
[0026]
为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
[0027]
图1为本申请一实施例提供的音频设备的结构框图；
[0028]
图2为本申请一实施例提供的语音识别方法的流程图。
[0029]
图标：音频设备10；探测模块11；语音活动检测模块12；处理模块13；关键字检测子模块131；语音识别子模块132；执行子模块133；无线传输模块14。
具体实施方式
[0030]
为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。
[0031]
请参阅图1，本申请一实施例提供一种音频设备10，具有语音助手功能。该音频设备10可以是无线耳机，无线音箱，手机，平板电脑等电子设备。
[0032]
音频设备10包括探测模块11及语音活动检测模块12。
[0033]
探测模块11用于每隔第一预设时长发送探测信号，并在探测到探测信号的反射信号且反射信号满足预设条件时唤醒语音活动检测模块12。这里，第一预设时长可以根据需要进行设定，例如，可以设为0.1s，1s或10s等。预设条件可以是反射信号相对于探测信号的多普勒频移大于第一预设值，或者反射信号相对于探测信号的延时小于第二预设值，或者反射信号相对探测信号反射能量大于第三预设值中的任一者或任几者的组合。可以理解，第一预设值，第二预设值及第三预设值可以根据需要设定，本申请对此不作限定。
[0034]
通过探测模块11发送探测信号，并在探测到探测信号的反射信号且反射信号满足预设条件时唤醒语音活动检测模块12，可以避免语音活动检测模块12一直处于激活状态所导致的功耗；还可以使得语音活动检测模块12基于触发条件被唤醒并工作，有利于使得语音助手的使用根据用户的需要进行，更符合用户的使用习惯，提升用户体验。另外，探测模块11每隔第一预设时长发送探测信号，而非持续发送探测信号，有助于进一步节省功耗。
[0035]
探测模块11可以是雷达探测器或被动红外传感器等探测元件。
[0036]
当探测模块11为雷达探测器时，探测模块11向外发送电磁波(即，探测信号)；电磁波遇到物体后，发生反射；被反射的电磁波(即，反射信号)通过探测模块11接收；通过基于向外发送的电磁波及被反射的电磁波的可以获得物体相对于探测模块11的距离，速度及角度，此部分为本领域现有技术，因此，不作展开介绍。雷达探测器的功耗较低，通过每间隔第一预设时长发送探测信号，能够进一步降低功耗。可以理解，雷达探测器可以探测运动的物体(通过对比前后两个时刻接收到的被反射的电磁波的变化)，本实施例中，雷达探测器在探测到运动的物体时，确定探测到用户，然后，唤醒语音活动检测模块12。由此，可以避免雷达探测器因为探测到被静物(例如，家具，墙体等)反射的电磁波，而唤醒语音活动检测模块12，导致音频设备10的功耗增加的问题。
[0037]
当探测模块11为被动红外传感器时，探测模块11可以基于热释电效应(将温度变化转化为电荷信号)来检测是否有人进入到探测模块11的探测区域(或者说，探测范围)。当有用户进入到探测模块11的探测区域时，由于人体体温的影响，相较于探测区域无人的情况，温度发生了变化，探测模块11将温度变化转化为电荷信号。此时，可以在有电荷信号产生时，确定反射信号满足预设条件。
[0038]
语音活动检测模块12用于在被唤醒后，检测有无语音信号。语音活动检测模块12可以进行语音活动检测，语音端点检测，语音边界检测等，能够在较低功耗下检测有无语音。需要说明的是，语音活动检测模块12可以进行远场语音识别和/或近场语音识别等。可以理解，本实施例中，音频设备10可以包括拾音模块(例如，数字麦克风或模拟麦克风等)，用于采集音频信号。可以理解，音频信号可以包括环境音及语音信号等。语音活动检测模块12与拾音模块连接。拾音模块所采集的音频信号可以作为语音活动检测模块12的输入。语音活动检测模块12用于在被唤醒后，基于该音频信号检测有无语音信号。需要说明的是，基于音频信号检测有无语音信号的具体内容为本领域现有技术在此不展开说明。
[0039]
本实施例中，音频设备10还可以包括处理模块13。
[0040]
处理模块13用于在对语音活动检测模块12所检测到的语音信号进行语音识别，并根据语音识别结果进行相应的操作。例如，在语音识别结果表征播放音乐时，控制音频设备10播放音乐；在语音识别结果表征调整音量时，对音频设备10的音量进行相应的调整；或者，在语音识别结果表征用户在进行问询时，根据所识别出的用户问询的具体问题，从预设的应答库中查找相应的应答内容或联网获取用户所问询的问题的应答内容，并进行反馈(例如，语音播放或页面展示)等等。
[0041]
具体地，处理模块13可以包括关键字检测子模块131，语音识别子模块132及执行子模块133。
[0042]
关键字检测子模块131用于在处理模块13确定对语音活动检测模块12所检测到的语音信号进行语音识别时被唤醒，对语音活动检测模块12所检测到的语音信号进行关键字
检测；并在确定关键字匹配时，唤醒语音识别子模块132。
[0043]
语音识别子模块132用于对语音活动检测模块12所检测到的语音信号进行语音识别，并输出语音识别结果。
[0044]
执行子模块133用于在语音识别子模块132输出语音识别结果时被唤醒，并根据语音识别结果进行相应的操作。
[0045]
本申请实施例所提供的音频设备中，探测模块每隔第一预设时长发送探测信号，相较于探测模块持续发送探测信号的方案能够降一定程度上低音频设备的功耗；并且，语音活动检测模块在探测模块探测到基于探测信号的反射信号且反射信号满足预设条件时才被唤醒并检测有无语音信号，相较于现有技术中具有语音助手功能的音频设备的语音活动检测模块持续地采集语音信号并做语音活动检测的方案能够进一步降低音频设备的功耗。
[0046]
可以理解，其他实施例中，处理模块13还可以包括降噪模块。降噪模块用于当语音活动检测模块12检测到的语音信号后被唤醒，对语音信号进行降噪处理，并将降噪处理后的语音信号发送至关键字检测子模块131进行关键字检测。
[0047]
可以理解，本实施例中，探测模块11还用于在唤醒语音活动检测模块12后，每隔第二预设时长发送探测信号，第二预设时长大于第一预设时长。这样，能够在维持探测模块11的探测功能的同时，通过降低探测频率降低音频设备10的功耗。需要说明的是，第二预设时长可以根据需要设定，例如，可以设为几秒，几十秒或几百秒，本申请对此不作限定，只要第二预设时长大于第一预设时长即可。
[0048]
可以理解，本实施例中，探测模块11还可以用于在每次发出探测信号后，若超出第三预设时长未探测到探测信号的反射信号，或者在第三预设时长内探测到探测信号的反射信号但反射信号不满足预设条件，指示语音活动检测模块12切换至待机状态；以及在语音活动检测模块12切换至待机状态后，切换至每隔第一预设时长发送探测信号。
[0049]
需要说明的是，探测模块11在每间隔第二预设时长发射探测信号后，如果超出第三预设时长未探测到探测信号的反射信号，或者在第三预设时长内探测到探测信号的反射信号但反射信号不满足预设条件，这表明用户并不想使用语音助手功能，此时指示语音活动检测模块12切换至待机状态，能够一定程度上降低音频设备的功耗，而探测模块11在语音活动检测模块12切换至待机状态后，切换至每隔第一预设时长发送探测信号能够保证探测模块11的探测功能。
[0050]
可以理解，本实施例中，探测模块11还用于在确定语音活动检测模块12被唤醒时，切换至待机状态。由此，可以降低音频设备10的功耗。
[0051]
可以理解，其他实施例中，语音活动检测模块12还用于在超出第四预设时长未检测到语音信号时，切换至待机状态，并唤醒探测模块11，使探测模块11每隔第一预设时长发送探测信号。第四预设时长可以根据需要设定，本申请对此不作限定。当语音活动检测模块12在超出第四预设时长未检测到语音信号时，通过将其切换至待机状态能够一定程度上降低音频设备的功耗，同时，唤醒探测模块11使得探测模块11每隔第一预设时长发送探测信号，能够保证用户后续在想要使用语音助手时，语音活动检测模块12能够被及时唤醒，进而使得音频设备能够及时地对用户的语音指令进行响应。
[0052]
可以理解，本实施例中，音频设备10还包括无线传输模块14。无线传输模块14可以
是蓝牙模块，或wifi模块(例如，3g通信模块，4g通信模块，或5g通信模块等)等。无线传输模块14用于与远端服务器进行数据交互。
[0053]
具体地，无线传输模块14用于在语音活动检测模块12检测到语音信号且需要将该语音信号发送至远端服务器时，将该语音信号发送至远端服务器进行关键字检测和/或语音识别，以及接收远端服务器反馈的关键字检测结果和/或语音识别结果。
[0054]
当无线传输模块14用于在语音活动检测模块12检测到语音信号且需要将该语音信号发送至远端服务器时，将该语音信号发送至远端服务器进行关键字检测时，处理模块13可以用于获取无线传输模块14所接收到的远端服务器反馈的关键字检测结果，并在关键字检测结果表征关键字匹配时，对该语音信号进行语音识别，以及根据语音识别结果进行相关的操作。语音识别及根据语音识别结果进行相关的操作的具体内容与前述实施例所介绍的内容对应，在此不再赘述。此时，处理模块13中的关键字检测子模块131可省略。
[0055]
当无线传输模块14用于在语音活动检测模块12检测到语音信号且需要将该语音信号发送至远端服务器时，将该语音信号发送至远端服务器进行关键字检测及语音识别时，处理模块13可以用于获取无线传输模块所接收的远端服务器反馈的语音识别结果，并根据语音识别结果进行相应的操作。此时，处理模块13中的关键字检测子模块131及语音识别子模块132可省略。
[0056]
当无线传输模块14用于在语音活动检测模块12检测到语音信号且需要将该语音信号发送至远端服务器时，将该语音信号发送至远端服务器进行语音识别时，处理模块13可以用于对获取无线传输模块14所接收到的远端服务器反馈的语音识别结果，并基于语音识别结果进行相关的操作。这种情况下，关键字检测可以由处理模块13完成，而语音识别可以由远端服务器完成。此时，处理模块13中的语音识别子模块132可省略。
[0057]
通过无线传输模块将语音活动检测模块12所采集到的语音信号发送至远端服务器进行关键字检测和/或语音识别，以及接收远端服务器反馈的关键字检测结果和/或语音识别结果，一方面，能够减轻音频设备10本地的运算压力，另一方面，由于远端服务器的运算能力通常强于音频设备10，因此，能够较为准确且高效地对用户语音指令进行识别。
[0058]
可以理解，无线传输模块14可以在探测模块11探测到探测信号的反射信号时被唤醒；或者，在语音活动检测模块12确定检测到语音信号时被唤醒；或者，在语音活动检测模块12确定将所检测到语音信号且需要将该语音信号发送至远端服务器进行关键字检测和/或语音识别时被唤醒。通过这样的方式使得无线传输模块14根据需要被唤醒，而非一直处于唤醒状态，由此可以一定程度上降低音频设备10的功耗。
[0059]
可以理解，在探测模块11为雷达探测器时，无线传输模块14与雷达探测器使用相同频段(例如，2.4g频段，5.8g频段等)。雷达探测器的收发天线与无线传输模块14的收发天线可以复用，且雷达探测器与无线传输模块14可以复用射频电路(例如，复用vco，pll，lna等)。
[0060]
通过使雷达探测器与无线传输模块使用相同频段，且两者的收发天线及射频电路复用简化音频设备的结构，一定程度上能够减低音频设备的成本。
[0061]
请参阅图2，基于同一发明构思，本申请实施例中还提供一种语音识别方法，应用于前述音频设备10，语音识别方法包括以下步骤。
[0062]
步骤s11，通过探测模块每隔第一预设时长发送探测信号。
[0063]
步骤s12，在探测模块探测到探测信号的反射信号且反射信号满足预设条件时，唤醒语音活动检测模块。
[0064]
步骤s13，在语音活动检测模块被唤醒后，通过语音活动检测模块检测有无语音信号。
[0065]
可以理解，本申请提供的语音识别方法与本申请提供的音频设备对应，为使说明书简洁，相同或相似部分可以参照音频设备部分的内容，在此不再赘述。
[0066]
在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0067]
另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0068]
再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0069]
在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0070]
以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除