智能设备的语音识别方法及装置与流程

2021-01-28 14:01:20|

298|

起点商标网

本发明涉及物联网语音技术领域，具体而言，涉及一种智能设备的语音识别方法及装置。

背景技术：

随着语音技术的发展和物联网技术的成熟，家庭内对于语音这种便捷、自然交互方式的需求日益增大。

但是在家电、家具等传统家用产品中，运算能力有限，难以支撑完整的语音算法，如果从零构件完整的语音能力，成本很高。

市场上的相关解决方案中，普遍采用在设备端植入“语音模块”或者增加智能屏幕的方式，对硬件的改动较大、对单台硬件的成本极高。使用类似方案构建分布式入口，成本高。设备未联网情况下，使用同一命令词的设备会被同时唤醒，造成交互的混乱。且模块(一般为低端芯片，rom<1g)的处理能力一般较为有限，离线情况下仅能支持有限命令词。

技术实现要素：

本发明实施例提供了一种智能设备的语音识别方法及装置，以至少解决相关技术中语音交互时多台设备均被唤醒的问题。

根据本发明的一个实施例，提供了一种智能设备的语音识别方法，包括：智能终端接收多个设备上传的多个唤醒音频信号；所述智能终端根据所述多个唤醒音频信号的音频质量从所述多个设备中选择一个对应的设备作为录音设备；所述智能终端接收所述录音设备录制的语音信息，并对所述语音信息进行语音识别；所述智能终端根据语音识别内容向所述录音设备发送处理结果。

可选地，在智能终端接收多个设备上传的多个唤醒音频信号之前，还包括：处于监听状态的所述多个设备分别将检测到的唤醒音频信号上传到所述智能终端。

可选地，所述智能终端根据所述多个唤醒音频信号的质量从所述多个设备中选择一个对应的设备作为录音设备，包括：所述智能终端对多个唤醒音频信号的音频指标进行比较，确定一个音频质量最好的唤醒音频信号，其中，所述音频指标包括以下至少之一：振幅、信噪比、声纹、辨识度；将音频质量最好的唤醒音频信号对应的设备作为所述录音设备。

可选地，在所述智能终端根据所述音频质量从所述多个设备中选择一个对应的设备作为录音设备之后，还包括：所述录音设备启动录音，并将录制的音频流式上传到所述智能终端。

可选地，所述智能终端对所述录音设备上传的语音信息进行语音识别，包括以下至少之一：所述智能终端上传所述语音信息到云端，由所述云端对所述语音信息进行语音识别；由所述智能终端对所述语音信息进行语音识别。

可选地，在所述智能终端接收所述录音设备录制的语音信息之后，还包括：所述智能终端根据所述录音设备上传的语音信息判断是否结束录音。

可选地，所述智能设备从所述多个设备接收到的唤醒音频信号和/或所述语音信息的协议数据包中至少包括以下之一字段：设备id，时间戳、音频、vad状态、操作方式。

根据本发明的另一个实施例，提供了一种智能设备的语音识别装置，包括：接收模块，用于接收多个设备上传的多个唤醒音频信号；选择模块，用于根据所述多个唤醒音频信号的音频质量从所述多个设备中选择一个对应的设备作为录音设备；识别模块，用于接收所述录音设备录制的语音信息，并对所述语音信息进行语音识别；发送模块，用于根据语音识别内容向所述录音设备发送处理结果。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明的上述实施例，在设备的语音交互中，通过智能终端对获取的多个唤醒音频信号进行筛选，选择质量最好的唤醒音频信号的设备作为录音设备，因此，可以解决相关技术中语音交互时多台设备均被唤醒的问题，从而达到提高语音识别准确率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的智能设备的语音识别方法的流程图；

图2是根据本发明实施例的智能设备的语音识别装置的结构框图；

图3是根据本发明可选实施例的智能设备的语音识别交互流程的示意图；

图4是根据本发明可选实施例的设备与智能终端的交互示意图；

图5是根据本发明可选实施例的私有协议字段定义形式的示意图；

图6是根据本发明可选实施例的用户、设备、智能终端与云服务平台交互的时序图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好的理解本发明实施例以及可选实施例的技术方案，以下对本发明实施例以及可选实施例中可能出现的应用场景进行说明，但不用于限定以下场景的应用。

实施例1

在本实施例中提供了一种智能设备的语音识别方法，图1是根据本发明实施例的智能设备的语音识别方法的流程图，如图1所示，该流程包括如下步骤：

步骤s101，智能终端接收多个设备上传的多个唤醒音频信号。在本实施例中，所述智能终端是具备一定运算能力的设备，能够独立进行逻辑运算和存储，所述设备可预置麦克(mic)，搭载蓝牙或wifi模块，能够与智能终端实现连接和交互。本实施例中的唤醒信号可以是通过按钮、手势或语音等交互方式产生的信号，例如，用户通过语音方式说出指定的唤醒词。

在本实施例的步骤s101之前，多个设备均处于监听状态，并将监测到的唤醒音频信号上传到所述智能终端，该唤醒音频信号可以采用wifi或蓝牙的方式上传给智能终端。

步骤s102，所述智能终端根据所述多个唤醒音频信号的音频质量从所述多个设备中选择一个对应的设备作为录音设备。

在本步骤中，所述智能终端可对接收到的多个唤醒音频信号的音频指标，例如，振幅、信噪比、声纹、辨识度等进行比较，从而确定一个音频质量最好的唤醒音频信号，从而将音频质量最好的唤醒音频信号对应的设备作为所述录音设备。例如，所述振幅越大，即声音越大，代表距离越近。所述信噪比越高，代表声音越清晰。所述智能终端经过对多路音频筛选，可以获取高质量的音频，有利于提高识别准确率。另外，在本步骤中，也可以综合上述音频指标来进行音频质量的判断。

本实施例的多路音频筛选，根据清晰度和音量判断用户距离，选择相应的设备，从而避免了语音交互时多台设备同时被唤醒，且确保了离用户最近的设备响应。

在本实施例的步骤s102之后，还可以包括：所述录音设备启动录音，并将录制的音频流式上传到所述智能终端。所述流式传输方式可以达到随传随用的特点，大大降低了所述智能终端分析所述音频的等待时间。

步骤s103，所述智能终端接收所述录音设备录制的语音信息，并对所述语音信息进行语音识别。

在本步骤中，智能终端可根据联网状态来确定语音识别方式。例如，如果该智能终端离线，则该智能终端自身进行语音识别处理，或连接局域网内其他智能终端进行语音识别处理。如果在线，则可调用语音助手接口将音频上传至云端，由云端进行语音识别处理。因此，一方面可充分利用云端资源，另一方面也减小了所述智能终端对网络连接状态的依赖。

在本实施例的步骤s103之后，还可以包括步骤：所述智能终端根据所述录音设备上传的语音信息判断是否结束录音。例如，可通过语音信息中携带的结束指令来判断录音是否结束。

步骤s104，所述智能终端根据语音识别内容向所述录音设备发送处理结果。在本步骤中，如果所述智能终端处于联网状态，则智能终端可从云端获取语音识别结果后发送给相应的录音设备，否则，所述智能终端将本地识别的语音设备结果发送给所述录音设备，所述录音设备可以播报该结果。

在本实施例中，所述智能终端与设备之间的数据交互可在通用协议基础上，按照私有协议进行编解码。例如，所述智能设备从所述多个设备接收到的唤醒音频信号和/或所述语音信息的协议数据包中至少可包括以下之一字段：设备id，时间戳、音频、vad(voiceactivitydetection)状态、操作方式。例如，设备id可用于指示具体网器，时间戳字段用于指示数据发送或接收时间，音频字段用于携带音频数据，vad状态字段可用于指示录音结束，操作方式字段可以用于指示唤醒操作方式，例如，01表示按键，02表示语音唤醒，03表示其他。

上述的私有协议可基于传输控制协议(transportcontrolprotocol，tcp)+用户数据报协议(userdatagramprotocol,udp)等通用协议设计，另外，音频传输可采用实时传输协议(real-timetransportcontrolprotocol，rtcp)实现。在本实施例中，通过制定私有协议，实现设备对智能终端算力的复用，进而实现降低设备硬件成本的效果。

通过上述步骤，由于使用智能终端选择录音设备，因此，解决了相关技术中语音交互时多台设备均被唤醒的问题，提高了嘈杂环境下的识别准确率。同时通过制定智能终端与设备的数据交互的私有协议，利用所述智能终端同时接收并分析多个所述设备发送的语音信息，实现设备对智能终端算力的复用,进而实现降低设备硬件成本的效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种智能设备的语音识别装置，，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的智能设备的语音识别装置的结构框图，如图2所示，该装置包括接收模块10、选择模块20、识别模块30及发送模块40。

接收模块10，用于接收多个设备上传的多个唤醒音频信号；

选择模块20，用于根据所述多个唤醒音频信号的音频质量从所述多个设备中选择一个对应的设备作为录音设备；

识别模块30，用于接收所述录音设备录制的语音信息，并对所述语音信息进行语音识别；

发送模块40，用于根据语音识别内容向所述录音设备发送处理结果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

为了便于对本发明所提供的技术方案的理解，下面将结合具体场景的实施例进行详细阐述。

现阶段，相关方案具有成本高，对硬件产品本身改动大的弊端。安装模块的多个设备会被同时唤醒，造成交互的混乱，且离线情况下的语音能力非常有限。

本发明实施例将原有语音交互系统模块化、解构，通过不同设备之间的连接，实现语音运算能力的共享。

同时，通过设备之间运算能力和网络通信能力的复用，能够减少设备改造成本(只需增加mic及信号处理模块即可)，通过家庭内组网，实现响应设备的判断，避免多设备同时响应，同时能够实现多个设备同时录音，对不同设备录下的音频进行预处理(根据不同设备的录音内容对信噪比、完整度等多个指标，选择质量最高的音频用于识别；通过多路音频相互之间消除背景噪音)，以提升家庭嘈杂环境下的识别效果。

本发明实施例所涉及的相关术语说明如下：

用户：设备的使用者；

设备/网器：预置mic，搭载蓝牙或wifi模块，能够与智能终端实现连接的独立产品；

智能终端：具备一定复杂运算能力的设备，能够独立进行逻辑运算、存储；

平台：云端的能力集合。

图3是根据本发明可选实施例的智能设备的语音识别交互流程的示意图，如图3所示，该交互过程包括如下步骤：

步骤s301，设备正常运行过程中，处于监听状态；

步骤s302，用户通过按钮、手势或语音，发起交互需求时，同时所述设备检测到唤醒信号；

步骤s303，所述设备自查是否已经连接到智能终端，如已连接，上传唤醒音频信息及设备编码；

步骤s304，所述智能终端根据音频的振幅、信噪比、声纹及辨识度指标，选定录音的设备；

步骤s305，确定所述录音设备后，所述录音设备启动录音，其中，录音过程中，音频采用流式上传的方式上传给所述智能终端；

步骤s306，所述智能终端根据联网状态判断，如离线，则连接局域网内智能终端处理，如在线，调研语音助手接口将音频上传至云端处理；

步骤s307，所述智能终端根据音频判断是否结束录音；

步骤s308，所述云端或所述智能终端根据音频内容，给出处理结果，并在所述设备端播报。

图4是根据本发明可选实施例的设备与智能终端的交互示意图，如图4所示，智能终端作为边缘计算节点，为网器提供运算能力。

在本实施例中，设备与智能终端在蓝牙(ble)/wifi等通用协议基础上，按照私有协议进行编解码，其中，图5是根据本发明可选实施例的私有协议字段定义形式的示意图，如图5所示，私有协议定义如下：

关键字段可包括网器id，时间戳、音频，vad状态、操作方式等。

所述协议可基于tcp(transportcontrolprotocol)+udp(userdatagramprotocol)等通用协议设计，音频传输采用实时传输协议(real-timetransportcontrolprotocol，rtcp)实现。

本实施例中设备与智能终端将的交互过程如下：

步骤s401，所述设备端的唤醒模块持续运行，检测到唤醒动作后，对信号进行编码，调用所述ble/wifi模块，通过所述ble/wifi进行信号传输；

步骤s402，所述智能终端侧的ble/wifi模块接收到协议后，调用os(operatingsystem)层的协议栈，将编码信号传送至语音助手app；

步骤s403，所述语音助手app对信号进行解码，并根据交互定义响应；

步骤s404，所述语音助手通过同样路径与设备进行通信，向对应id的网器发送回复音频、业务指令，并由所述网器接收执行，其中，业务指令可包含“是否进行下一轮”标签。

图6是根据本发明可选实施例的用户、设备、智能终端与云服务平台交互的时序图，如图6所示，该流程包括如下步骤：

步骤s601，网器(设备)配置完成，进入语音监测状态。

步骤s602，用户发出语音唤醒信号，例如，说出指定的唤醒词。

步骤s603，如所述用户家中有多台带有mic的网器，多路所述网器收集到的语音唤醒信号同时传到局域网(wifi或蓝牙)内的智能终端；

步骤s604，智能终端对音频进行判断打分，其中：

网器上传字段可包括，网器id、时间戳、音频、操作方式(仅在操作方式＝语音唤醒且同一时间存在多个请求的情况下进行打分判断)；

打分因素包括声波振幅、信噪比及声纹，其中，所述声波振幅越大、声音越大、距离越近，所述信噪比越高、声音越清晰，所述声纹用于判断说话人数；

打分规则为，最终得分＝((snr*α)+(a*β))/n，其中，n＝声纹检测人数，snr(signalnoiseratio)＝信噪比，a＝声波振幅，α＝0.55，

β＝0.45；

如所述用户通过按键、手势等其他方式唤醒，则上传操作端的网器id，不需判断响应设备。

步骤s605，确定分值最高音频对应的网器id，并对该网器下发录音指令。

步骤s606，所述网器提示用户可以进入语音交互。

步骤s607，所述网器进入录音状态。

步骤s608，所述网器实时上传录音至智能设备。

步骤s609，所述智能设备调用本地引擎或平台服务，进行识别操作，，例如，将录音发送至云端进行识别。

步骤s610，所述网器录音结束。

步骤s611，智能设备判断出录音结束，并通知云端。

步骤s612，云端将设备结果返回至所述智能终端

步骤s613，所述智能终端将识别结果分发至对应id网器进行播报。

本发明实施例提供了一种根据信噪比、音强信息判断响应网器/用户位置的方法，同时提供了一种智能终端作为边缘计算节点，语音网器借力智能终端实现低成本语音交互能力的方法。

本发明实施例通过智能终端设备算力的复用，能够降低入口产品的bom成本和开发成本。

同时，多路音频筛选，获取质量最高的音频，有利于提高识别准确率。

最后，多路音频筛选，根据清晰度、音量判断用户距离，能够避免语音交互时多台网器同时被唤醒，且确保离用户最近的网器进行响应。

实施例4

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

s1，智能终端接收多个设备上传的多个唤醒音频信号；

s2，所述智能终端根据所述多个唤醒音频信号的音频质量从所述多个设备中选择一个对应的设备作为录音设备；

s3，所述智能终端接收所述录音设备录制的语音信息，并对所述语音信息进行语音识别；

s4，所述智能终端根据语音识别内容向所述录音设备发送处理结果。

可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(read-onlymemory，简称为rom)、随机存取存储器(randomaccessmemory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例5

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

s1，智能终端接收多个设备上传的多个唤醒音频信号；

s2，所述智能终端根据所述多个唤醒音频信号的音频质量从所述多个设备中选择一个对应的设备作为录音设备；

s3，所述智能终端接收所述录音设备录制的语音信息，并对所述语音信息进行语音识别；

s4，所述智能终端根据语音识别内容向所述录音设备发送处理结果。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。