语音控制方法、装置及计算机可读存储介质与流程

2021-01-28 15:01:17|

274|

起点商标网

本发明属于通信技术领域，尤其涉及一种语音控制方法、装置及计算机可读存储介质。

背景技术：

智能设备，是指具有计算处理能力的设备、器械或者机器，以蓝牙音箱为例，可以通过语音控制蓝牙音箱，如语音控制蓝牙音箱播放音乐。

目前，常采用云端识别技术对语音进行识别，由产品设备采集到用户讲话内容，将数据压缩处理后传输至云端，可能存在云端服务器无法识别数据的问题。

技术实现要素：

为解决上述技术问题，本发明实施例提供了一种语音控制方法、装置及计算机可读存储介质，确保云端可识别、解析出语音数据。

本发明实施例的第一方面提供了一种语音控制方法，包括以下步骤：采集语音数据；压缩处理所述语音数据；传输压缩处理后的语音数据至中央网关，将压缩处理后的语音数据进行解压缩，得到第一传输数据；将所述第一传输数据由中央网关传输至云端，识别、解析所述第一传输数据，解析后得到控制指令；传输所述控制指令至中央网关，将所述控制指令由中央网关传输至智能设备，控制智能设备执行所述控制指令对应的操作。

本发明实施例的第一方面的第一种可能实现的方式中，所述传输压缩处理后的语音数据至中央网关，将压缩处理后的语音数据进行解压缩，得到第一传输数据，包括：通过低功耗蓝牙协议传输压缩处理后的语音数据至中央网关，将压缩处理后的语音数据进行解压缩，得到第一传输数据。

本发明实施例的第一方面的第二种可能实现的方式中，所述采集语音数据之后，还包括：预处理所述语音数据。

本发明实施例的第一方面的第三种可能实现的方式中，所述采集语音数据之后，还包括：确定所述语音数据中是否含有唤醒词，若含有唤醒词，执行唤醒操作；其中，所述语音数据包含连续时间段内的语音片段的集合。

结合本发明实施例的第一方面的第三种可能实现的方式中，在第四种可能实现的方式中，所述确定所述语音数据中是否含有唤醒词，若含有唤醒词，执行唤醒操作之前，还包括：确认所述语音数据的声音能量是否大于预设能量阈值；当所述语音数据的声音能量大于预设能量阈值时，则确定所述语音数据中是否含有唤醒词，若含有唤醒词，执行唤醒操作。

本发明实施例的第二方面提供了一种语音控制装置，包括：采集模块，用于采集语音数据；压缩模块，用于压缩处理所述语音数据；第一传输模块，用于传输压缩处理后的语音数据至中央网关，将压缩处理后的语音数据进行解压缩，得到第一传输数据；识别模块，用于将所述第一传输数据由中央网关传输至云端，识别、解析所述第一传输数据，解析后得到控制指令；执行模块，用于传输所述控制指令至中央网关，将所述控制指令由中央网关传输至智能设备，控制智能设备执行所述控制指令对应的操作。

本发明实施例的第二方面的第一种可能实现的方式中，所述的语音控制装置还包括，预处理模块，用于预处理所述语音数据。

本发明实施例的第二方面的第二种可能实现的方式中，所述的语音控制装置还包括，唤醒模块，用于确定所述语音数据中是否含有唤醒词，若含有唤醒词，执行唤醒操作；其中，所述语音数据包含连续时间段内的语音片段的集合

本发明实施例的第三方面提供了语音控制装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明实施例的第四方面提供了计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音控制方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：

本发明实施例通过压缩处理语音数据可以降低语音数据对带宽的要求，降低功耗，通过中央网关对压缩处理后的数据进行解压缩，可以确保云端识别、解析出语音数据对应的控制指令。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音控制方法第一实施例的流程示意图；

图2是本发明提供的语音控制方法第一实施例的流程示意图；

图3是本发明提供的语音控制方法第一实施例的流程示意图；

图4是本发明提供的语音控制方法第一实施例的流程示意图；

图5是本发明提供的语音控制装置的第一实施例的结构示意图；

图6是本发明提供的语音控制装置的第二实施例的结构示意图；

图7是本发明提供的语音控制装置的第三实施例的结构示意图；

图8是本发明提供的语音控制装置的第四实施例的结构示意图；

图9是本发明提供的语音控制装置的结构示意图之一；

图10是本发明提供的语音控制装置的结构示意图之二。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

本发明实施例公开了一种语音控制方法、装置及计算机可读存储介质。

请参阅图1，图1示出了本发明第一实施例提供的语音控制方法的流程示意图，具体地：

s101，采集语音数据；

采集语音数据的主体为智能设备，智能设备可以是空调、洗衣机、音箱、电饭煲、冰箱、热水器、电饭煲、灯、窗帘或门等，可以通过设置在智能设备如音箱上的麦克风采集环境中的语音数据；其中语音数据可以为非特定人发出的语音。如发出语音“小空一号，打开空调，设置温度为27℃”。其中，非特定人发出的语音，其音色、频高、能量大小可以存在差异。

s102，压缩处理所述语音数据；

将所述语音数据进行压缩，通过压缩可以有效降低对传输带宽的要求，提高语音数据的传输效率。对于语音数据的压缩编码方式可以为波形编码、参数编码或混合编码的方式，但不限于上述编码方式。

s103，传输压缩处理后的语音数据至中央网关，将压缩处理后的语音数据进行解压缩，得到第一传输数据；

可以将智能设备如蓝牙音箱设置为中央网关，通过蓝牙音箱控制家庭中的其他智能设备；压缩处理后的语音数据传输至中央网关，中央网关对压缩处理后的语音数据进行管理、解压缩或转发。

将蓝牙音箱设置为中央网关时，蓝牙音箱可以实现将压缩处理后的语音数据进行解压缩；蓝牙音箱自身包含蓝牙无线模块，通过蓝牙无线模块的数据通道，可以实现相互传输数据，可以将智能设备压缩处理后的语音数据传输至蓝牙音箱。其中蓝牙无线模块所采取的协议可以为ble协议(低功耗蓝牙协议，bluetoothlowenergy)、rfcomm协议(电缆替代协议)、spp协议(串行端口协议，serialportprofile)、sco链路(synchronousconnectionoriented)或a2dp协议(蓝牙音频传输协议，advancedaudiodistributionprofile)，但不限于上述协议。

具体地，可以通过ble协议传输压缩处理后的语音数据至中央网关，将压缩处理后的语音数据进行解压缩，得到第一传输数据。通过ble传输可以降低成本和功耗。

s104，将所述第一传输数据由中央网关传输至云端，识别、解析所述第一传输数据，解析后得到控制指令；

云端接收到第一传输数据后，可以通过云端已建立完成的语音识别模型进行匹配分析，解析后得到控制指令；

其中，语音识别模型的建立，可以在云端进行识别前，采集大批的语音样本，这些样本可以来自不同的发声人，经过反复的训练，训练模型从不同发声人的语音样本中学习到不同的语音特征，通过分析归纳其相似性，建立语音识别模型。

s105，传输所述控制指令至中央网关，将所述控制指令由中央网关传输至智能设备，控制智能设备执行所述控制指令对应的操作。

如，发声人发出语音如“小空一号，打开空调，设置温度到27℃”，经云端识别解析后，中央网关将控制指令转发至一号空调，一号空调执行所述控制指令对应的操作。

结合图2，图2示出了本发明第二实施例提供的语音控制方法的流程示意图，在步骤s101之后，还包括，s106、预处理所述语音数据。

预处理操作可以对语音数据进行降噪，也可以对语音数据进行增强，增加语音识别、解析的准确度。

结合图3，图3示出了本发明第三实施例提供的语音控制方法的流程示意图，在步骤s101之后，还包括，

s107、确定所述语音数据中是否含有唤醒词，若含有唤醒词，执行唤醒操作；其中，所述语音数据包含连续时间段内的语音片段的集合。

如设置空调模式时，在一段时间内，发声人可能不连续发出语音“小空一号”和语音“打开空调，设置温度为27℃”，采集此段时间内的全部语音“小空一号”和“打开空调，设置温度为27℃”。

在一段时间内，发声人可能连续发出语音“小空一号，打开空调，设置温度为27℃”，采集此段时间内的语音“小空一号，打开空调，设置温度为27℃”。

智能设备在长时间未被触发或使用时，可以设置低功耗模式，低功耗模式下，智能设备仅有部分功能；当用户需要使用该智能设备时，需要对智能设备进行唤醒，唤醒智能设备后，智能设备恢复正常工作状态，具有全部功能。

采集所述语音数据，判断语音数据中是否含有唤醒词，语音数据中含有唤醒词，执行唤醒操作；语音数据中不含唤醒词，智能设备仍处于低功耗模式。

不同的智能设备可以设置不同的唤醒词，唤醒词可以包含智能设备的名称或包含智能设备的关键词，如客厅中的空调的名称可以命名为“一号空调”或“小空一号”；唤醒词的设置可以为出厂时预制，也可以由用户根据需求进行训练配置，由用户自由训练配置可以给用户带来更好的用户体验。

如智能设备为客厅中的空调时，空调处于低功耗模式，发声人发出语音后，空调采集到的语音数据为“小空一号”，空调在本地识别到唤醒词“小空一号”，唤醒空调的全部功能，空调恢复正常工作状态，空调继续采集语音数据“打开空调，设置温度为27℃”，空调可以将唤醒后采集到的语音数据如“打开空调，设置温度为27℃”压缩处理后、传输至中央网关、云端，空调也可以将采集到的全部语音数据如“小空一号，打开空调，设置温度为27℃”压缩处理后、传输至中央网关、云端，增加云端的二次验证识别，提高语音识别的准确性。

结合图4，图4示出了本发明第四实施例提供的语音控制方法的流程示意图，所述步骤s107之前，还包括：

s108、确认所述语音数据的声音能量是否大于预设能量阈值；当所述语音数据的声音能量大于预设能量阈值时，则确定所述语音数据中是否含有唤醒词，若含有唤醒词，执行唤醒操作。

所述语音数据的声音能量小于预设能量阈值时，智能设备仍处于低功耗模式。

预设能量阈值，可以避免误唤醒；

智能设备可以不间断地进行语音采集，当声音能量不大于预设能量阈值时，智能设备进入低功耗模式，降低智能设备的功耗；在声音能量大于预设能量阈值时，智能设备被唤醒。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例中，还提供了语音控制装置，语音控制装置包括各模块用于执行图1对应的实施例中的各步骤。具体请参阅图1对应的实施例中的相关描述。

图5是本发明提供的语音控制装置的第一实施例的结构示意图。如图5所示，该实施例的语音控制装置2包括，

采集模块21，用于采集语音数据；

压缩模块22，用于压缩处理所述语音数据；

第一传输模块23，用于传输压缩处理后的语音数据至中央网关，将压缩处理后的语音数据进行解压缩，得到第一传输数据；

识别模块24，用于将所述第一传输数据由中央网关传输至云端，识别、解析所述第一传输数据，解析后得到控制指令；

执行模块25，用于传输所述控制指令至中央网关，将所述控制指令由中央网关传输至智能设备，控制智能设备执行所述控制指令对应的操作。

图6是本发明提供的语音控制装置的第二实施例的结构示意图，基于图5，还包括预处理模块26，

所述预处理模块26，用于预处理所述语音数据。

图7是本发明提供的语音控制装置的第三实施例的结构示意图。基于图5，还包括唤醒模块27，

所述唤醒模块27，用于确定所述语音数据中是否含有唤醒词，若含有唤醒词，执行唤醒操作；其中，所述语音数据包含连续时间段内的语音片段的集合。

图8是本发明提供的语音控制装置的第四实施例的结构示意图。基于图7，还包括阈值判断模块28，

所述阈值判断模块28，用于确认所述语音数据的声音能量是否大于预设能量阈值；当所述语音数据的声音能量大于预设能量阈值时，则确定所述语音数据中是否含有唤醒词，若含有唤醒词，执行唤醒操作。

图9是本发明一实施例提供的语音控制装置的示意图。中央网关32与家庭中的智能设备31如空调、电灯、窗帘等进行双向数据无线传输，中央网关32可以通过互联网internet与云端33连接。

图10是本发明一实施例提供的语音控制装置的示意图。如图10所示，该语音控制装置6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62，例如语音控制的实现程序。所述处理器60执行所述计算机程序62时实现上述各个语音控制方法实施例中的步骤，例如图1所示的s101至s105。或者，所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图5所示模块21至25的功能。

示例性的，所述计算机程序62可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器61中，并由所述处理器60执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述语音控制装置6中的执行过程。例如，所述计算机程序62可以被分割成采集模块、压缩模块、第一传输模块、识别模块、执行模块(虚拟装置中的模块)，各模块具体功能如下：

采集模块，用于采集语音数据；压缩模块，用于压缩处理所述语音数据；第一传输模块，用于传输压缩处理后的语音数据至中央网关，将压缩处理后的语音数据进行解压缩，得到第一传输数据；识别模块，用于将所述第一传输数据由中央网关传输至云端，识别、解析所述第一传输数据，解析后得到控制指令；执行模块，用于传输所述控制指令至中央网关，将所述控制指令由中央网关传输至智能设备，控制智能设备执行所述控制指令对应的操作。

所述语音控制装置6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述语音控制装置6可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图5仅仅是所述语音控制装置6的示例，并不构成对所述语音控制装置6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述所述语音控制装置6还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述语音控制装置6的内部存储单元，例如所述语音控制装置6的硬盘或内存。所述存储器61也可以是所述语音控制装置6的外部存储设备，例如所述终端设备上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，所述存储器61还可以既包括所述语音控制装置6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除