语音对话方法及系统与流程

2021-01-28 16:01:10|

347|

起点商标网

本发明涉及语音识别及应用领域。本发明具体涉及一种语音对话方法及系统。

背景技术：

现有的语音对话方法技术包括“前置策略-离在线分离”及“后置策略-离在线混合”。

其中，“前置策略-离在线分离”是基于识别网络状态，通过跟随网络状态的变化动态切换对话策略的方案：处于无网络和弱网络场景下，自动切换到离线对话模式；处于网络正常的场景下，自动切换到在线对话模式。

“后置策略-离在线混合”是无关网络状态，同时启用离在线技术的方案：开启对话时，同时开启离线对话和在线对话。识别结束后，综合判断离线gram/ngram识别结果+领域强弱。若置信度较高，则直接使用离线结果；若置信度较低，则等待在线结果。

发明人在实现本申请的过程中发现：尽管以上技术都能够做到在绝大多数场景下进行正常对话，但是都存在无法正常对话的场景。

对于“前置策略-离在线分离”的方案来说，该方案在网络波动较大的情况下，对话的体验会因为网络原因无法顺利进行，该方案下的在线对话只适合网络状态较好的场景。

对于“后置策略-离在线混合”的方案来说，该方案对本地对话的准确率极为依赖，理论上本地识别的速度是快于在线对话的，如果本地对话的准确率不高，置信度不够准确，那么对话结果以及体验将会无法得到保证，另外由于同时开启了离在线对话的功能也增加了cpu负载和内存占用。

技术实现要素：

本发明实施方式提供一种语音对话方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施方式中提供一种语音对话方法，该方法能够在包括识别终端和远程语音识别服务端的系统中，识别终端和远程语音识别服务端能够数据通信。识别终端能够获取当前语音信息。

上述语音对话方法包括：

步骤s101，识别终端判断是否存在网络连接信息，若是，则跳转到步骤s102，若否，则跳转到步骤s103。

步骤s102，识别终端将当前语音信息发送到远程语音识别服务端。

远程语音识别服务端能够识别当前语音信息，获取当前识别数据且返回识别终端。

识别终端判断是否在设定时间内接收当前识别数据，若接收，则根据当前识别数据获取当前对话结果。若不能接收，则根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

步骤s103，识别终端根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

第二方面，本发明实施方式中提供一种语音对话系统。

语音对话系统包括识别终端和远程语音识别服务端。识别终端和远程语音识别服务端能够数据通信。

识别终端包括：在线识别单元及本地识别单元。

识别终端，其配置为能够获取当前语音信息判断是否存在网络连接信息。若是，则跳转到在线识别单元，若否，则跳转到本地识别单元。

在线识别单元，其配置为将当前语音信息发送到远程语音识别服务端。

远程语音识别服务端，其配置为能够识别当前语音信息，获取当前识别数据且返回识别终端。

在线识别单元，其配置为判断是否在设定时间内接收当前识别数据，若接收，则根据当前识别数据获取当前对话结果。若不能接收，则根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

本地识别单元，其配置为根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

第三方面，提供一种高效的离线语义解析的电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本发明任一实施方式的方法的步骤。

第四方面，本发明实施方式还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行本发明任一实施方式的方法的步骤。

本发明通过离在线结合的方式，有别于“后置策略-离在线混合”同时运行的方案，优先在线对话，当出现超时使用离线对话。优先在线对话尽可能保证了对话的准确率，超时使用离线对话的逻辑保证了对话体验，作为兜底体验，从而保证了对话完成质量，提高了交互体验。在cpu负载和内存占用上，由于离线在线并不会同时启用，不会造成对cpu和内存的额外占用问题。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施方式提供的语音对话方法的流程图；

图2为本发明另一实施方式提供的语音对话方法的流程图；

图3为本发明中网络正常情况下的对话流程示意图；

图4为本发明网络异常情况下的流程示意图；

图5为本发明语音对话方法在离线状态及联网状态下的总示意图；

图6是本发明一实施方式提供的电子设备的结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

发明人在实现本申请的过程中发现，通常系统只支持基础服务能力，后续由开发者自行解决这些缺陷。本发明的目标是基于提高使用者使用语音的体验出发，因此，兼顾考虑了cpu负载，内存占用，网络环境的因素。

本发明通过离在线结合的方式，但是有别于现有技术中，“后置策略-离在线混合”同时运行的方案，优先在线对话，当出现超时使用离线对话；优先在线对话尽可能保证了对话的准确率，超时使用离线对话的逻辑保证了对话体验，作为兜底体验。

另外，在cpu负载和内存占用上，由于离线在线并不会同时启用，本发明中的技术方案不会造成对cpu和内存的额外占用问题。

第一方面，本发明的一种实施方式中提供了语音对话方法，如图2所示，该方法能够在包括识别终端10和远程语音识别服务端20的系统中，识别终端10和远程语音识别服务端20能够数据通信。识别终端10能够获取当前语音信息。

如图1所示，本发明中的语音对话方法包括：

步骤s101，判断网络是否可用。

本步骤中，识别终端10判断是否存在网络连接信息，若是，则跳转到步骤s102，若否，则跳转到步骤s103。上述识别终端10可用为移动手持终端或是移动智能终端。识别终端10具有能够连接无线网或有线网。

本步骤中所指的网络连接信息，是识别终端10在连接有线网或无线网后，能够得到的网络状态数据或是流量数据。

同时，本步骤中也可以判断识别终端10的“断网信息”，若识别终端10生成断网信息，则跳转到步骤s103。若识别终端10未生成断网信息，则跳转到步骤s102。

步骤s102，在线或离线识别。

本步骤中，识别终端10将当前语音信息发送到远程语音识别服务端20。识别终端10能够通过录音装置或单元，采集具有问话内容的当前语音音频，通过当前语音的音频获取当前语音信息。当前语音信息应该理解为一段具有提问内容的语音音频。

远程语音识别服务端20能够识别当前语音信息，获取当前识别数据且返回识别终端10。在远程语音识别服务端20中，预设语音识别处理程序，对当前语音信息识别，即识别具有提问内容的语音音频。

识别终端10判断是否在设定时间内接收当前识别数据，若接收，则根据当前识别数据获取当前对话结果。即说明当前的网络状态正常，识别终端10和远程语音识别服务端20能够数据通信。

当识别终端10接收到当前识别数据后，识别终端10可以根据当前识别数据，对照问-答对应关系生成答复语音音频、答复文字。或根据当前识别数据生成答复操作指令，如关机、打开应用等内容。识别终端10能够在本地运行上述答复操作指令。

若识别终端10不能接收当前识别数据，则根据识别终端10本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

上述本地预存的语音识别程序中预测问-答对应关系对应数据。本地预存的语音识别程序可以根据当前识别数据，对照问-答对应关系生成并输出答复语音音频、答复文字。或根据当前识别数据生成答复操作指令或命令集，如关机、打开某某应用等操作信息。识别终端10能够在本地运行上述答复操作指令。

步骤s103，离线识别。

本步骤中，识别终端10根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。本步骤中本地预存的语音识别程序包括预测问-答对应关系对应数据。

本地预存的语音识别程序可以根据当前识别数据，对照问-答对应关系生成并输出答复语音音频、答复文字。或根据当前识别数据生成答复操作指令或命令集，如关机、打开某某应用等操作信息。识别终端10能够在本地运行上述答复操作指令。

从而，本发明中的语音对话方法，通过对网络连接状态的检测，在两种网络连接状态时，均可给出语音识别方式，保证了语音对话的及时性及可靠性。同时，有效减小了对话终端本地资源的占用，减小了配置要求。

在本发明中语音对话方法的一种优选的实施方式中，在步骤s101中包括：

步骤s1011，识别终端10获取当前无线网络的信道连接数据，或识别终端10获取当前网络的网关连接数据。

步骤s1012，信道连接数据或网关连接数据为网络连接信息。从而便于检测网络的联网状态。上述信道连接数据包括，信道编号及连接网络时间信息。

在本发明中语音对话方法的另一种优选的实施方式中，步骤s101中则跳转到步骤s102的步骤中还包括：

识别终端10获取网络信号强度值。在识别终端10可通过网络信号处理应用获取网络信号强度值。

识别终端10判断网络信号强度值是否高于设定网络强度值，若是，则继续执行步骤s102，若否，则跳转到步骤s103。从而，在网络信号强度低时，为了保证语音对话质量，可采用离线语音识别的方式，提高了本发明中方法的灵活性。

在本发明中语音对话方法的另一种优选的实施方式中，步骤s103中还包括：识别终端10再次判断是否存在网络连接信息，若是，则跳转到步骤s102，若否，则继续执行步骤s103。

从而，通过多次判断网络连接状态，可有效保证语音识别的准确性及可靠性。

在本发明中语音对话方法的另一种优选的实施方式中，步骤s102中还包括：识别终端10若收到语音结束标识，则根据语音结束标识获取当前语音信息。从而，保证语音识别中语义的完整性。

在本发明中语音对话方法的另一种优选的实施方式中，步骤s102中远程语音识别服务端20能够识别当前语音信息的步骤包括：

远程语音识别服务端20能够通过语义识别程序，识别当前语音信息。

本地预存的语音识别程序为语义识别程序。

步骤s103中的本地预存的语音识别程序为语义识别程序。

上述语义识别程序为包括语义理解的处理程序。语义理解(nlu)是通过一系列的ai或语言识别算法，将文本解析为结构化的、机器可读的意图与词槽信息，便于使用者更好的理解并满足当前用户意图。

在本发明中语音对话方法的另一种优选的实施方式中，步骤s101前还包括：

步骤s100，识别终端10判断是否收到唤醒词语音，若是，则执行步骤s101，若否，则返回本步骤，直到收到唤醒词语音为止。

在本发明中语音对话方法的另一种优选的实施方式中，在步骤s102及步骤s103中均可包括，输出显示当前语音识别数据。如果当前模式为对话模式，识别终端10可通过本地播放器播放上述语音识别数据。

第二方面，本发明的另一种实施方式中还提供了一种语音对话系统，如图2所示，包括：识别终端10和远程语音识别服务端20。识别终端10和远程语音识别服务端20能够数据通信。

识别终端10包括：在线识别单元21及本地识别单元22。

识别终端10，其配置为能够获取当前语音信息判断是否存在网络连接信息。若是，则跳转到在线识别单元21，若否，则跳转到本地识别单元22。

在线识别单元21，其配置为将当前语音信息发送到远程语音识别服务端20。

远程语音识别服务端20，其配置为能够识别当前语音信息，获取当前识别数据且返回识别终端10。

在线识别单元21，其配置为判断是否在设定时间内接收当前识别数据，若接收，则根据当前识别数据获取当前对话结果。若不能接收，则根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

本地识别单元22，其配置为根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

在语音对话系统的另一种优选的实施方式中，识别终端10还配置为获取当前无线网络的信道连接数据，或识别终端10获取当前网络的网关连接数据。信道连接数据或网关连接数据为网络连接信息。

在语音对话系统的又一种优选的实施方式中，识别终端10还配置为：获取网络信号强度值。判断网络信号强度值是否高于设定网络强度值，若是，则继续执行在线识别单元21，若否，则跳转到本地识别单元22。

当用户说“你好小驰”触发唤醒的瞬间，根据当前网络状态判断是否使用离在线混合的流程，如图3、5所示，当网络判定正常的情况下会使用离在线混合识别的逻辑，可以满足如下场景：

情景一：网络正常的场景。

当网络正常，用户进行正常唤醒对话，云端的语音结果总能正常返回，不会触发离线对话的使用，用户体验良好。

情景二：网络波动较大的场景。

当网络处于不稳定的情况下，一旦在线对话无法保证对话结果的实时性，那么就会触发离线识别作为对话结果的兜底和补充，保证用户的语音体验良好。

情景三：网络来自于路由之类的桥接设备，如果网络源头出了问题，当前方案也可以保证部分对话的有效性。

在设备网络源头出了问题的情况下，对于设备端而言是无法直接得知当前网络是否正常，即便如此，离线识别作为对话结果的兜底和补充，可以保证部分对话的语音体验良好。

当用户说“你好小驰”触发唤醒的瞬间，根据当前网络状态判断是否使用离在线混合的流程，如图4、5所示，当网络判定异常的情况下会直接使用离线对话的逻辑，可以满足如下场景：

情景：弱网、离线的场景。

在这种场景下，对话会直接进入离线对话的逻辑。

此外在以上的对话逻辑外，该方案还支持可由开发者完全控制离在线对话的启用：由于对于网络环境的复杂性，基于对弱网、网络稳定的不同定义，也为了支持开发者对用户体验的不同标准，当前的对话方案提供对外接口可由外部逻辑完全控制对话的离在线切换。

在另一些实施方式中，本发明实施方式还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施方式中的语音对话方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行语音对话方法设置为：

步骤s101，识别终端判断是否存在网络连接信息，若是，则跳转到步骤s102，若否，则跳转到步骤s103。

步骤s102，识别终端将当前语音信息发送到远程语音识别服务端。

远程语音识别服务端能够识别当前语音信息，获取当前识别数据且返回识别终端。

步骤s103，识别终端根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施方式中的语音信号处理方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施方式中的语音信号处理方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音信号处理装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音信号处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施方式还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音信号处理方法。

图6是本发明实施方式提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。语音信号处理方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施方式语音信号处理方法。输入装置630可接收输入的数字或字符信息，以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施方式所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施方式中详尽描述的技术细节，可参见本发明实施方式所提供的方法。

作为一种实施方式，上述电子设备可以应用于加密、解密平台中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个语音对话处理器能够：

判断是否存在网络连接信息，若是，则识别终端将当前语音信息发送到远程语音识别服务端。能够识别当前语音信息，获取当前识别数据且返回识别终端。

判断是否在设定时间内接收当前识别数据，若接收，则根据当前识别数据获取当前对话结果。若不能接收，则根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

若否，则识别终端根据本地预存的语音识别程序识别当前语音信息，获取本地识别数据，根据本地识别数据获取当前对话结果。

本申请实施方式的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施方式仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施方式或者实施方式的某些部分的方法。

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。