多语种语音交互方法和装置与流程

2021-01-28 14:01:14|

255|

起点商标网

本发明属于语音交互领域，尤其涉及多语种语音交互方法和装置。

背景技术：

目前市面上有语音识别(automaticspeechrecongnition，asr)、自然语言处理（naturallanguageprocessing,nlp）、对话管理（dialoguemanage,dm）等单项技术，提供语音交互的基础能力。

语音识别主要是将人所发出的语音内容转换为可供计算机读入的文本信息，其具有两种工作模式：识别模式和命令模式。语音识别程序的实现也会根据两种模式的不同而采用不同类型的程序。识别模式的工作原理是：引擎系统在后台直接给出一个词库和识别模板库，任何系统都不需要再进一步对识别语法进行改动，只需要根据识别引擎提供的主程序源代码进行改写就可以了。命令模式相对来说实现起来比较困难，词典必须要由程序员自己编写，然后再进行编程，最后还要根据语音词典进行处理和更正。识别模式与命令模式最大的不同就是，程序员要根据词典内容进行代码的核对与修改。

自然语言处理，是实现人机间自然语言通信的重要手段，其包括两个部分，自然语言理解（naturallanguageunderstanding，nlu）和自然语言生成（naturallanguagegeneration，nlg），即能使计算机既能理解自然语言文本的意义，也能以自然语言文本来表达给定的意图、思想等。自然语言理解是建立一种计算机模型，自然语言理解以语言学为基础，融合逻辑学、心理学和计算机科学等学科，试图解决以下问题：语言究竟是怎样组织起来传输信息的，人又是怎样从一连串的语言符号中获取信息的，换种表达就是，通过语法、语义、语用的分析，获取自然语言的语义表示，理解自然语言文本所表达的意图。而自然语言生成是人工智能和计算语言学的分支，相应的语言生成系统是基于语言信息处理的计算机模型，其工作过程与自然语言分析相反，是从抽象的概念层次开始，通过选择并执行一定的语义和语法规则来生成文本。

技术实现要素：

本发明实施例提供一种多语种语音交互方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种多语种语音交互方法，用于客户端，包括：响应于获取的音频，将所述音频送入混合语言模型进行识别，其中，所述混合语言模型中训练了多种语种的切换语种命令词并存储在本地；基于所述识别结果，判断所述音频中是否存在切换语种命令词；若存在切换语种命令词，基于所述切换语种命令词确定切换后的语种；基于所述切换后的语种设置在线默认语言模型并将所述在线默认语言模型同步至服务端，其中，所述服务端包括多种单一语言模型。

第二方面，本发明实施例提供一种多语种语音交互方法，用于服务端，包括：响应于获取的音频，将所述音频送入第一单一语言模型进行识别，其中，所述服务端训练了多个单一语言模型；对所述识别结果进行后续处理，其中，所述后续处理包括语义处理和对话处理。

第三方面，本发明实施例提供一种多语种语音交互装置，用于客户端，包括：第一获取识别模块，配置为响应于获取的音频，将所述音频送入混合语言模型进行识别，其中，所述混合语言模型中训练了多种语种的切换语种命令词并存储在本地；判断模块，配置为基于所述识别结果，判断所述音频中是否存在切换语种命令词；切换模块，配置为若存在切换语种命令词，基于所述切换语种命令词确定切换后的语种；设置同步模块，配置为基于所述切换后的语种设置在线默认语言模型并将所述在线默认语言模型同步至服务端，其中，所述服务端包括多种单一语言模型。

第四方面，本发明实施例提供一种多语种语音交互装置，用于服务端，包括：第二获取识别模块，配置为响应于获取的音频，将所述音频送入第一单一语言模型进行识别，其中，所述服务端训练了多个单一语言模型；处理模块，配置为对所述识别结果进行后续处理，其中，所述后续处理包括语义处理和对话处理。

第五方面，提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行第一方面所述的多语种语音交互方法的步骤。

第六方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

本申请实施例提供的方法通过在客户端使用切换语种命令词的混合语言模型和在服务端使用多个单一语言模型，从而可以实现降低了训练混合语言模型的昂贵费用，提升了语音交互的稳定性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种多语种语音交互方法的流程图，用于客户端；

图2为本发明一实施例提供的一种多语种语音交互方法的流程图，用于服务端；

图3为本发明一实施例提供的另一种多语种语音交互方法的流程图；

图4为本发明实施例的多语种语音交互的方案一具体实施例的多语种语音交互流程图；

图5为本发明一实施例提供的一种多语种语音交互装置的框图，用于客户端；

图6为本发明一实施例提供的一种多语种语音交互装置的框图，用于服务端；

图7为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明的一种多语种语音交互方法的一实施例的流程图，用于客户端。

如图1所示，在步骤101中，响应于获取的音频，将所述音频送入混合语言模型进行识别，其中，所述混合语言模型中训练了多种语种的切换语种命令词并存储在本地；

在步骤102中，基于所述识别结果，判断所述音频中是否存在切换语种命令词；

在步骤103中，若存在切换语种命令词，基于所述切换语种命令词确定切换后的语种；

在步骤104中，基于所述切换后的语种设置在线默认语言模型并将所述在线默认语言模型同步至服务端，其中，所述服务端包括多种单一语言模型。

在本实施例中，对于步骤101，多语种语音交互装置响应于获取的音频，将所述音频送入混合语言模型进行识别，其中，混合语言模型中训练了多种语种的切换语种命令词并存储在本地，例如，多种语种包括：普通话、多种预设方言和多种预设外语；

对于步骤102，多语种语音交互装置基于将音频送入混合语言模型进行识别之后的识别结果，判断音频中是否存在切换语种命令词，例如，切换语种命令词包括：可以说粤语吗、你能够说东北话吗或你会讲英语吗；

对于步骤103，若存在切换语种命令词，基于所述切换语种命令词确定切换后的语种，例如，切换语种命令词是“可以说粤语吗”，可以确定要切换的语种是粤语，例如，切换语种命令词是“你会讲英语吗”的情况下可以确定要切换的语种是英语；

对于步骤104，多语种语音交互装置基于切换后的语种设置在线默认语言模型并将在线默认语言模型同步至服务端，例如，要切换的语种是粤语，将粤语设置为在线默认语言模型并同步至服务端。

在本实施例所述的方案中，通过在客户端使用切换语种命令词的混合语言模型，从而可以实现降低了训练混合语言模型的昂贵费用。

在上述实施例所述的方法中，所述判断所述音频中是否存在切换语种命令词，还包括：

若判断所述音频中不存在切换语种命令词，结束切换语种指令。

请参考图2，其示出了本发明的一种多语种语音交互方法的一实施例的流程图，用于服务端。

如图2所示，在步骤201中，响应于获取的音频，将所述音频送入第一单一语言模型进行识别，其中，所述服务端训练了多个单一语言模型；

在步骤202中，对所述识别结果进行后续处理。

在本实施例中，对于步骤201，多语种语音交互装置响应于获取的音频，将所述音频送入第一单一语言模型进行识别，例如，第一单一语言模型是服务端的默认语言模型，可以是普通话语言模型，也可以是粤语语言模型，其中，服务端训练了多个单一语言模型，例如，普通话的单一语言模型、粤语的单一语言模型和英语的单一语言模型等，因为语种过多，在此不再赘述；

对于步骤202，多语种语音交互装置对所述识别结果进行后续处理，例如，对识别结果进行语义处理之后再进行对话处理，例如，在进行地铁购票的情景下，多语种语音交互装置的第一单一语言模型是普通话语言模型，用户使用的也是普通话，在用户说出的“我要购票”后进行识别和语义处理之后可以获取对话结果“请选择到达车站”并输出。

在本实施例所述的方案中，通过训练多个单一语言模型，从而可以实现提升了语音交互的稳定性。

请参考图3，其示出了本发明一实施例提供的另一种多语种语音交互方法的流程图，该流程图主要是针对实施例203中在所述“对所述识别结果进行后续处理”的方法之后进一步限定的步骤的流程图。

如图3所示，在步骤301中，判断是否收到客户端发送的在线默认语言模型同步指令；

在步骤302中，若收到，判断所述在线默认语言模型同步指令中的第二单一语言模型是否与所述服务端当前的第一单一语言模型一致；

在步骤303中，若不一致，将所述第一单一语言模型切换至所述第二单一语言模型。

在本实施例中，对于步骤301，多语种语音交互装置判断是否收到客户端发送的在线默认语言模型同步指令，例如，客户端和服务端在获取到用户的音频后可以是并行处理的，例如，在没有收到客户端发送的在线默认语言模型同步指令时先对用户的音频进行单一语言模型识别和语义处理，或者可以在收到客户端发送的在线默认语言模型同步指令后再对用户的音频进行单一语言模型识别和语义处理，进一步的，客户端的功能可以放在服务端处理。

对于步骤302，若收到客户端发送的在线默认语言模型同步指令，判断在线默认语言模型同步指令中的第二单一语言模型是否与服务端当前的第一单一语言模型一致，例如，第一单一语言模型为普通话模型，第二单一语言模型为粤语语言模型或英语语言模型；

对于步骤303，若不一致，将第一单一语言模型切换至第二单一语言模型。

在本实施例所述的方案中，通过判断客户端发送的在线默认语言模型同步指令，从而可以实现切换用户所需要的语言模型。

在上述实施例所述的方法中，所述判断是否收到所述客户端发送的切换单一语言模型指令在线默认语言模型同步指令，还包括：

若没有收到所述客户端发送的在线默认语言模型同步指令，输出对所述识别结果进行后续处理后的处理结果。

例如，第一语言模型为普通话模型，用户用的普通话交互，在没有收到客户端发送的在线默认语言模型同步指令时，直接输出对话结果，例如，第一语言模型为普通话模型，用户用的粤语语音交互，在没有收到客户端发送的在线默认语言模型同步指令时并且单一的普通话模型不能准确的识别用户的音频时，询问用户是否切换语种。

在本实施例所述的方案中，通过没有收到所述客户端发送的在线默认语言模型同步指令，输出对所述识别结果进行后续处理后的处理结果，从而可以实现对识别成功的音频输出对话结果或识别失败的情况下提醒用户切换语种。

在上述实施例所述的方法中，在所述判断所述在线默认语言模型同步指令中的第二单一语言模型是否与所述服务端当前的第一单一语言模型一致之后，还包括：

若所述第二单一语言模型与所述第一单一语言模型一致，输出所述对话结果。

例如，第一语言模型为普通话模型，收到客户端发送的在线默认语言模型同步指令也是普通话模型，输出对话结果。

需要说明的是，以上实施例中虽然采用了步骤101、步骤102等具有明确先后顺序的数字，限定了步骤的先后顺序，但是在实际的应用场景中，有些步骤是可以并列执行的，有些步骤的先后顺序也不受到以上数字的限定，本申请在此没有限制，在此不再赘述。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本发明的过程中发现这些相似技术的缺陷：

在大多数asr系统中，不同的语言（方言）是被独立考虑的，一般会对每种语言从零开始训练一个声学模型（acousticmodel，am）。由此导致应用程序仅支持单语种交互。由于应用场景的不同，对多语种的智能应用需求越来越多，比如：地铁站的购票系统和咨询系统，医院的自主挂号系统等，从而出现了混合识别模型，然而训练此模型会引入下面的问题。第一，从零开始训练一个am需要大量人工标注的数据，这些数据不仅代价高昂，而且需要很多时间来获得。这还导致了资料丰富和资料匮乏的语言之间声学模型质量间的可观差异。这是因为对于资料匮乏的语言来说，只有低复杂度的小模型能够被估计出来。大量标注的训练数据对那些低流量和新发布的难以获得大量有代表性的语料的语言来说也是不可避免的瓶颈。第二，为了达到同样的识别率，训练一个混合语言模型的时间明显多于训练单语种语言模型。

发明人在实现本发明的过程中发现为什么不容易想到原因：

通常采用混合语言模型，使应用程序支持多语种语音交互。但是使用混合语言模型代价高昂，导致普及率较低。

本方案是借助于本公司（思必驰信息科技有限公司）对话定制平台（dialogueuserinterface,dui）实现了一种切换语言模型的多语种语音交互方法。

首先本方案在服务端训练了单一语言模型，而本地使用切换语种命令词的混合语言模型；其次客户端使用混合语言模型进行语音识别，根据识别结果判断是否是切换语种命令词。若是切换命令，则切换指定的单一语言模型进行语音交互，反之使用默认的单一语言模型进行语音交互。本方案通过使用切换语种命令词的混合模型和单一语言模型进行语音识别，再进行语义处理和对话管理，以此不仅降低了昂贵的费用，而且也保证了稳定性。

本发明的技术创新点：

情景1：切换语种指令

步骤一：输入音频；

步骤二：音频采集模块进行音频采集；

步骤三：将音频送入离线混合语言模型识别内核；

步骤四；将识别后的结果，进行指令处理。

步骤五：判断是否是切换语种指令，若是切换语种指令，则设置在线默认语言模型；反之结束。

情景2：非切换语种指令

步骤一：输入音频；

步骤二：音频采集模块进行音频采集；

步骤三：将音频送入在线识别服务；

步骤四：将识别结果送入在线语义服务；

步骤五：将语音结果送入对话服务；

步骤六：判断是否收到切换语种指令，若未收到切换语种指令，则输出接话结果，反之取消本次对话结果。

发明人在实现本发明的过程中形成的beta版：

备选方案：将混合语言模型放在服务端处理。

优点：本地占用资源少；

缺点：有网络传输耗时，没有本地处理响应快。

beta版：离线模块可将与在线语音管理模块功能一致；

缺点：离线语音交互管理模块比离线识别管理耗用资源大。

发明人在实现本发明的过程中发现达到更深层次的效果：

本方案支持多种语言进行语音交互，很大程度上满足了多语种场景的需求，而且一轮交互耗时较短，稳定性高。与目前市面上多语种语音交互方案相比，降低了语音模型训练费用。

请参考图5，其示出了本发明一实施例提供的一种多语种语音交互装置的框图，用于客户端。

如图5所示，第一获取识别模块510、判断模块520、切换模块530和设置同步模块540。

其中，第一获取识别模块510，配置为响应于获取的音频，将所述音频送入混合语言模型进行识别，其中，所述混合语言模型中训练了多种语种的切换语种命令词并存储在本地；判断模块520，配置为基于所述识别结果，判断所述音频中是否存在切换语种命令词；切换模块530，配置为若存在切换语种命令词，基于所述切换语种命令词确定切换后的语种；设置同步模块540，配置为基于所述切换后的语种设置在线默认语言模型并将所述在线默认语言模型同步至服务端，其中，所述服务端包括多种单一语言模型。

请参考图6，其示出了本发明一实施例提供的一种多语种语音交互装置的框图，用于服务端。

如图6所示，第二获取识别模块610和处理模块620。

其中，第二获取识别模块610，配置为响应于获取的音频，将所述音频送入第一单一语言模型进行识别，其中，所述服务端训练了多个单一语言模型；处理模块620，配置为对所述识别结果进行后续处理。

应当理解，图5和图6中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5和图6中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如第一获取识别模块可以描述为响应于获取的音频，将所述音频送入混合语言模型进行识别，其中，所述混合语言模型中训练了多种语种的切换语种命令词并存储在本地的模块，另外，还可以通过硬件处理器来实现相关功能模块，例如第一获取识别模块可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的多语种语音交互方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取的音频，将所述音频送入混合语言模型进行识别，其中，所述混合语言模型中训练了多种语种的切换语种命令词并存储在本地；

基于所述识别结果，判断所述音频中是否存在切换语种命令词；

若存在切换语种命令词，基于所述切换语种命令词确定切换后的语种；

基于所述切换后的语种设置在线默认语言模型并将所述在线默认语言模型同步至服务端，其中，所述服务端包括多种单一语言模型。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取的音频，将所述音频送入第一单一语言模型进行识别，其中，所述服务端训练了多个单一语言模型；

对所述识别结果进行后续处理。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据多语种语音交互装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至多语种语音交互装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项多语种语音交互方法。

图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该设备包括：一个或多个处理器710以及存储器720，图7中以一个处理器710为例。用于多语种语音交互方法的设备还可以包括：输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于多语种语音交互装置方法。输入装置730可接收输入的数字或字符信息，以及产生与用于多语种语音交互装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于多语种语音交互装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

响应于获取的音频，将所述音频送入混合语言模型进行识别，其中，所述混合语言模型中训练了多种语种的切换语种命令词并存储在本地；

基于所述识别结果，判断所述音频中是否存在切换语种命令词；

若存在切换语种命令词，基于所述切换语种命令词确定切换后的语种；

基于所述切换后的语种设置在线默认语言模型并将所述在线默认语言模型同步至服务端，其中，所述服务端包括多种单一语言模型。

作为另一种实施方式，上述电子设备应用于多语种语音交互装置中，包括：

响应于获取的音频，将所述音频送入第一单一语言模型进行识别，其中，所述服务端训练了多个单一语言模型；

对所述识别结果进行后续处理。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。