一种智能应答方法与终端、计算机可读存储介质与流程

2021-01-28 15:01:27|

235|

起点商标网

本发明涉及计算机技术，尤其涉及一种智能应答方法与终端、计算机可读存储介质。

背景技术：

随着计算机技术的发展，语音应答技术得到广泛发展。例如，终端接收到用户的语音交互指令时，可以输出语音数据对其进行应答；又例如，终端还能够将他人对用户发送的文本以语音形式输出，等。语音应答技术使得智能交互过程更加灵活有趣。

语音应答技术基于语音合成技术实现。也就是，将对用户的应答文本合成声音，并将合成后的声音作为应答语音输出，实现语音应答。目前，语音应答技术在合成应答语音时一般是按照默认的声音特征来实现语音合成的。这种语音合成方式导致应答语音的情绪单一、说话人声音也较为单一，这导致应答语音所能传达的信息较少，语音交互效果也较差。

技术实现要素：

本发明提供一种智能应答方法与终端、计算机可读存储介质，用以解决应答语音情绪单一的问题，以及由此导致的语音交互效果较差的问题，提高智能交互过程的趣味性。

第一方面，本发明提供一种智能应答方法，包括：

获取应答文本；

提取所述应答文本的文本特征、第一情感特征、第一风格特征中的一种或多种；

获取目标应答对象的对象特征；

基于所述文本特征、所述第一情感特征、所述第一风格特征与所述对象特征中的至少两种，生成目标应答数据；所述目标应答数据包含语音数据；

输出所述目标应答数据。

第二方面，本发明提供一种终端，处理模块与收发模块；

其中，所述处理模块，用于：

获取应答文本；

提取所述应答文本的文本特征、第一情感特征、第一风格特征中的一种或多种；

获取目标应答对象的对象特征；

基于所述文本特征、所述第一情感特征、所述第一风格特征与所述对象特征中的至少两种，生成目标应答数据；

所述收发模块，用于输出所述目标应答数据。

第三方面，本发明提供一种终端，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面所述的方法。

本发明提供一种智能应答方法与终端、计算机可读存储介质。在本方案中，在输出目标应答数据之前，可以基于应答文本获取文本数据中携带的文本特征、第一情感特征、第一风格特征中的一种或多种，并获取目标应答对象的对象特征，进而，基于这些特征数据中的至少两种生成目标应答数据，如此，相较于现有技术中单一情绪、单一说话人的应答语音，本方案中终端输出的目标应答数据，能够体现文本数据的情感以及目标应答对象的对象特征，也即，目标应答数据所能传达的信息更加丰富，有利于提高智能交互效果，也提高了智能交互过程的灵活性和趣味性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明实施例所提供的一种智能应答方法的流程示意图；

图2为本发明实施例所提供的一种智能应答示意图；

图3为本发明实施例所提供的一种情感预测模型的示意图；

图4为本发明实施例所提供的一种情感预测模型的示意图；

图5为本发明实施例所提供的一种打车app中夸夸场景所使用的虚拟形象的示意图；

图6为本发明实施例所提供的另一种智能应答示意图；

图7为本发明实施例所提供的一种生成模型的示意图；

图8为本发明实施例所提供的另一种生成模型的示意图；

图9为本发明实施例所提供的另一种生成模型的示意图；

图10为本发明实施例所提供的另一种生成模型的示意图；

图11为本发明实施例所提供的另一种生成模型的示意图；

图12为本发明实施例所提供的另一种生成模型的示意图；

图13为本发明实施例所提供的一种终端的功能方块图；

图14为本发明实施例所提供的一种终端的实体结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明实施例所提供的智能应答方法，可以应用于任意终端设备中。其中，本发明实施例所涉及到的终端设备可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(radioaccessnetwork，简称ran)与一个或多个核心网设备进行通信，无线终端可以是移动终端，如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。再例如，无线终端还可以是个人通信业务(personalcommunicationservice，简称pcs)电话、无绳电话、会话发起协议(sessioninitiationprotocol，简称sip)话机、无线本地环路(wirelesslocalloop，简称wll)站、个人数字助理(personaldigitalassistant，简称pda)等设备。无线终端也可以称为系统、订户单元(subscriberunit)、订户站(subscriberstation)，移动站(mobilestation)、移动台(mobile)、远程站(remotestation)、远程终端(remoteterminal)、接入终端(accessterminal)、用户终端(userterminal)、用户代理(useragent)、用户设备(userdeviceoruserequipment)，在此不作限定。

可选的，上述终端设备还可以是智能穿戴设备、智能家居设备或车载设备等。其中，智能穿戴设备可以包括但不限于：智能耳机、自能手环、智能手表、可佩戴式健康监测设备，等，不作穷举。家居智能设备可以包括但不限于：智能电视、智能音箱、智能电饭煲、智能冰箱、智能空调等，对此不作穷举。车载设备可以包括但不限于：车载音箱、车载夸夸机器人等，对此亦不作穷举。

本发明具体的应用场景为任意语音应答场景，也即，将文本数据以语音形式输出的任意场景。

示例性的一种场景中，本发明实施例可以应用于“夸夸机器人”对用户进行语音夸夸的场景。夸夸机器人是一种灵活有趣的ai应用，能够在接收到用户发出“夸夸我吧”或类似的指令时，输出针对用户的夸奖语音。夸夸机器人可以应用于任意场景，示例性的，可以应用于打车应用程序(application，app)中，用于对司机端用户或乘客端用户进行夸夸，或用于将司机端或乘客端对对端用户的夸奖语音，输出给对端用户。

示例性的另一种场景中，本发明实施例可以应用于车载设备(或者，家居智能设备、智能穿戴设备等)与用户之间的人机交互过程。示例性的，当车载设备在被唤醒后，在输出唤醒响应语音时，即可按照本方案来实现智能应答。

示例性的另一种场景中，本发明实施例还可以应用于文字转语音的场景。示例性的，当终端接收到将文字转换为语音的操作指令时，即可按照本方案来获取并输出语音数据(此时作为目标应答数据)。

但是，在现有技术中的前述任意一种涉及到语音应答的场景中，终端一般仅能够按照默认的单一说话人特征、单一情绪的方式合成起千篇一律的语音应答数据，这种实现方式导致应答语音所能传达的信息量变少，应答语音也更加单调乏味，影响智能交互效果与体验。

本发明提供的技术方案，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明实施例提供了一种智能应答方法。请参考图1，该方法包括如下步骤：

s102，获取应答文本。

如前，基于本方案所应用的语音应答场景的不同，应答文本可以有不同的表现形式。需要说明的是，在部分场景中，应答文本为响应于接收到语音交互指令而获取的。

现以前述三个场景为例说明。

在针对用户(例如，打车app中的司机端用户或乘客端用户)进行夸夸的场景中，应答文本可以为针对用户的夸夸数据。此时，一种可能的场景中，应答文本可以是响应于接收到包含“夸夸我吧”的语音交互指令而获取的，此时，按照本方案获取应答文本。或者，另一种可能的场景中，在终端(此时为司机端)接收到乘客端用户对司机端用户的夸夸文本(也就是应答文本)的场景中，或反之，在终端(此时为乘客端)接收到司机端用户对乘客端用户的夸夸文本(也就是应答文本)的场景中，应答文本并非基于包含“夸夸我吧”的语音交互指令而获取得到。

在该场景中，应答文本可以是由终端自动确定的，也可以是由用户自己或其他用户(如对端用户)手动选择确定的。本发明实施例对应答文本的获取方式无特别限定。例如，应答文本可以为“司机师傅最阳光”。又例如，应答文本可以为“风里雨里，感谢不辞辛苦的你”等。

在车载设备、智能家居设备或智能穿戴设备的人机交互场景中，应答文本可以具体为唤醒响应词，或者，其他语音响应词。在该场景中，应答文本是基于接收到的语音交互指令而获得的。例如，当智能音箱接收到来自于用户的唤醒词(此时作为语音交互指令)，此时，唤醒响应词(此时作为应答文本)可以为“在的”；当智能音箱接收到语音交互指令为“播放音乐”，此时，唤醒响应词(此时作为应答文本)可以为“好的，即将为您播放xx音乐”。

在文本转语音的场景中，应答文本为用户选中的目标文本数据。

s104，提取应答文本的文本特征、第一情感特征、第一风格特征中的一种或多种。

本方案中，可以对应答文本进行文本特征的提取、第一感情特征的提取、第一风格特征的提取中的至少一种。其中，所述第一情感特征用于描述所述应答文本的情绪状态；第一风格特征用于描述所述应答文本的语言风格。

示例性的，第一情感特征与第一风格特征可以通过标签的形式来表现。例如，第一情感特征所包含的第一标签的类型可以包括但不限于：喜悦、愤怒、悲伤或者痛苦等用于表征情绪的标签；第一风格特征所包含的第二标签的类型可以包括但不限于：成熟稳重、俏皮可爱、放任不羁等用于表征语言风格的标签。

后续分别详述这些特征的提取方式，此处不作展开。

s106，获取目标应答对象的对象特征。

本发明实施例中，可以包含多个候选应答对象，每个候选应答对象的对象特征不同。因此，在实现该步骤时，需要在候选应答对象中确定出目标应答对象，进而，获取该目标应答对象的对象特征。而目标应答对象，可以是终端自行确定的，也可以是用户(对端用户或自身)指定的。示例性的，当第一用户对第二用户进行夸夸时，第二用户端接收到的夸夸数据，可以是由第一用户在第一用户端上操作并指定的。示例性的，当第一用户对第二用户进行夸夸时，第二用户端在接收到夸夸数据后，若第二用户对当前的目标应答对象不满意，还可以更改目标应答对象。

本发明实施例中，对象特征可以包括但不限于语音特征。除此之外，对象特征还可以包括但不限于：面部特征。

如此，在该步骤的一种可能的实施例中，可以获取目标应答对象的语音特征。如此，后续可以合成语音数据作为目标应答数据。

在该步骤的另一种可能的实施例中，可以获取目标应答对象的语音特征与面部特征。如此，后续可以合成包含语音数据的视频数据，作为目标应答数据。这种实现方式更加形象生动，具备较好的交互效果。

后续详述对象特征的获取方式。

另，需要说明的是，本发明实施例中，s102和s104可以顺序执行；但对于s106与前两个步骤之间的执行次序无特别限定。示例性的一种实施例中，s106可以在s102之前执行，亦可与s102或s104同时执行，或在s102与s104之间执行，或在s104之后执行，均可。

s108，基于文本特征、第一情感特征、第一风格特征与对象特征中的至少两种，生成目标应答数据；目标应答数据包含语音数据。

基于前述步骤获取到的各特征，合成语音数据或视频数据，作为目标应答数据即可。

示例性的，可以基于文本特征、第一情感特征、第一风格特征与对象特征，生成目标应答数据。

示例性的，可以基于文本特征、第一情感特征与对象特征，生成目标应答数据。

示例性的，可以基于文本特征、第一风格特征与对象特征，生成目标应答数据。

此处不作穷举，后续详述。

s110，输出目标应答数据。

当图1所示方案应用于夸夸场景时，示例性的，图2示出了一种司机端用户进行自夸的场景中的智能应答方法的示意图。如图2a所示，司机端用户可以在打车app的司机端显示界面中，点击功能控件201进入夸夸界面，那么，终端可以显示如图2b所示界面。图2b为夸夸功能的显示界面，在该显示界面上，司机端用户可以发出语音，相应地，终端则采集实时的语音数据，也即执行s102步骤。之后，终端采集到语音数据后，可以执行前述s104和s106步骤，以确定采集到的语音数据是否包含指定话术。那么，若识别出来自于司机端用户的实时的语音数据中包含“夸夸司机”或“夸夸我吧”中的一个，则可以在终端中显示如图2c所示的显示界面。如图2c所示，在当前界面输出针对“夸夸我吧”的目标应答数据203，具体为：“风里雨里，感谢不辞辛苦来接我”的语音数据。

除此之外，在图2b所示显示界面中，司机端用户还可以点击夸夸控件202，以触发夸夸功能，使得终端显示如图2c所示界面，不作赘述。在图2a所示的显示界面中，功能控件201中还可以对司机端新接收到的夸夸进行提示。

基于图1所示的智能应答方法，本发明实施例可以基于应答文本获取文本数据中携带的文本特征、第一情感特征、第一风格特征中的一种或多种，并获取目标应答对象的对象特征，进而，基于这些特征数据生成目标应答数据，如此，相较于现有技术中单一情绪、单一说话人的应答语音，本方案中终端输出的目标应答数据，能够体现文本数据的情感以及目标应答对象的对象特征，也即，目标应答数据所能传达的信息更加丰富，有利于提高智能交互效果，也提高了智能交互过程的灵活性和趣味性。

在图1所示实施例的基础上，现对本发明实施例的具体实现方式进行说明。

一方面，基于应答文本，可以获取文本特征、第一情感特征、第一风格特征中的一种或多种。

本发明的一种实施例中，可以对应答文本进行文本化处理，得到文本特征。

具体而言，文本特征是指从应答文本中提取出来的可用于语音合成的特征向量，该文本特征用于指示后续目标应答数据中的文本信息。具体而言，本发明实施例所涉及到的文本化处理可以包括但不限于正则化处理、分词处理、词性标记处理、音素标记处理与韵律分析处理中的一种或多种。

其中，正则化处理用于将应答文本转换为统一语言类型的文本数据。例如，当应答文本为“您是1位最可爱的人！”时，该应答文本包含汉字和数字，语音类型不统一，则可以通过正则化处理，将数字转换为对应汉字，如此，处理后的应答文本即为“您是一位最可爱的人！”。除此之外，也可以将文本转换为2进制数字等，本发明实施例对于正则化处理后的语言类型无特别限制。

分词处理用于将句子文本切换为单个字、词、标点。以下，为便于说明，将分词结果简称为短句。

词性标记处理用于对各短句的词性进行标记，其中，词性可以包括但不限于：形容词、名词、动词等，不作穷举。

音素标记处理用于对各短句的拼音(包含拼音的声调)进行标记。在具体实现本方案时，音素标记处理可以通过字素到音素(grapheme-to-phoneme，g2p)模型来实现。具体的，g2p模型是利用循环神经网络(recurrentneuralnetwork，rnn)模型和长短期记忆网络(longshort-termmemory，lstm)模型，来实现从英文单词到音素的转化。本发明实施例对于g2p的具体结构与训练方式均不予限定，g2p模型的输入为文本数据，输出为文本数据的音素特征。

韵律分析处理可以通过神经网络模型来实现，该神经网络模型的输入为文本数据，输出为文本数据的韵律特征。

经过前述一种或多种处理之后，即可得到应答文本对应的文本特征。例如，在本发明的一种实施例中，可以按照前述处理方式，依次线性对文本数据进行处理，得到文本特征。

在此基础上，还可以利用训练好的情感预测模型处理文本特征，得到第一情感特征；和/或，还可以用训练好的风格预测模型处理文本特征，得到第一风格特征。

具体而言，针对应答文本的第一情感特征的提取，则可以通过训练好的情感预测模型来处理得到。情感预测模型的输入数据为文本数据。情感预测模型的输出数据为情感特征，可具体为情感特征向量或情感标签(也即前述第一标签)。

在s104步骤中，可以将应答文本，或前述处理得到的文本特征(向量)作为情感预测模型的输入，而情感预测模型的输出则可以具体为第一情感特征。除此之外，在本发明后续的一种实施例中，该情感预测模型还可以用于获取得到第二情感特征，后续详述。

具体而言，情感预测模型可以为深度学习网络模型，深度学习网络模型包括输出层、瓶颈层、多个隐藏层与输入层，图3具体示出了隐藏层1和隐藏层2。示例性的，图3示出了本发明实施例所提供的一种情感预测模型的示意图。如图3所示，如前，输入层的输入数据可以为文本特征；隐藏层能够提高特征维度，并对特征进行处理；而瓶颈层则能够在特征处理后，降低处理后特征的特征维度，这也能够保证该模型最终输出的情感特征中，包含能够有效区分不同语言情感的关键信息，这有利于后续合成的目标应答数据(语音或视频)具备更丰富的情感信息。

其中，图3所示场景中，对文本信息进行处理，可以是对文本信息进行前述文本化处理，得到文本特征，并将文本特征输入隐藏层1。

此外，部分可能的实施例中，也可以直接将文本数据作为该情感预测模型的输入，并由该情感预测模型来进行文本化处理，并直接得到情感特征。这种场景下的模型结构与图3类似，不作详述。

情感预测模型可以提前训练好，本发明实施例对其模型训练过程不作详述。训练好的情感预测模型可以存储在终端可读的存储位置；或者，也可以部署在线上，终端可以直接调用该模型实现情感识别。

类似的，也可以通过训练好的风格预测模型来处理文本特征，进而得到第一风格特征。风格预测模型的输入数据为文本数据。风格预测模型的输出数据为风格特征，可具体为风格特征向量或风格标签(也即前文所述的第二标签)。

在s104步骤中，可以将应答文本，或前述处理得到的文本特征(向量)作为风格预测模型的输入，而风格预测模型的输出则可以具体为第一风格特征。

图4为本申请提供的一种风格预测模型的结构示意图。如图4所示，风格预测模型可以为深度学习网络模型，具体的，深度学习网络模型可以包括输出层、瓶颈层、多个隐藏层与输入层，图4中以两个隐藏层(隐藏层1和隐藏层2)为例示出。对应答文本进行文本化处理后，将得到的文本特征作为输入数据通过输入层输入深度学习网络模型；隐藏层能够提高特征维度，并对特征进行处理；而瓶颈层则能够在特征处理后，降低处理后特征的特征维度，这也能够保证该模型最终输出的风格特征中，包含能够有效区分不同风格的关键信息，这有利于后续合成的目标应答数据(音频或视频)具备特定的风格信息。

在部分可能的实施例中，也可以直接将应答文本数据作为该风格预测模型的输入，并由该风格预测模型来进行文本化处理，并直接得到风格特征。这种场景下的模型结构与图4类似，不作详述。

风格预测模型可以提前训练好，本申请实施例对其模型训练过程不作详述。训练好的风格预测模型可以存储在终端设备可读的存储位置；或者，也可以部署在线上，终端设备可以直接调用该模型实现风格识别。

另一方面，还需要获取目标应答对象的对象特征。如前，对象特征可以为语音特征；或者，语音特征与面部特征。

首先说明目标应答对象。本发明实施例中，目标应答对象可以包括：虚拟形象或人物。其中，虚拟形象可以为自定义形象或人物的虚拟形象。示例性的，图5示出了一种打车app中夸夸场景所使用的虚拟形象的示意图。而人物可以为公众人物或用户。可以理解，当公众人物为目标应答对象时，本方案所属企业应具备该公众人物的授权。而用户可以为自身或其他用户。

目标应答对象可以由终端自定义确定，或者，可以由用户主观选择或切换。

以司机端用户对乘客端用户进行夸夸的场景为例。在该场景的一种实施例中，可以将预设虚拟形象作为目标应答对象。在该场景的另一种实施例中，可以将乘客端用户(取得用户授权)或乘客端用户的虚拟形象作为目标应答对象。在该场景的另一种实施例中，可以将司机端用户(取得用户授权)或司机端用户的虚拟形象作为目标应答对象。

或者，当司机端用户对当前选中的(或默认的)目标应答对象不满意时，还可以操作终端，来切换目标应答对象。换言之，终端还可以接收来自于对象切换指令，并获取对象切换指令所指示的一个或多个候选应答对象，得到目标应答对象。

示例性的，图6示出了该场景下的一种可能的实现方式。在该场景中，图6a为乘客端用户对司机端用户进行夸夸的显示界面。在图6a显示界面上，显示有对象控件601，在该对象控件601中，用户可以向左或向右进行滑动，实现对目标应答对象的切换。如图6a所示，若接收到用户在对象控件601中向左滑动的操作信息，则终端可将该操作信息识别为对象切换指令，如此，切换夸夸显示界面上的目标应答对象。此时，切换后的夸夸显示界面如图6b所示。经如此处理后，对象控件601中所确定的目标应答对象由图6a中的虚拟对象，切换为图6b中的人物。

除此之外，图6中还进一步示出了应答文本602，如图6a所示，当前应答文本为“司机师傅最阳光，最热心，最善良，最知冷知热！”。

在图6所示基础上，本发明实施例中的对象控件601还能够实现话术切换功能。示例性的一种实施例中，用户可以单击或长按对象控件601，如此，终端即可将该操作信息识别为话术切换指令。如此，终端还可以在接收到话术切换指令时，切换当前夸夸显示界面上的夸夸话术。从而，当用户点击发送控件603时，即可向司机端发送切换后的夸夸话术，从而，当司机端输出该夸夸话术时，该夸夸话术即为司机端的应答文本。

需要说明的是，图6所示的目标应答对象的确定方式仅为本发明实施例的一种可能的实现方式，实际实现场景中，还可以有其他多种选择或指示方式，本发明实施例对此不作穷举。例如，还可以在夸夸显示界面显示多个候选应答对象，用户可以在多个候选应答对象中选择一个或多个，作为目标应答对象。

当目标应答对象为多个候选应答对象时，需要将多个候选应答对象的对象特征进行融合，并将融合特征作为目标应答对象的对象特征。

基于目标应答对象的不同，本方案在获取其对象特征(语音特征或面部特征)时，至少可以通过如下方式实现。

一种可能的实施例中，可以预先存储各候选应答对象的对象特征。如此，在执行该步骤时，只需要获取在候选应答对象中确定目标应答对象，并提取该目标应答对象的对象特征即可。该实现方式简单可靠，有利于缩短处理时长，提高处理效率，进而也有利于提高应答效率。

另一种可能的实施例中，则可以通过获取目标应答对象的历史数据，并通过对历史数据进行特征提取，来获取得到其对象特征。具体而言，可以通过训练好的深度学习模型来实现特征提取。

当获取目标应答对象的语音特征时，可以获取目标应答对象的历史语音数据，从而，利用训练好的声纹识别模型处理历史语音数据，得到语音特征。

其中，声纹识别模型的输入为语音数据，输出为语音特征。本发明实施例中，语音特征与文本、外界噪声等无关，用于区别不同说话人(应答对象)的特征。具体而言，本发明实施例所涉及到的语音特征可以包括但不限于：音色特征。除此之外，语音特征还包括但不限于：音调特征、音量特征、音准特征、语气特征、语言类型特征中的一种或多种。

当获取目标应答对象的面部特征时，则可以在目标应答对象的发声过程中，采集目标应答对象的历史面部数据，从而利用训练好的面部识别模型处理历史面部数据，得到面部特征。

需要说明的是，当目标应答对象为多个候选应答对象时，一种实现方式中，还可以在获取到多个候选应答对象的对象特征后，利用特征融合模型来将对象特征进行融合，并利用融合后的对象特征执行后续步骤。或者，另一种实现方式中，还可以在获取到多个候选应答对象的历史数据后，将各候选应答对象的历史数据组合在一起，并分别输入声纹识别模型(或面部识别模型)，如此，声纹识别模型(或面部识别模型)输出的对象特征即为融合了多个候选应答对象的对象特征之后的融合对象特征。

此外，声纹识别模型、面部识别模型可以提前训练好，本发明实施例对其模型训练过程不作详述。训练好的声纹识别模型或面部识别模型可以存储在终端可读的存储位置；或者，也可以部署在线上，终端可以直接调用这些模型实现对象特征的识别。

基于前述处理，可以得到文本特征、第一情感特征、第一风格特征中的一种或多种，以及，对象特征(包括语音特征，还可能包括面部特征)，那么，在执行s108时，可以利用生成模型来处理文本特征、第一情感特征、第一风格特征与对象特征中的至少两种，得到目标应答数据。具体而言，该生成模型可以具体为一种端到端的循环网络模型。

示例性的，图7和图8示出了一种生成模型的示意图。其中，图7与图8是以“基于文本特征、第一情感特征与对象特征，生成目标应答数据”这一场景为例作出的示例。

其中，图7所示生成模型所生成的目标应答数据为语音数据。如图7所示，该生成模型为一种端到端的循环网络模型，具体包括：编码器(encoder)、拼接模块、注意力(attention)机制模块、解码器(decoder)与声码器。

其中，文本特征输入编码器，编码器对文本特征进行编码后，在拼接模块中，处理后的文本特征与第一情感特征、对象特征(此时为语音特征)进行拼接，然后，在attention机制的作用基础上，拼接特征被输入解码器，解码器对其进行处理，并输出声学特征至声码器。最终，由声码器合成语音数据，作为目标应答数据。

而图8所示生成模型所生成的目标应答数据为语音数据或视频数据。相较于图7，图8所示的生成模型在图7基础上，还包括图像合成器。在图8所示实施例中，若对象特征仅包含语音特征，则各处理模块的处理方式与图7相同，最终由声码器合成语音数据，作为目标应答数据即可。或者，若对象特征中包含面部特征，则在拼接模块中，与其他特征一起进行拼接，之后，解码器对拼接特征进行处理后，可输出声学特征与图像特征，如此，声学特征输入声码器，由声码器输出语音数据；而图像特征输入图像合成器，由图像合成器输出图像数据。如此，生成的语音与图像相结合，作为最终输出的视频数据(目标应答数据)。

示例性的，图9为本申请提供的一种生成模型的结构示意图，如图9所示，其中，图9所示生成模型所生成的目标应答数据为语音数据。如图9所示，该生成模型为一种端到端的循环网络模型，具体包括：编码器(encoder)、拼接模块、注意力(attention)机制模块、解码器(decoder)与声码器。其中，文本特征输入编码器，编码器对文本特征进行编码后，在拼接模块中，处理后的文本特征与第一风格特征、对象特征(此时为语音特征)进行拼接，然后，在attention机制的作用基础上，拼接特征被输入解码器，解码器对其进行处理，并输出声学特征至声码器。最终，由声码器合成语音数据，作为目标应答数据。

图10为本申请提供的另一种生成模型的结构示意图，如图10所示，所示生成模型所生成的目标应答数据为语音数据或视频数据。相较于图9，图10所示的生成模型在图9基础上，还包括图像合成器。在图10所示实施例中，若对象特征仅包含语音特征，则各处理模块的处理方式与图9相同，最终由声码器合成语音数据，作为目标应答数据即可。或者，若对象特征中包含面部特征，则在拼接模块中，与其它特征一起进行拼接，之后，解码器对拼接特征进行处理后，可输出声学特征与图像特征，如此，声学特征输入声码器，由声码器输出语音数据；而图像特征输入图像合成器，由图像合成器输出图像数据。如此，生成的语音与图像相结合，作为最终输出的视频数据(目标应答数据)。

示例性的，图11与图12为本申请提供的一种生成模型的结构示意图。

如图11所示，相较于图7、图9所示实施例，图11所示实施例中，拼接模块用于对文本特征、第一情感特征、第一风格特征与对象特征进行拼接，经各模块处理(可参考前文，不再赘述)，最终由声码器合成语音数据，作为目标应答数据。

如图12所示，相较于图8、图10所示实施例，图12所示实施例中，拼接模块用于对文本特征、第一情感特征、第一风格特征与对象特征进行拼接，经各模块处理(可参考前文，不再赘述)，最终将声码器合成的语音数据与图像合成器输出的图像数据结合，输出视频数据作为目标应答数据。

本发明实施例所提供的智能应答方法，可以是基于接收到来自于用户的语音交互指令而触发的，也就是，应答文本是响应于接收到语音交互指令而获取的。在这种情况下，除按照前述方式，生成目标应答数据之外，还可以在此基础上，进一步结合语音交互指令的情感情况。

具体而言，可以获取语音交互指令的第二情感特征和/或第二风格特征。然后，获取第二情感特征对应的第三情感特征，和/或，获取第二风格特征对应的第三风格特征。进而，基于文本特征、第一情感特征、对象特征、第三情感特征与第三风格特征中的至少两种，生成目标应答数据。

示例性的，可以获取语音交互指令的第二情感特征，然后，获取第二情感特征对应的第三情感特征，进而，基于文本特征、第一情感特征、对象特征与第三情感特征，生成目标应答数据。

其中，获取第二情感特征时，在一可能的实施例中，可以将语音交互指令转换为指令文本，然后将指令文本输入前述情感预测模型处理，得到第二情感特征。或者，在另一可能的实施例中，还可以利用训练好的语音情感预测模型来处理语音交互指令，其中，语音情感预测模型的输入为语音数据，输出为情感特征。如此，只需要将语音交互指令输入该语音情感预测模型，即可得到第二情感特征。

第二情感特征能够反映用户的情绪状态，那么，终端在对用户进行应答时，可以按照预设的情绪对应关系(第二情感特征与第三情感特征之间的对应关系)，选择适当的情绪对其进行响应。情绪对应关系可以提前预设，本发明实施例对其具体的对应关系无特别限定。由此，第二情感特征与第三情感特征可以相同，也可以不同。示例性的，若获取到的第二情感特征为愤怒，获取到的与之对应的第三情感特征为安抚，二者不同。示例性的，若获取到的第二情感特征为激情，获取到的与之对应的第三情感特征为激情，二者可以相同。

在获取到第三情感特征之后，即可将该第三情感特征作为前述合成模型的一个输入，在拼接模块与其他特征进行拼接，并进行后续处理即可。

在获取到目标应答数据后，即可直接输出目标应答数据。

示例性的，可以获取语音交互指令的第二风格特征，然后，获取第二风格特征对应的第三风格特征，进而，基于文本特征、第一风格特征、对象特征与第三风格特征，生成目标应答数据。

其中，获取第二风格特征时，在一可能的实施例中，可以将语音交互指令转换为指令文本，然后将指令文本输入前述风格预测模型处理，得到第二风格特征。或者，在另一可能的实施例中，还可以利用训练好的风格预测模型来处理语音交互指令，其中，风格预测模型的输入为语音数据，输出为风格特征。如此，只需要将语音交互指令输入该风格预测模型，即可得到第二风格特征。

第二风格特征能够反映用户的风格，那么，终端设备在对用户进行应答时，可以按照预设的风格对应关系(第二风格特征与第三风格特征之间的对应关系)，选择适当的风格对其进行响应。风格对应关系可以提前预设，本申请实施例对其具体的对应关系无特别限定。由此，第二风格特征与第三风格特征可以相同，也可以不同。示例性的，若获取到的第二风格特征为“成熟稳重的风格”，获取到的与之对应的第三风格特征可以为“俏皮可爱的风格”，二者不同。示例性的，若获取到的第二风格特征为“放任不羁的风格”，获取到的与之对应的第三风格特征可以为“放任不羁的风格”，二者相同。

在获取到第三风格特征之后，即可将该第三风格特征作为前述合成模型的一个输入，在拼接模块与其它特征进行拼接，并进行后续处理即可。

在获取到目标应答数据后，即可直接输出目标应答数据。

除此之外的一种实施例中，在输出目标应答数据时，还可以检测目标应答数据的输出环境是否可用。从而，当输出环境可用时，直接输出目标应答数据。反之，当输出环境不可用时，在目标时刻输出目标应答数据。

其中，目标时刻包括：检测到输出环境可用的时刻。换言之，若输出环境不可用，则可以持续检测输出环境是否可用，直至检测到输出环境可用，即输出目标应答数据。

或者，目标时刻可以为与当前时刻间距预设等待时长的时刻。换言之，若输出环境不可用，则可以等待预设的等待时长后，输出目标应答数据。在该实施例中，等待时长可以根据需要预设，例如，等待时长可以为1h，也可以为5分钟，等，对此不作穷举和限制。需注意，在该实施例中，当等待了预设等待时长后，无需再检测输出环境是否可用，直接输出目标应答数据即可。

在该实施例中，还可以输出提示信息，以对目标应答数据的输出时刻进行提示。例如，该提示信息可以为：由于当前输出环境不可用，将在5分钟后为您播放目标应答数据。进一步的，用户还可以对提示信息进行操作，以取消或更改该目标应答数据的输出时刻。

或者，目标时刻可以为预设时刻。换言之，若输出环境不可用，则可以在预设时刻输出目标应答数据。与前一实施例类似，预设时刻根据根据需要预设，以及，该实施例中在预设时刻亦无需再检测输出环境是否可用，直接输出目标应答数据即可。类似的，在该实施例中，亦可输出提示信息，例如，可以输出：由于当前输出环境不可用，将在15点整为您播放目标应答数据。类似的，用户还可以对提示信息进行操作，以取消或更改该目标应答数据的输出时刻。

而检测输出环境是否可用，则可以按照如下的一种或多种方式实现：

在一可能的实施例中，当目标应答数据与车辆相关联时，获取车辆运动状态。从而，当车辆运动状态为行驶状态时，输出环境不可用；反之，当车辆运动状态为非行驶状态时，输出环境可用。

在另一可能的实施例中，还可以获取当前的多媒体输出状态，多媒体包括：视频或音频。从而，当多媒体输出状态为播放状态时，输出环境不可用；反之，若当前无多媒体输出时，输出环境可用。

示例性的，在前述针对司机端的夸夸场景中，当前终端为司机端，且司机端当前处于车辆驾驶状态，则为了避免目标应答数据对司机产生干扰，可以将当前输出环境确定为不可用。除此之外，若该司机端处于视频或音乐的播放状态时，则当前输出环境不可用。

例如，在一种可能的场景中，用户可能发出了“夸夸我吧”的语音，在终端尚未输出目标应答数据时，用户后来又打开了一个视频，当前处于多媒体视频的播放状态，当前输出环境为不可用。其中，用户后来打开的视频可以为当前应用程序(application，app)中的视频，也可以为另一个app中的视频，对此无特别限制。

可以理解的是，上述实施例中的部分或全部步骤或操作仅是示例，本申请实施例还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照上述实施例呈现的不同的顺序来执行，并且有可能并非要执行上述实施例中的全部操作。

本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。

基于上述方法实施例所提供的智能应答方法，本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

本发明实施例提供了一种终端，请参考图13，该终端1300，包括：处理模块132与收发模块134；

其中，处理模块132，用于：

获取应答文本；

提取应答文本的文本特征、第一情感特征、第一风格特征中的一种或多种；

获取目标应答对象的对象特征；

基于文本特征、第一情感特征、第一风格特征与对象特征中的至少两种，生成目标应答数据；目标应答数据包含语音数据；

收发模块134，用于输出目标应答数据。

本发明的一种实施例中，处理模块132，具体用于：

对应答文本进行文本化处理，得到文本特征；

利用训练好的情感预测模型处理文本特征，得到第一情感特征；所述第一情感特征用于描述所述应答文本的情绪状态；

利用训练好的风格预测模型处理所述文本特征，得到所述第一风格特征；所述第一风格特征用于描述所述应答文本的语言风格。

其中，文本化处理包括：正则化处理、分词处理、词性标记处理、音素标记处理与韵律分析处理中的一种或多种。

其中，情感预测模型和/或所述风格预测模型为深度学习网络模型，深度学习网络模型包括输出层、瓶颈层、多个隐藏层与输入层。

本发明的另一种实施例中，处理模块132，具体用于：获取目标应答对象的语音特征；或者，获取目标应答对象的语音特征，以及，获取目标应答对象的面部特征。

本发明的另一种实施例中，处理模块132，具体用于：

获取目标应答对象的历史语音数据；

利用训练好的声纹识别模型处理历史语音数据，得到语音特征。

其中，语音特征包括：音色特征；语音特征还包括：音调特征、音量特征、音准特征、语气特征、语言类型特征中的一种或多种。

本发明的另一种实施例中，处理模块132，具体用于：

在目标应答对象的发声过程中，采集目标应答对象的历史面部数据；

利用训练好的面部识别模型处理历史面部数据，得到面部特征。

本发明的另一种实施例中，收发模块134，还用于：接收对象切换指令；

此时，处理模块132，具体用于：获取对象切换指令所指示的一个或多个候选应答对象，得到目标应答对象。

本发明的另一种实施例中，处理模块132，具体用于：

利用生成模型处理文本特征、第一情感特征、第一风格特征与对象特征中的至少两种，得到目标应答数据；其中，生成模型为端到端的循环网络模型。

本发明的另一种实施例中，目标应答数据为：语音数据或视频数据。

本发明的另一种实施例中，应答文本为响应于接收到语音交互指令而获取的。

本发明的另一种实施例中，处理模块132，具体用于：

获取语音交互指令的第二情感特征和/或第二风格特征；

获取第二情感特征对应的第三情感特征；和/或，获取所述第二风格特征对应的第三风格特征；

基于文本特征、第一情感特征、所述第一风格特征、所述对象特征、所述第三情感特征与所述第三风格特征中的至少两种，生成目标应答数据。

本发明的另一种实施例中，处理模块132，具体用于：检测目标应答数据的输出环境是否可用；

此时，收发模块134，具体用于：当输出环境不可用时，在目标时刻输出目标应答数据；其中，目标时刻包括：检测到输出环境可用的时刻，或者，与当前时刻间距预设等待时长的时刻，或者预设时刻。

本发明的另一种实施例中，处理模块132，具体用于：

当目标应答数据与车辆相关联时，获取车辆运动状态；

当车辆运动状态为行驶状态时，输出环境不可用。

本发明的另一种实施例中，处理模块132，具体用于：

获取当前的多媒体输出状态；

当多媒体输出状态为播放状态时，输出环境不可用。

图13所示实施例的终端1300可用于执行上述方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

应理解以上图13所示终端1300的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块以软件通过处理元件调用的形式实现，部分模块通过硬件的形式实现。例如，处理模块132可以为单独设立的处理元件，也可以集成在终端1300中，例如终端的某一个芯片中实现，此外，也可以以程序的形式存储于终端1300的存储器中，由终端1300的某一个处理元件调用并执行以上各个模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(applicationspecificintegratedcircuit，asic)，或，一个或多个微处理器(digitalsingnalprocessor，dsp)，或，一个或者多个现场可编程门阵列(fieldprogrammablegatearray，fpga)等。再如，当以上某个模块通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessingunit，cpu)或其它可以调用程序的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，soc)的形式实现。

并且，本发明实施例提供了一种终端，请参考图14，该终端1300，包括：

存储器1310；

处理器1320；以及

计算机程序；

其中，计算机程序存储在存储器1310中，并被配置为由处理器1320执行以实现如上述实施例的方法。

其中，终端1300中处理器1320的数目可以为一个或多个，处理器1320也可以称为处理单元，可以实现一定的控制功能。处理器1320可以是通用处理器或者专用处理器等。在一种可选地设计中，处理器1320也可以存有指令，指令可以被处理器1320运行，使得终端1300执行上述方法实施例中描述的方法。

在又一种可能的设计中，终端1300可以包括电路，电路可以实现前述方法实施例中发送或接收或者通信的功能。

可选地，终端1300中存储器1310的数目可以为一个或多个，存储器1310上存有指令或者中间数据，指令可在处理器1320上被运行，使得终端1300执行上述方法实施例中描述的方法。可选地，存储器1310中还可以存储有其他相关数据。可选地处理器1320中也可以存储指令和/或数据。处理器1320和存储器1310可以单独设置，也可以集成在一起。

此外，如图14所示，在该终端1300中还设置有收发器1330，其中，收发器1330可以称为收发单元、收发机、收发电路、或者收发器等，用于与测试设备或其他终端设备进行数据传输或通信，在此不再赘述。

如图14所示，存储器1310、处理器1320与收发器1330通过总线连接并通信。

若该终端1300用于实现对应于图1中的方法时，例如，可以由收发器1330输出目标应答数据。而处理器1320用于完成相应的确定或者控制操作，可选的，还可以在存储器1310中存储相应的指令。各个部件的具体的处理方式可以参考前述实施例的相关描述。

此外，本发明实施例提供了一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行以实现如方法实施例所述的方法。

由于本实施例中的各模块能够执行方法实施例所示的方法，本实施例未详细描述的部分，可参考对方法实施例的相关说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。