基于数字人的特定人询问方法、装置和存储介质与流程

2021-01-28 13:01:21|

325|

起点商标网

本申请涉及人机交互技术领域，特别是涉及一种基于数字人的特定人询问方法、装置和存储介质。

背景技术：

随着科学技术的发展，在很多场景下都可以使用人机交互技术来完成特定的工作，例如利用数字人为用户提供问题解答以及信息查询等服务。

目前，当接收到用户输入的语句后，数字人可以对语句进行理解，确定语句所包含的意思，然而经常存在语句所包含的意思，与实际情况不符合的情况，即无法确定该语句所表达的意思的真实性，真实性判断准确度低。

技术实现要素：

基于此，有必要针对上述技术问题，提供一种基于数字人的特定人询问方法、装置和存储介质。

一种基于数字人的特定人询问方法，所述方法包括：输出第一询问语句；获取目标特定人答复所述第一询问语句所对应的特定人语音以及特定人图像；基于所述特定人图像获取所述目标特定人对应的多个行为特征，得到行为特征集合；基于所述特定人语音获取所述目标特定人对应的多个语音特征，得到语音特征集合；将所述行为特征集合中的特征与所述语音特征集合中的特征进行组合，得到第一组合特征；基于所述第一组合特征确定所述目标特定人对应的目标答复意图。

在一些实施例中，所述基于所述特定人语音获取所述目标特定人对应的多个语音特征，得到语音特征集合包括：基于所述特定人语音获取所述目标特定人对应的语音属性信息，所述语音属性信息包括语速信息或者语调变化信息的至少一种。

在一些实施例中，所述基于所述特定人语音获取所述目标特定人对应的多个语音特征，得到语音特征集合包括：对所述特定人语音进行语义分析，得到所述特定人语音对应的目标语义；所述方法还包括：将所述目标语义与所述语音属性信息中的语调变化信息进行组合，得到第二组合特征；所述基于所述第一组合特征确定所述目标特定人对应的目标答复意图包括：基于所述第一组合特征以及所述第二组合特征确定所述目标特定人对应的目标答复意图。

在一些实施例中，所述基于所述特定人图像获取所述目标特定人对应的多个行为特征，得到行为特征集合包括：基于所述特定人图像获取所述目标特定人对应的人脸特征，利用已训练的表情识别模型对所述人脸特征进行处理，得到所述目标用户对应的目标表情。

在一些实施例中，所述方法还包括：基于所述目标特定人对应的目标答复意图确定目标询问策略，基于所述目标询问策略对所述目标特定人进行询问。

在一些实施例中，所述基于所述目标特定人对应的目标答复意图确定目标询问策略，基于所述目标询问策略对所述目标特定人进行询问包括：获取对所述目标特定人进行询问的第二询问语句；根据所述目标答复意图确定对应的目标询问语调；根据所述第二询问语句以及所述目标询问语调得到目标询问语音；输出所述目标询问语音。

在一些实施例中，所述获取对所述目标特定人进行询问的第二询问语句包括：对所述特定人语音进行语义分析，得到所述特定人语音对应的目标语义；从询问语句库中获取所述目标语义对应的询问语句，作为第二询问语句。

在一些实施例中，所述根据所述第二询问语句以及所述目标询问语调得到目标询问语音包括:获取所述目标特定人对应的背景属性信息；根据所述背景属性信息对所述第二询问语句进行修改，得到修改后的第二询问语句；根据修改后的第二询问语句以及所述目标询问语调得到目标询问语音。

在一些实施例中，所述基于所述目标特定人对应的目标答复意图确定目标询问策略，基于所述目标询问策略对所述目标特定人进行询问包括：获取所述数字人对应的虚拟形象；基于所述目标特定人对应的目标答复意图确定对应的目标形象调整参数；根据所述目标形象调整参数对所述虚拟形象进行形象调整，控制形象调整后的虚拟形象对所述目标特定人进行询问。

在一些实施例中，所述基于所述第一组合特征确定所述目标特定人对应的目标答复意图包括：将所述第一组合特征输入到已训练的意图识别模型中，所述意图识别模型利用所述第一组合特征对应的模型参数对所述第一组合特征进行处理，得到所述目标特定人对应的目标答复意图。

一种基于数字人的特定人询问装置，所述装置包括：第一询问语句输出模块，用于输出第一询问语句；信息获取模块，用于获取目标特定人答复所述第一询问语句所对应的特定人语音以及特定人图像；行为特征集合得到模块，用于基于所述特定人图像获取所述目标特定人对应的多个行为特征，得到行为特征集合；语音特征集合得到模块，用于基于所述特定人语音获取所述目标特定人对应的多个语音特征，得到语音特征集合；第一组合模块，用于将所述行为特征集合中的特征与所述语音特征集合中的特征进行组合，得到第一组合特征；目标答复意图确定模块，用于基于所述第一组合特征确定所述目标特定人对应的目标答复意图。

在一些实施例中，所述语音特征集合得到模块用于：基于所述特定人语音获取所述目标特定人对应的语音属性信息，所述语音属性信息包括语速信息或者语调变化信息的至少一种。

在一些实施例中，所述语音特征集合得到模块用于：对所述特定人语音进行语义分析，得到所述特定人语音对应的目标语义；所述装置还包括第二组合模块，用于：将所述目标语义与所述语音属性信息中的语调变化信息进行组合，得到第二组合特征；所述目标答复意图确定模块用于：基于所述第一组合特征以及所述第二组合特征确定所述目标特定人对应的目标答复意图。

在一些实施例中，所述行为特征集合得到模块用于：基于所述特定人图像获取所述目标特定人对应的人脸特征，利用已训练的表情识别模型对所述人脸特征进行处理，得到所述目标用户对应的目标表情。

在一些实施例中，所述装置还包括目标询问策略确定模块，用于：基于所述目标特定人对应的目标答复意图确定目标询问策略，基于所述目标询问策略对所述目标特定人进行询问。

在一些实施例中，所述目标询问策略确定模块包括：第二询问语句获取单元，用于获取对所述目标特定人进行询问的第二询问语句；目标询问语调确定单元，用于根据所述目标答复意图确定对应的目标询问语调；目标询问语音得到单元，用于根据所述第二询问语句以及所述目标询问语调得到目标询问语音；目标询问语音输出单元，用于输出所述目标询问语音。

在一些实施例中，所述第二询问语句获取单元用于：对所述特定人语音进行语义分析，得到所述特定人语音对应的目标语义；从询问语句库中获取所述目标语义对应的询问语句，作为第二询问语句。

在一些实施例中，所述目标询问语音得到单元用于:获取所述目标特定人对应的背景属性信息；根据所述背景属性信息对所述第二询问语句进行修改，得到修改后的第二询问语句；根据修改后的第二询问语句以及所述目标询问语调得到目标询问语音。

在一些实施例中，所述目标询问策略确定模块用于：获取所述数字人对应的虚拟形象；基于所述目标特定人对应的目标答复意图确定对应的目标形象调整参数；根据所述目标形象调整参数对所述虚拟形象进行形象调整，控制形象调整后的虚拟形象对所述目标特定人进行询问。

在一些实施例中，所述目标答复意图确定模块用于：将所述第一组合特征输入到已训练的意图识别模型中，所述意图识别模型利用所述第一组合特征对应的模型参数对所述第一组合特征进行处理，得到所述目标特定人对应的目标答复意图。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：输出第一询问语句；获取目标特定人答复所述第一询问语句所对应的特定人语音以及特定人图像；基于所述特定人图像获取所述目标特定人对应的多个行为特征，得到行为特征集合；基于所述特定人语音获取所述目标特定人对应的多个语音特征，得到语音特征集合；将所述行为特征集合中的特征与所述语音特征集合中的特征进行组合，得到第一组合特征；基于所述第一组合特征确定所述目标特定人对应的目标答复意图。

在一些实施例中，所述基于所述特定人语音获取所述目标特定人对应的多个语音特征，得到语音特征集合包括：对所述特定人语音进行语义分析，得到所述特定人语音对应的目标语义；所述计算机程序还使得所述处理器执行如下步骤：将所述目标语义与所述语音属性信息中的语调变化信息进行组合，得到第二组合特征；所述基于所述第一组合特征确定所述目标特定人对应的目标答复意图包括：基于所述第一组合特征以及所述第二组合特征确定所述目标特定人对应的目标答复意图。

在一些实施例中，所述计算机程序还使得所述处理器执行如下步骤：基于所述目标特定人对应的目标答复意图确定目标询问策略，基于所述目标询问策略对所述目标特定人进行询问。

在一些实施例中，所述根据所述第二询问语句以及所述目标询问语调得到目标询问语音包括：获取所述目标特定人对应的背景属性信息；根据所述背景属性信息对所述第二询问语句进行修改，得到修改后的第二询问语句；根据修改后的第二询问语句以及所述目标询问语调得到目标询问语音。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：输出第一询问语句；获取目标特定人答复所述第一询问语句所对应的特定人语音以及特定人图像；基于所述特定人图像获取所述目标特定人对应的多个行为特征，得到行为特征集合；基于所述特定人语音获取所述目标特定人对应的多个语音特征，得到语音特征集合；将所述行为特征集合中的特征与所述语音特征集合中的特征进行组合，得到第一组合特征；基于所述第一组合特征确定所述目标特定人对应的目标答复意图。

上述基于数字人的特定人询问方法、装置、计算机设备和存储介质，在输出第一询问语句后，获取目标特定人答复第一询问语句所对应的特定人语音以及特定人图像，以确定目标特定人对应的行为特征以及语音特征，由于通过将行为特征与语音特征进行组合，行为特征与语音特征组合得到的特征能够更加全面的反映用户在答复时的心理状态，因此基于组合得到的组合特征确定目标特定人对应的目标答复意图，能够准确的确定用户答复的真实性，提高了对答复真实性的判断准确度。

附图说明

图1为一个实施例中基于数字人的特定人询问方法的应用环境图；

图2为一个实施例中基于数字人的特定人询问方法的流程示意图；

图3为一个实施例中基于数字人的特定人询问方法的流程示意图；

图4a为一个实施例中基于目标特定人对应的目标答复意图确定目标询问策略，基于目标询问策略对目标特定人进行询问步骤的流程示意图；

图4b为一些实施例中数字人进行询问的界面示意图；

图5为一个实施例中基于数字人的特定人询问方法装置的结构框图；

图6为一个实施例中目标询问策略确定模块的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于数字人的特定人询问方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102放置在目标特定人所在的区域内，例如当目标特定人为犯罪嫌疑人时，终端放置在进行询问的审讯室，服务器104可以向终端102输出第一询问语句，终端102可以通过语音或者文字的方式输出第一询问语句，终端102上可以安装有摄像头以及录音设备，在目标特定人答复第一询问语句时，可以进行录音以及图像采集，以获取到目标特定人答复第一询问语句时，目标特定人的语音以及图像，并发送至服务器104，服务器104基于特定人图像获取目标特定人对应的多个行为特征，得到行为特征集合；基于特定人语音获取目标特定人对应的多个语音特征，得到语音特征集合；将行为特征集合中的特征与语音特征集合中的特征进行组合，得到第一组合特征；基于第一组合特征确定目标特定人对应的目标答复意图。服务器104得到目标答复意图后，可以向终端102发送目标答复意图，也可以基于目标答复意图确定下一个询问语句，以对目标特定人进行询问。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解，本申请实施例的基于数字人的特定人询问方法也可以是在终端102执行的。本申请实施例中的数字人是一种虚拟的人，可以是指可以协助或者代替真人执行任务的虚拟的人，例如可以是开发的一套程序，通过执行程序，协助或者代替真人对犯罪嫌疑人进行询问。

在一个实施例中，如图2所示，提供了一种基于数字人的特定人询问方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤s202，输出第一询问语句。

其中，询问语句是用于询问特定人的语句。特定人是指特定的人，是需要确定其针对第一询问语句进行答复时，答复的真实性的用户，例如可以是犯罪嫌疑人。第一询问语句可以是从问句库中随机抽取的，问句库中可以存储多个候选的问句。第一询问语句也可以是根据目标特定人的属性信息获取得到的，例如服务器可以获取目标特定人的视频图像，根据视频图像进行人脸检测，根据人脸识别技术获取得到目标特定人的身份信息，根据目标特定人的身份信息从属性信息数据库中获取目标特定人的职业、年龄或者籍贯的至少一个，再根据属性信息获取匹配的问题来对犯罪嫌疑人进行询问。例如，对于同一种问题，对于不同职业的特定人，问题的描述方式可以是不同的。举个例子，对于犯罪时间的问题，假设犯罪嫌疑人的职业涉及的领域为金融，则询问语句可以是“事发当天是交易日还是非交易日？”。假设犯罪嫌疑人的职业涉及的领域为法律，则询问语句可以是“事发当天是在出庭还是全天在办公室？”。

具体地，服务器可以向终端发送第一询问语句，终端可以展示或者播放第一询问语句。例如，终端的屏幕上可以展示虚拟形象，如3d(3dimensions)虚拟形象，当终端接收到第一询问语句后，控制虚拟形象通过语音播放第一询问语句

步骤s204，获取目标特定人答复第一询问语句所对应的特定人语音以及特定人图像。

其中，目标特定人是指需要询问的人，第一询问语句是针对目标特定人输出的，因此需要目标特定人针对第一询问语句进行答复。特定人语音和特定人图像是在目标特定人在答复第一询问语句时，实时采集得到的。例如，当第一询问语句播放完毕后，犯罪嫌疑人开始回答，可以获取第一询问语句播放完成到目标特定人完成答复的语音和图像。

具体地，终端可以控制传感设备获取语音信息以及图像，例如可以采用录音设备进行录音，也可以用视频拍摄设备进行拍摄，得到目标特定人答复第一询问语句所对应的特定人语音以及特定人图像。终端可以实时的向服务器发送特定人语音以及特定人图像，服务器获取特定人语音以及特定人图像。

步骤s206，基于特定人图像获取目标特定人对应的多个行为特征，得到行为特征集合。

其中，行为特征是用于表示行为特性的特征。例如可以是神态特征、表情特征、手势特征、姿势特征或者五官行为特征，五官行为特征可以包括眼睛对应的行为特征或者鼻子对应的行为特征的至少一个。眼睛对应的行为特征例如可以是睁开或者闭着的至少一个。鼻子对应的行为特征例如可以是鼻子吸气或者鼻子呼气的至少一个。

行为特征可以是根据人工智能模型识别得到的。例如可以预先训练得到对行为特征进行识别的模型。模型可以是经过有监督的训练得到的。可以获取训练图像以及训练图像对应的标签(行为特征)，将训练图像输入到待训练的行为特征识别模型中，输出预测的行为特征，根据预测的行为特征与标签的差异得到模型损失值，朝着模型损失值下降的方向调整模型参数，直至模型收敛，模型收敛的条件可以是模型损失值小于预设阈值，行为特征与标签的差异，与模型损失值成正相关关系，差异越大，则模型损失值越大。

在一些实施例中，服务器可以根据计算机视觉技术，对特定人图像进行图像识别，得到犯罪嫌疑人的微表情或者神态信息的至少一种，以得到目标特定人对应的行为特征，行为特征集合中可以包括一个或者多个行为特征。多个是指至少两个。例如，可以将特定人图像输入到行为特征识别模型中，行为特征识别模型输出行为特征。

在一些实施例中，行为特征可以包括表情。基于特定人图像获取目标特定人对应的多个行为特征，得到行为特征集合包括：基于特定人图像获取目标特定人对应的人脸特征，利用已训练的表情识别模型对人脸特征进行处理，得到目标用户对应的目标表情。

具体地，表情是表现在面部上的思想感情，例如可以是惊恐、兴奋或者愤怒等。人脸特征是与人脸有关的特征，例如可以是眼睛对应的特征、嘴巴对应的特征以及鼻子对应的特征。人脸特征可以是人脸特征提取模型提取得到的，人脸特征提取模型可以是深度学习模型。可以包括多个人脸特征提取模型，例如可以包括提取眼睛对应的特征的模型或者提取嘴巴对应的特征的模型的至少一个。人脸特征提取模型与表情识别模型可以是级联的，在模型训练时进行联合训练得到。例如，可以将训练图像输入到人脸特征提取模型中，得到人脸特征，将人脸特征输入到表情识别模型中，得到预测的表情。根据预测的表情与实际的表情的差异，得到模型损失值，根据梯度下降方法调整模型的参数。其中，预测的表情与实际的表情的差异与模型损失值成正相关关系。这样，通过联合训练，可以快速训练得到人脸特征提取模型与表情识别模型。

步骤s208，基于特定人语音获取目标特定人对应的多个语音特征，得到语音特征集合。

其中，语音特征是用于表示语音特性的特征。例如可以包括语调或者语速的至少一个。语调指语句里声音升降的变化。例如可以是升高、降低或者忽高忽低等。语音特征集合中可以包括一个或者多个语音特征。可以对语音的频率的变化进行统计，得到语调特征。

具体地，服务器可以利用自然语言处理技术，对特定人语音进行语音特征识别，得到语音特征集合。例如服务器基于特定人语音获取目标特定人对应的语音属性信息，语音属性信息包括语速信息或者语调变化信息的至少一种。语调变化信息可以是以预设时间长度为单位进行统计的，例如可以是计算每个预设时间长度对应的时间段对应的平均语音频率，根据相邻时间段之间的平均语音频率的变化确定语调。例如，假设预设时间段为1秒，则可以获取第1秒对应的平均语音频率、第2秒对应的平均语音频率以及第2秒对应的平均语音频率，当为连续升高时，则语调变化信息为语调升高。

步骤s210，将行为特征集合中的特征与语音特征集合中的特征进行组合，得到第一组合特征。

具体地，行为特征集合中的语音特征进行组合时，可以是全部组合在一起，也可以是部分组合在一起。例如，第一组合特征可以有多个。一个第一组合特征中包括行为特征集合中的至少一个特征以及语音特征集合中的至少一个特征。组合得到的特征作为一个整体，进行特征的处理。

具体地，服务器可以从行为特征集合中获取至少一个行为特征，从语音特征集合中获取至少一个语音特征，将获取到的特征进行组合，得到第一组合特征。

在一些实施例中，特定人语音与特定人图像中存在一定的时间长度，在组合时，可以是将在相同的时间范围内的行为特征与语音特征进行组合，这样可以表示目标特定人例如犯罪嫌疑人在同一个时间内的心理状态。

在一些实施例中，在组合时，也可以是将第一时间段内的行为特征与第二时间段内的语音特征进行组合，其中第一时间段与第二时间段不同，第一时间段与第二时间段可以是相邻的时间段。通过将相邻时间段的语音特征与行为特征进行组合，能够反映特定人例如犯罪嫌疑人的心理活动。例如，人在说谎时，语速可能会更快，而且经常会在说谎前或者说谎后做一些特定的行为，例如摸鼻子之类的，故将相邻时间段的语音特征与行为特征进行组合，能够进一步反映犯罪嫌疑人的心理活动，以确定其是否说谎。

步骤s212，基于第一组合特征确定目标特定人对应的目标答复意图。

其中，目标答复意图是指答复时的意图，答复意图用于体现答复的真实程度。目标答复意图可以是撒谎或者是实话。第一组合特征对应的目标答复意图可以是根据预先的判断规则得到的。例如可以设置当语速高于预设语速，且在语速高于预设语速之后的相邻时间段中，存在摸鼻子的行为，则确定其目标答复意图为撒谎。

上述基于数字人的特定人询问方法，在输出第一询问语句后，获取目标特定人答复第一询问语句所对应的特定人语音以及特定人图像，以确定目标特定人对应的行为特征以及语音特征，由于通过将行为特征与语音特征进行组合，行为特征与语音特征组合得到的特征能够更加全面的反映用户在答复时的心理状态，因此基于组合得到的组合特征确定目标特定人对应的目标答复意图，能够准确的确定用户答复的真实性，提高了对答复真实性的判断准确度。

在一些实施例中，服务器可以将第一组合特征输入到已训练的意图识别模型中，意图识别模型利用第一组合特征对应的模型参数对第一组合特征进行处理，得到目标特定人对应的目标答复意图。意图识别模型例如可以是神经网络模型。意图识别模型可以是经过有监督的训练得到的，通过模型训练，得到第一组合特征对应的模型参数。

在一些实施例中，当第一组合特征包括多个时，可以基于各个第一组合特征对应的判断规则确定对应的目标答复意图。综合各个第一组合特征对应的目标答复意图确定最终的目标答复意图。例如，可以对第一组合特征对应的目标答复意图进行统计，将数量最多的意图作为最终的目标答复意图。举个例子，假设一共有5个第一组合特征，假设有4个第一组合特征对应的目标答复意图为撒谎，1个第一组合特征对应的目标答复意图为说实话，则最终的目标答复意图为撒谎。通过各个第一组合特征对应的目标答复意图确定最终的目标答复意图，相当于进行了多层次的分析，因此提高了意图分析的准确度。

在一些实施例中，确定目标答复意图时，可以获取前向询问语句对应的答复意图，作为前向答复意图，根据前向答复意图确定目标特定人对应的目标答复意图。其中，前向询问语句是指在第一询问语句之前，询问目标特定人的语句。例如，可以获取前向询问语句对应的各个组合特征对应的答复意图中，答复意图为撒谎的个数(称为前向撒谎个数)，当第一组合特征对应的目标答复意图为撒谎的个数大于前向撒谎个数时，则确定目标特定人撒谎。例如，假设上一次进行答复意图识别时，有3个组合特征对应的答复意图为撒谎，本次是4个组合特征对应的答复意图为撒谎，那说明目标特定用户很可能是撒谎了。

在一些实施例中，数字人在询问过程中，可以是获取预设时间长度的特定人图像以及特定人语音进行意图分析，预设时间长度例如为10分钟，可以利用所获取得到的语音特征以及行为特征产生目标特定人对应的意图结果，终端还可以意图结果展现给询问的警察，例如展示在警察对应的终端中，便于他们调整询问方法。

在一些实施例中，还可以保存在每个时间段得到的意图识别结果(称为中间意图识别结果)，当询问结束后，基于中间的图识别结果得到最终的意图分析结果，即得到最终的犯罪嫌疑人意图总结结果。例如，可以获取中间意图识别结果的变化规律，输出该变化规律。变化规律例如可以是前20分钟几乎都在撒谎，20分钟后逐渐说实话。利用中间的意图识别结果来进行多层次的分析会使得最后的结果更加准确，而且也有利于询问的警察在中途调整询问的方法，来推测犯罪嫌疑人的心理活动状态，来更好的执行询问。

在一些实施例中，可以获取答复意图的变化规律。例如，服务器还可以输出答复意图对应的概率，确定概率变化规律，并根据概率变化规律输出特定人的心理状态变化情况。例如，假设说实话的概率逐渐变大，则确定心理状态变化结果为逐渐倾向于合作。假设说谎话的概率逐渐变大，则确定心理状态变化结果为逐渐倾向于抵抗询问。

在一些实施例中，如图3所示，基于数字人的特定人询问方法还可以包括以下步骤:

步骤s302，对特定人语音进行语义分析，得到特定人语音对应的目标语义。

语义是指答复语句中所表达的意思。例如，对于犯罪嫌疑人的答复，目标语义可以为承认犯罪事实或者是否认犯罪事实。可以是基于语义识别模型识别得到目标语义，语音识别模型是人工智能模型。

步骤s304，将目标语义与语音属性信息中的语调变化信息进行组合，得到第二组合特征。

步骤s212即基于第一组合特征确定目标特定人对应的目标答复意图包括：基于第一组合特征以及第二组合特征确定目标特定人对应的目标答复意图。

具体地，不同的语义对应的语调变化存在差异，通过将语义与语调变化信息进行组合，得到第二组合特征，能够挖掘得到目标特定人在表达其想表达的意思时通过语言表现出的心理状态活动，因此基于第二组合特征确定目标特定人的目标答复意图，例如将第一组合特征以及第二组合特征输入到意图识别模型中，得到目标答复意图，能够提高得到的目标答复意图的准确度。

在一些实施例中，基于数字人的特定人询问方法还可以包括以下步骤：基于目标特定人对应的目标答复意图确定目标询问策略，基于目标询问策略对目标特定人进行询问。

其中，询问策略是指询问所要采取的策略。策略可以包括提问的语调、提问的方式、提问者的形象或者提问的问题的类型的至少一个。可以预先设置答复意图与询问策略的对应关系，因此可以根据目标答复意图获取到对应的目标询问策略。根据目标询问策略对目标特定人进行询问。通过针对不同的答复意图，采取不同的答复策略，可以使得询问更加高效。

例如，假设答复意图为说谎，则可以提高询问的语调以及严厉程度，使得犯罪嫌疑人感受到压力，并获取与第一询问语句的语义相似的询问语句，并向目标特定人发问，使其答复一些更加有针对性的问题，以提高询问效果。

又例如，假设答复意图为说了实话。则可以跳过与第一询问语句的语义相似的询问语句，获取另外的问题进行询问。

又例如，假设答复意图为说谎，则可以改变提问方式，改为通过真实的人例如警察进行提问，以使得提问更加高效。

在一些实施例中，基于目标特定人对应的目标答复意图确定目标询问策略，基于目标询问策略对目标特定人进行询问包括：获取数字人对应的虚拟形象；基于目标特定人对应的目标答复意图确定对应的目标形象调整参数；根据目标形象调整参数对虚拟形象进行形象调整，控制形象调整后的虚拟形象对目标特定人进行询问。

具体地，虚拟形象是指该形象是虚拟得到的，并不是真实的用户形象，例如可以是卡通形象。形象调整参数是指对虚拟形象进行调整的参数，例如包括人脸对应的形象调整参数或者手势对应的形象调整参数的至少一个。不同的答复意图可以对应不同的形象调整参数。预先设置了答复意图与形象调整参数的对应关系。例如，当目标答复意图为说真话时，则形象调整参数为温和形象调整参数，温和形象调整参数用于将形象调整为温和状态。当目标答复意图为说慌时，则形象调整参数为严厉形象调整参数，严厉形象调整参数用于将形象调整为严厉状态。举个实际的例子，温和形象调整参数可以包括将人脸调整为微笑的形象调整参数。严厉形象调整参数可以包括将人脸调整为严厉神态的形象调整参数以及将手势调整为拍桌子的手势的形象调整参数。当对虚拟形象进行形象调整后，可以控制形象调整后的虚拟形象对目标特定人进行询问。

在一些实施例中，如图4a所示，基于目标特定人对应的目标答复意图确定目标询问策略，基于目标询问策略对目标特定人进行询问包括以下步骤：

步骤s402，获取对目标特定人进行询问的第二询问语句。

具体地，第二询问语句可以是随机选取的，也可以是根据目标答复意图确定的。例如假设目标答复意图为说谎，则获取与第一询问语句的语义相似的语句，作为第二询问语句，以进一步通过语义相似的提问，确定事实。假设目标答复意图为说了实话，则可以按照预设的语句询问顺序获取第二询问语句对犯罪嫌疑人进行询问。

在一些实施例中，获取对目标特定人进行询问的第二询问语句包括：对特定人语音进行语义分析，得到特定人语音对应的目标语义；从询问语句库中获取目标语义对应的询问语句，作为第二询问语句。

具体地，服务器可以根据语义识别模型识别得到特定人语音所表达的意思，即得到目标语义。例如是承认犯罪事实还是否定犯罪事实，询问语句库中可以存储有语义对应的询问语句，即语义与询问语句的对应关系，因此可以根据目标语义获取得到对应的询问语句，作为第二询问语句。通过根据目标特定人例如犯罪嫌疑人答复时所表达的意思，在询问语句库中获取到对应的目标询问语句，能使得数字人可以灵活的根据目标特定人的回复进行询问，提高了询问的效果。

例如，假设目标语义为犯罪嫌疑人表示其当时在饭馆吃饭，则可以获取到与饭馆吃饭相关的询问语句，例如询问饭馆相关信息的询问语句或者吃饭细节的询问语句。例如是询问饭馆的名字的询问语句或者询问在饭馆所点的菜品的询问语句。

在一些实施例中，可以获取目标语义中的目标实体，获取目标实体对应的询问语句，作为第二询问语句。例如可以在知识图谱中获取目标实体对应的存在关联的关联实体，根据关联实体获取得到对应的第二询问语句。举个例子，假设目标语义为“我那天去了xx公园”，假设在知识图谱中，“xx公园”对应的入口包括“a入口”以及“b入口”，而根据知识图谱，“a入口”以及“b入口”的属性为“入口”，因此可以获取与“入口”相关的问题，例如，“你是从a入口还是b入口进入公园的”。

步骤s404，根据目标答复意图确定对应的目标询问语调。

具体地，预先设置了答复意图与询问语调的对应关系，因此服务器得到目标答复意图之后，可以根据该对应关系获取到对应的目标询问语调。例如，可以设置当答复意图为说谎时，则获取的询问语调是升调。当答复意图为说了实话时，则获取的是平常语气对应的语调，例如平调。

步骤s406，根据第二询问语句以及目标询问语调得到目标询问语音。

具体地，得到目标询问语调时，可以根据语音合成技术，采用目标询问语调朗读第二询问语句，从而得到目标询问语音。

在一些实施例中，根据第二询问语句以及目标询问语调得到目标询问语音包括:获取目标特定人对应的背景属性信息；根据背景属性信息对第二询问语句进行修改，得到修改后的第二询问语句；根据修改后的第二询问语句以及目标询问语调得到目标询问语音。

其中，背景属性信息是用于表示用户的背景的属性信息，例如年龄、职业或者兴趣爱好等。得到背景属性信息后，可以基于背景属性信息对第二询问语句进行修改，使得修改后的第二询问语句与目标特定人的背景更加匹配。因此提高了询问的有效性。

在一些实施例中，可以根据背景属性信息对第二询问语句中的名词进行修改。例如，对于不同的职业的犯罪嫌疑人，可以根据职业修改第二询问语句中的名词。例如，可以获取语句生成模型，语句生成模型用于根据一个语句生成另一个语句，可以将第二询问语句与背景属性信息输入到语句生成模型中，语句生成模型根据背景属性信息对第二询问语句进行改写，生成语义近似的询问语句，作为修改后的第二询问语句。通过根据背景属性信息对第二训练语句进行修改，能够得到背景属性信息匹配的修改后的第二询问语句，从而使得目标特定人能够更好的理解询问语句。

步骤s408，输出目标询问语音。

具体地，服务器可以将目标询问语音发送至终端，终端可以通过语音播放设备播放该目标询问语音。

本申请实施例提供的方法可以应用于对犯罪嫌疑人进行询问的场景中，现有的犯罪嫌疑人的询问方法往往都是办案民警面对面调查询问，利用警察的职业训练所获得的知识和经验来询问犯罪嫌疑人从而获得真实完备的信息。但是高质量的警力资源稀缺。训练有素的犯罪嫌疑人会有欺骗、隐瞒事实的可能，他们可能通过利用真人警察的弱点来达到不法的目的。因此可以创建一个虚拟数字人警察来对犯罪嫌疑人进行询问。虚拟数字人警察可以通过视频和语音采集设备来采集犯罪嫌疑人的视频信息和声音信息，用于后续的答复意图识别。虚拟数字人警察还可通过视频和语音播放设备来展示询问语句，以此和犯罪嫌疑人进行交互。其中，还可以通过视频设备展现图片以及视频证据。

此外，还可以通过完备的知识图谱以及犯罪数据库等海量的数据作为虚拟数字人警察进行答复意图分析的依据，以此来对犯罪嫌疑人进行询问。例如服务器可以结合该数字人配备的完备的心理学以及犯罪心理学等数据库来分析犯罪嫌疑人说话的真实性，还可以根据得到的目标答复意图调整询问问题的策略，例如话术。由于数字人，具有中立性，不会被犯罪嫌疑人夸张的演技所迷惑，从而可以获得真实有效的信息，而且这种数字人可复制性强，可以推广到各个警察局，让每个警察局都拥有同等超强能力的数字人。

本申请实施例的数字人可以通过虚拟形象表示，可以根据目标特定人对应的目标答复意图，对虚拟形象进行调整，例如当答复意图为说谎时，调整虚拟形象的神态为严厉。如图4b所示，为一些实施例中数字人进行询问的界面示意图，嫌疑人询问界面上可以显示一个虚拟警察形象，在未检测到目标特定人说谎时，虚拟警察形象处于正常的神态，当检测到目标特定人说谎时，虚拟警察形象调整为严厉的神态，终端可以控制虚拟警察形象发出语音询问语句，例如“你那天是从哪个入口进入公园的？”。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于数字人的特定人询问装置，包括：第一询问语句输出模块502、信息获取模块504、行为特征集合得到模块506、语音特征集合得到模块508、第一组合模块510和目标答复意图确定模块512，其中：

第一询问语句输出模块502，用于输出第一询问语句。

信息获取模块504，用于获取目标特定人答复第一询问语句所对应的特定人语音以及特定人图像。

行为特征集合得到模块506，用于基于特定人图像获取目标特定人对应的多个行为特征，得到行为特征集合。

语音特征集合得到模块508，用于基于特定人语音获取目标特定人对应的多个语音特征，得到语音特征集合。

第一组合模块510，用于将行为特征集合中的特征与语音特征集合中的特征进行组合，得到第一组合特征。

目标答复意图确定模块512，用于基于第一组合特征确定目标特定人对应的目标答复意图。

在一些实施例中，语音特征集合得到模块用于：基于特定人语音获取目标特定人对应的语音属性信息，语音属性信息包括语速信息或者语调变化信息的至少一种。

在一些实施例中，语音特征集合得到模块用于：对特定人语音进行语义分析，得到特定人语音对应的目标语义；基于数字人的特定人询问装置还包括第二组合模块，用于将目标语义与语音属性信息中的语调变化信息进行组合，得到第二组合特征；目标答复意图确定模块用于：基于第一组合特征以及第二组合特征确定目标特定人对应的目标答复意图。

在一些实施例中，行为特征集合得到模块用于：基于特定人图像获取目标特定人对应的人脸特征，利用已训练的表情识别模型对人脸特征进行处理，得到目标用户对应的目标表情。

在一些实施例中，基于数字人的特定人询问装置还包括目标询问策略确定模块，用于基于目标特定人对应的目标答复意图确定目标询问策略，基于目标询问策略对目标特定人进行询问。

在一些实施例中，如图6所示，目标询问策略确定模块包括：

第二询问语句获取单元602，用于获取对目标特定人进行询问的第二询问语句。

目标询问语调确定单元604，用于根据目标答复意图确定对应的目标询问语调。

目标询问语音得到单元606，用于根据第二询问语句以及目标询问语调得到目标询问语音。

目标询问语音输出单元608，用于输出目标询问语音。

在一些实施例中，第二询问语句获取单元用于：对特定人语音进行语义分析，得到特定人语音对应的目标语义；从询问语句库中获取目标语义对应的询问语句，作为第二询问语句。

在一些实施例中，目标询问语音得到单元用于：获取目标特定人对应的背景属性信息；根据背景属性信息对第二询问语句进行修改，得到修改后的第二询问语句；根据修改后的第二询问语句以及目标询问语调得到目标询问语音。

在一些实施例中，目标答复意图确定模块用于：将第一组合特征输入到已训练的意图识别模型中，意图识别模型利用第一组合特征对应的模型参数对第一组合特征进行处理，得到目标特定人对应的目标答复意图。

关于基于数字人的特定人询问方法装置的具体限定可以参见上文中对于基于数字人的特定人询问方法的限定，在此不再赘述。上述基于数字人的特定人询问方法装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于数字人的特定人询问方法数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数字人的特定人询问方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：输出第一询问语句；获取目标特定人答复第一询问语句所对应的特定人语音以及特定人图像；基于特定人图像获取目标特定人对应的多个行为特征，得到行为特征集合；基于特定人语音获取目标特定人对应的多个语音特征，得到语音特征集合；将行为特征集合中的特征与语音特征集合中的特征进行组合，得到第一组合特征；基于第一组合特征确定目标特定人对应的目标答复意图。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：输出第一询问语句；获取目标特定人答复第一询问语句所对应的特定人语音以及特定人图像；基于特定人图像获取目标特定人对应的多个行为特征，得到行为特征集合；基于特定人语音获取目标特定人对应的多个语音特征，得到语音特征集合；将行为特征集合中的特征与语音特征集合中的特征进行组合，得到第一组合特征；基于第一组合特征确定目标特定人对应的目标答复意图。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(staticrandomaccessmemory，sram)或动态随机存取存储器(dynamicrandomaccessmemory，dram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。