用于社交虚拟现实(VR)的面部动画的制作方法

2021-01-28 17:01:06|

260|

起点商标网

本专利申请总体上涉及创建用于社交vr应用的3d面部动画。

背景技术：

applemicrosoftgoogleassistant^tm、amazonalexa^tm和linecorporationclova^tm是数字助理的实例，所述数字助理将“聊天机器人”实例化，从而以可听方式对人员的口头查询作出响应，以返回查询的答案。如本文所用的术语“聊天机器人或机器人”是指代表人类执行对话式通信的程序(或包括它的整个系统)。对话可以是人员的话语(诸如查询)和聊天机器人对话语的响应的组合。

技术实现要素：

如本文所理解，通过在聊天机器人角色说话时以可视方式显示聊天机器人角色的图形、与查询的口头答案一致地移动其嘴唇，可增强当前数字助理。

因此，一种装置包括至少一个计算机存储器，所述至少一个计算机存储器不是瞬时信号并且继而包括指令，所述指令可由至少一个处理器执行以：从人员接收话语，并且基于所述话语访问数据结构以检索对所述话语的响应。所述指令能够执行来显示所述响应。所述指令能够进一步执行来：至少部分地基于所述响应，生成视位的序列；并且与显示所述响应同步地使呈现在显示器上的化身的嘴唇动画化。

在实例中，所述响应以可听方式显示。为此，所述装置可包括用于播放所述响应的至少一个扬声器。所述装置还可包括用于呈现所述化身的至少一个显示器。

在一些实例中，所述话语至少包括唤醒字词和技能名称，并且所述指令能够执行来：响应于所述技能名称，访问基于云的服务以返回所述响应。所述指令能够进一步执行来：与播放所述响应同步地使所述化身的所述嘴唇动画化。在进一步详述的实施方案中，所述话语可包括期望的技能响应，并且所述指令可能够执行来：向数据结构发送期望的技能响应，以从其接收对期望的技能响应的修改。例如在所述扬声器上播放对期望的技能响应的所述修改。在特定的实例中，期望的技能响应用第一语言并且对期望的技能响应的所述修改用不同于所述第一语言的第二语言。

在另一方面，一种计算机实现的数字助理(da)包括：至少一个传声器；至少一个处理器，所述至少一个处理器被配置为从所述至少一个传声器接收输入；以及至少一个扬声器，所述至少一个扬声器被配置为在所述至少一个处理器的控制下播放音频。所述da还包括：至少一个显示器，所述至少一个显示器被配置为在所述至少一个处理器的控制下呈现所需求图像。所述处理器用可执行指令进行配置以执行聊天机器人模块，所述聊天机器人模块接收从至少一个人员进入所述传声器的至少一条话语；访问至少一个数据源以从其检索对所述话语的响应；并且在所述扬声器上播放所述响应。所述指令能够执行来：与在所述扬声器上播放所述响应同步地使呈现在所述显示器上的化身的嘴唇动画化。

在另一方面，一种方法包括使用数字助理来接收查询、检索对所述查询的响应并且在扬声器上播放所述响应。所述方法还包括使用所述数字助理从所述响应获得至少一个视位，并且与在所述扬声器上播放所述响应同步地使用所述视位使化身动画化。

本申请的关于其结构和操作两者的细节可参考附图得到最好的理解，在附图中相同的附图标号指代相同的部分，并且在附图中：

附图说明

图1是根据本原理的包括实例的示例性系统的框图；

图1a是车辆(诸如无人驾驶车辆)实施方案的示意图；

图1b是移动通信装置(诸如移动电话)电话实施方案的示意图；

图2是示例性数字助理环境的框图；

图3是基于音频的解决方案系统配置的示意图；

图4是与图3相关的示例性逻辑的流程图；

图5是定制技能系统配置的示意图；并且

图6是与图5相关的示例性逻辑的流程图。

具体实施方式

本公开总体上涉及计算机生态系统，其包括消费者电子设备(ce)装置网络的各方面，诸如但不限于：分布式计算机游戏网络、视频广播、内容递送网络、虚拟机和机器学习应用。应注意，设想了即时聊天机器人的许多实施方案，本文描述和示出了包括无人驾驶车辆和移动电话的若干实施方案。

本文的系统可包括服务器和客户端部件，所述服务器和客户端部件通过网络连接，使得可在客户端与服务器部件之间交换数据。客户端部件可包括一个或多个计算装置，所述一个或多个计算装置包括游戏控制台(诸如sony)和相关母板、便携式电视(例如智能tv、支持互联网的tv)、便携式计算机(诸如膝上型计算机和平板计算机)以及其他移动装置(包括智能电话和下文所论述的另外的实例)。这些客户端装置可以多种操作环境操作。例如，客户端计算机中的一些可采用例如orbis或linux操作系统、来自microsoft的操作系统、或unix操作系统、或由apple公司或google生产的操作系统。这些操作环境可用于执行一个或多个浏览程序，诸如由microsoft或google或mozilla制造的浏览器，或者可访问由下文所论述的互联网服务器托管的网站的其他浏览器程序。此外，根据本原理的操作环境可用于执行一个或多个计算机游戏程序。

服务器和/或网关可包括执行指令的一个或多个处理器，所述指令将服务器配置为通过诸如互联网的网络接收和发射数据。或者，客户端和服务器可通过本地内联网或虚拟专用网络连接。服务器或控制器可由游戏控制台和/或其一个或多个母板(诸如sony)、个人计算机等进行实例化。

信息可通过网络在客户端与服务器之间进行交换。为此并且为了安全起见，服务器和/或客户端可包括防火墙、负载平衡器、临时存储设备和代理以及用于可靠性和安全性的其他网络基础设施。一个或多个服务器可形成实现向网络成员提供诸如在线社交网站的安全社区的方法的设备。

如本文所使用，指令是指用于在系统中处理信息的计算机实现的步骤。指令可在软件、固件或硬件中实现，并且包括由系统的部件实施的任何类型的已编程步骤。

处理器可以是可借助于诸如地址线、数据线和控制线的各种线以及寄存器和移位寄存器执行逻辑的任何常规通用的单芯片处理器或多芯片处理器。

通过本文的流程图和用户接口描述的软件模块可包括各种子例程、程序等。在不限制本公开的情况下，陈述为由特定模块执行的逻辑可被再分配到其他软件模块和/或一起组合在单个模块中和/或使得在可共享库中可用。

本文所述的本原理可实现为硬件、软件、固件或其组合；因此，说明性部件、框、模块、电路和步骤依据其功能性加以阐述。

除上文已经提到的内容之外，下文所述的逻辑块、模块和电路可用通用处理器、数字信号处理器(dsp)、现场可编程门阵列(fpga)或被设计来执行本文所述功能的其他可编程逻辑装置来实现或执行，所述其他可编程逻辑装置诸如专用集成电路(asic)、离散门或晶体管逻辑、离散硬件部件或其任何组合。处理器可由控制器或状态机或计算装置的组合实现。

下文所述的功能和方法当在软件中实现时可以诸如但不限于java、c#或c++的适当语言编写，并且可存储在计算机可读存储介质上或通过计算机可读存储介质传输，所述计算机可读存储介质诸如随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、光盘只读存储器(cd-rom)或其他光盘存储设备(诸如数字通用光盘(dvd))、磁盘存储设备或包括可移除拇指驱动器的其他磁存储装置等。连接可建立计算机可读介质。此类连接可包括例如硬连线电缆，包括光纤和同轴线以及数字用户线(dsl)和双绞线。此类连接可包括无线通信连接，包括红外线和无线电。

一个实施方案中所包括的部件可以任何适当的组合用于其他实施方案中。例如，可将本文所述和/或附图中所描绘的各种部件中的任一者组合、互换或从其他实施方案排除。

“具有a、b和c中的至少一者的系统”(类似地，“具有a、b或c中的至少一者的系统”和“具有a、b、c中的至少一者的系统”)包括以下系统，所述系统：仅具有a；仅具有b；仅具有c；同时具有a和b；同时具有a和c；同时具有b和c；和/或同时具有a、b和c等。

现在具体地参考图1，示出了示例性系统10，其可包括上文所提及和下文根据本原理进一步描述的示例性装置中的一者或多者。系统10中所包括的示例性装置中的第一者是消费者电子设备(ce)装置，诸如音频视频装置(avd)12，所述音频视频装置12诸如但不限于具有tv调谐器(等同地，控制tv的机顶盒)的支持互联网的tv。然而，avd12替代地可以是器具或家用物品，例如，计算机化的支持互联网的冰箱、洗涤器或干燥器。avd12替代地也可以是计算机化的支持互联网的(“智能”)电话、平板计算机、笔记本计算机、可穿戴计算机化装置(诸如例如计算机化的支持互联网的手表、计算机化的支持互联网的手环)、其他计算机化的支持互联网的装置、计算机化的支持互联网的音乐播放器、计算机化的支持互联网的耳机、计算机化的支持互联网的可植入装置(诸如可植入皮肤装置)等。无论如何，应理解，avd12被配置为实施本原理(例如，与其他ce装置进行通信以实施本原理，执行本文所述的逻辑并且执行本文所述的任何其他功能和/或操作)。

因此，为了实施此类原理，avd12可由图1所示的部件中的一些或全部建立。例如，avd12可包括一个或多个显示器14，所述一个或多个显示器14可由高清晰度或超高清晰度(“4k”)或更高的平面屏幕实现，并且可以是支持触摸的，以用于通过显示器上的触摸来接收用户输入信号。avd12可包括：一个或多个扬声器16，其用于根据本原理输出音频；以及至少一个另外的输入装置18(诸如例如音频接收器/传声器)，其用于例如向avd12输入可听命令以控制avd12。示例性avd12还可包括一个或多个网络接口20，其用于在一个或多个处理器24的控制下通过至少一个网络22(诸如互联网、wan、lan等)进行通信。因此，接口20可以是但不限于wi-fi收发器，所述wi-fi收发器是无线计算机网络接口的实例，诸如但不限于网状网络收发器。应理解，处理器24控制avd12来实施本原理，包括本文所述的avd12的其他元件，诸如例如控制显示器14来在显示器上呈现图像和从显示器接收输入。此外，应注意，网络接口20可以是例如有线或无线调制解调器或路由器或其他适当接口(诸如例如无线电话收发器或如上所提及的wi-fi收发器等)。

除前述内容之外，avd12还可包括用于物理地连接(例如，使用有线连接)到另一个ce装置的一个或多个输入端口26(诸如例如高清晰度多媒体接口(hdmi)端口或usb端口)和/或用于将耳机连接到avd12以用于通过耳机将来自avd12的音频呈现给用户的耳机端口。例如，输入端口26可通过线或无线地连接到音频视频内容的电缆或卫星源26a。因此，源26a可以是例如单独的或集成的机顶盒或卫星接收器。或者，源26a可以是包含内容的游戏控制台或磁盘播放器，所述内容可被用户视为用于下文进一步描述的信道分配目的的最喜爱之物。源26a在实现为游戏控制台时可包括下文关于ce装置44描述的部件中的一些或全部。

avd12还可包括不是瞬时信号的一个或多个计算机存储器28，诸如基于磁盘的存储设备或固态存储设备，所述一个或多个计算机存储器28在一些情况下在avd的机壳中体现为独立装置，或者体现为avd的机壳内部或外部的用于回放av节目的个人视频记录装置(pvr)或视频磁盘播放器，或者体现为可移除存储器介质。此外在一些实施方案中，avd12可包括定位或位置接收器(诸如但不限于手机接收器、gps接收器和/或高度计30)，所述定位或位置接收器被配置为例如从至少一个卫星或手机塔接收地理定位信息并且向处理器24提供所述信息和/或结合处理器24确定avd12被设置处于的高度。然而，应理解，根据本原理，可使用除手机接收器、gps接收器和/或高度计之外的另一个合适的定位接收器来例如确定avd12在例如所有三个维度中的位置。

继续avd12的描述，在一些实施方案中，根据本原理，avd12可包括一个或多个相机32，所述一个或多个相机32可以是例如热成像相机、数字相机(诸如网络摄像头)和/或集成到avd12中并且可由处理器24控制来采集图片/图像和/或视频的相机。avd12上还可包括蓝牙收发器34和其他近场通信(nfc)元件36，其用于分别使用蓝牙和/或nfc技术与其他装置进行通信。示例性nfc元件可以是射频识别(rfid)元件。

更进一步地，avd12可包括向处理器24提供输入的一个或多个辅助传感器37(例如，运动传感器，诸如加速计、陀螺仪、回转计或磁传感器、红外线(ir)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。avd12可包括无线tv广播端口38，其用于接收向处理器24提供输入的othtv广播。除前述内容之外，应注意，avd12还可包括红外线(ir)发射器和/或ir接收器和/或ir收发器42，诸如ir数据关联(irda)装置。可提供电池(未示出)以用于为avd12供电。

仍参考图1，除avd12之外，系统10还可包括一个或多个其他ce装置类型。在一个实例中，第一ce装置44可用于经由通过下述服务器发送的命令控制显示器，而第二ce装置46可包括与第一ce装置44类似的部件并因此将不对其进行详细论述。在所示的实例中，示出仅两个ce装置44、46，应理解，可使用更少或更大的装置。如以上所述，ce装置44/46和/或源26a可由游戏控制台实现。或者，ce装置44/46中的一个或多个可由以商标googlechromecast^tm、出售的装置实现。ce装置可由数字助理建立，其实例在下文进一步示出和描述。

在所示的实例中，为了说明本原理，假设所有三个装置12、44、46都是例如家中娱乐网络的成员，或至少在诸如房屋的某一位置中彼此接近地存在。然而，本原理不限于由虚线48所示的特定位置，除非另有明确要求。

示例性的非限制性第一ce装置44可由上述装置(例如，数字助理、便携式无线膝上型计算机或笔记本计算机或游戏控制器(也称为“控制台”))中的任何一个来建立，并因此可具有下文所述部件中的一个或多个。第二ce装置46无限制地可由诸如蓝光播放器的视频磁盘播放器、游戏控制台等来建立。第一ce装置44可以是用于例如将av播放和暂停命令发布到avd12的遥控装置(rc)，或者它可以是更复杂的装置，诸如平板计算机、通过有线或无线链路与由第二ce装置46实现的游戏控制台通信并且控制avd12上的视频游戏呈现的游戏控制器、个人计算机、无线电话等。

因此，第一ce装置44可包括可以是支持触摸的以用于通过显示器上的触摸来接收用户输入信号的一个或多个显示器50。第一ce装置44可包括：一个或多个扬声器52，其用于根据本原理输出音频；以及至少一个另外的输入装置54(诸如例如音频接收器/传声器)，其用于例如向第一ce装置44输入可听命令以控制装置44。示例性第一ce装置44还可包括一个或多个网络接口56，其用于在一个或多个ce装置处理器58的控制下通过网络22进行通信。因此，接口56可以是但不限于wi-fi收发器，所述wi-fi收发器是无线计算机网络接口的实例，包括网状网络接口。应理解，处理器58控制第一ce装置44来实施本原理，包括本文所述的第一ce装置44的其他元件，诸如例如控制显示器50来在显示器上呈现图像和从显示器接收输入。此外，应注意，网络接口56可以是例如有线或无线调制解调器或路由器或其他适当接口(诸如例如无线电话收发器或如上所提及的wi-fi收发器等)。

除前述内容之外，第一ce装置44还可包括用于物理地连接(例如，使用有线连接)到另一个ce装置的一个或多个输入端口60(诸如例如hdmi端口或usb端口)和/或用于将耳机连接到第一ce装置44以用于通过耳机将来自第一ce装置44的音频呈现给用户的耳机端口。第一ce装置44还可包括一个或多个有形计算机可读存储介质62，诸如基于磁盘的存储设备或固态存储设备。此外在一些实施方案中，第一ce装置44可包括定位或位置接收器(诸如但不限于手机和/或gps接收器和/或高度计64)，所述定位或位置接收器被配置为例如使用三角测量从至少一个卫星和/或手机塔接收地理定位信息并且向ce装置处理器58提供所述信息和/或结合ce装置处理器58确定第一ce装置44被设置处于的高度。然而，应理解，根据本原理，可使用除手机和/或gps接收器和/或高度计之外的另一个合适的定位接收器来例如确定第一ce装置44在例如所有三个维度中的位置。

继续第一ce装置44的描述，在一些实施方案中，根据本原理，第一ce装置44可包括一个或多个相机66，所述一个或多个相机66可以是例如热成像相机、数字相机(诸如网络摄像头)和/或集成到第一ce装置44中并且可由ce装置处理器58控制来采集图片/图像和/或视频的相机。第一ce装置44上还可包括蓝牙收发器68和其他近场通信(nfc)元件70，其用于分别使用蓝牙和/或nfc技术与其他装置进行通信。示例性nfc元件可以是射频识别(rfid)元件。

更进一步地，第一ce装置44可包括向ce装置处理器58提供输入的一个或多个辅助传感器72(例如，运动传感器，诸如加速计、陀螺仪、回转计或磁传感器、红外线(ir)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。第一ce装置44可包括向ce装置处理器58提供输入的其他传感器，诸如例如一个或多个气候传感器74(例如，气压计、湿度传感器、风传感器、光传感器、温度传感器等)和/或一个或多个生物计量传感器76。除前述内容之外，应注意，在一些实施方案中，第一ce装置44还可包括红外线(ir)发射器和/或ir接收器和/或ir收发器78，诸如ir数据关联(irda)装置。可提供电池(未示出)以用于为第一ce装置44供电。ce装置44可通过上述通信模式和有关部件中的任一者与avd12进行通信。

第二ce装置46可包括针对ce装置44示出的部件中的一些或全部。任一个或两个ce装置可由一个或多个电池供电。

现在参考前述至少一个服务器80，其包括至少一个服务器处理器82、至少一个有形计算机可读存储介质84(诸如基于磁盘的存储设备或固态存储设备)。在实现方式中，介质84包括一个或多个固态存储驱动器(ssd)。根据本原理，服务器还包括至少一个网络接口86，所述至少一个网络接口86允许通过网络22与图1的其他装置进行通信，并且实际上可促进服务器与客户端装置之间的通信。应注意，网络接口86可以是例如有线或无线调制解调器或路由器、wi-fi收发器或其他适当接口(诸如例如无线电话收发器)。网络接口86可以是远程直接存储器访问(rdma)接口，其将介质84直接连接到诸如所谓的“结构”的网络而无需通过服务器处理器82。所述网络可包括以太网网络和/或光纤信道网络和/或无线带宽网络。通常，服务器80包括多个计算机中的多个处理器，这些处理器可称为可布置在物理服务器“堆栈”中的“刀片”。

因此，在一些实施方案中，服务器80可以是互联网服务器或整个“服务器群”，并且可包括并执行“云”功能，使得在例如网络游戏应用程序、数字助理应用程序等的示例性实施方案中，系统10的装置可通过服务器80访问“云”环境。或者，服务器80可由一个或多个游戏控制台或与图1所示的其他装置位于同一房间中或附近的其他计算机来实现。

本文中的方法可实现为由处理器、适当配置的专用集成电路(asic)或现场可编程门阵列(fpga)模块或如本领域技术人员将理解的任何其他便利方式执行的软件指令。在采用的情况下，软件指令可体现在非瞬时装置(诸如cdrom或闪存驱动器)中。软件代码指令可替代地体现在诸如无线电或光学信号的瞬时布置中，或者经由通过互联网进行的下载来体现。

图1a示出其中系统100包括诸如无人驾驶车辆的车辆102的特定非限制性实例，在所述车辆102中已将符合本原理的聊天机器人应用程序从诸如服务器80的云下载到一个或多个计算机存储器104上，所述一个或多个计算机存储器104可由本文所述的计算机存储装置中的任一者实现。聊天机器人应用程序可由一个或多个处理器106执行，以如下文进一步公开地在一个或多个输出装置上输出信息，所述输出装置包括视觉显示器108(诸如平板显示器)、触觉信号发生器110(例如蜂鸣器或生成触觉信号的其他装置)以及一个或多个音频扬声器112。处理器106可从诸如传声器、相机、生物计量传感器的一个或多个传感器114接收输入。处理器106可使用诸如但不限于wi-fi的一个或多个有线或更典型地无线网络接口116与诸如互联网的网络进行通信。

图1b示出其中系统100a包括诸如移动电话的移动通信装置(mcd)102a的另一个特定非限制性实例，在所述移动通信装置102a中已将符合本原理的聊天机器人应用程序从诸如服务器80的云下载到一个或多个计算机存储器104a上，所述一个或多个计算机存储器104a可由本文所述的计算机存储装置中的任一者实现。聊天机器人应用程序可由一个或多个处理器106a执行，以如下文进一步公开地在一个或多个输出装置上输出信息，所述输出装置包括视觉显示器108a(诸如平板显示器)、触觉信号发生器110a(例如蜂鸣器或生成触觉信号的其他装置)以及一个或多个音频扬声器112a。处理器106a可从诸如传声器、相机、生物计量传感器的一个或多个传感器114a接收输入。处理器106a可使用诸如但不限于wi-fi的一个或多个有线或更典型地无线网络接口116a与诸如互联网的网络进行通信。mcd还可包括诸如但不限于码分多址(cdma)收发器、全球移动通信系统(gsm)收发器等的一个或多个无线电话收发器118a。

图2示出由数字助理200实现的ce装置44的示例性应用，所述数字助理200通过诸如wi-fi或其他适当的有线或无线接口的网络接口202与互联网204进行通信，并因此与一个或多个服务器80进行通信以与之交换信息。人员206可对数字助理200的传声器208讲话，并且人员的语音被数字化以通过处理器210访问计算机存储器或存储设备212(诸如基于磁盘的存储设备或固态存储设备)上的指令来使用言语识别进行分析。数字助理通过访问服务器80和/或存储设备212上的数据并将查询结果转换为在一个或多个扬声器214上播放和/或在一个或多个可视显示器216上呈现的可听信号来对来自人员206的查询作出响应。

现在参考图3，可在本文中的显示器中的任一者上以虚拟名称302呈现动画化身300。如在304处所指示，随着呈现化身300的图像，可在本文所公开的扬声器中的任一者上播放言语。与播放言语同步地，使化身300的嘴唇306移动以模仿人员在发出言语304的字词时将形成的视位308。

视位308是用于致使处理器建立嘴唇306的构型的图形指令，并且为此可来自嘴唇同步模块310，所述嘴唇同步模块310从具有传声器和/或存储或流式传输数字音频轨道的诸如数字助理(例如，图2所示的数字助理200)的聊天机器人源312接收音频输入。输入到嘴唇同步模块310的音频可对言语314作出响应，所述言语314诸如由人类说话者316对数字助理312说出并且由数字助理312处理和/或发送给云服务器318进行处理的查询，所述云服务器318返回对源自人类的言语314的响应。

在一个实施方案中，数字助理312可执行嘴唇同步模块310，所述嘴唇同步模块310可通过本受让人的以引用方式并入本文的uspn8,743,125中所论述的技术来实现。在示例性实施方案中，lipsync应用程序可由输出十五个单独视位目标的oculusovrlipsyncforunity系统实现。在示例性实现方式中，仅表示响应中的元音的视位可用于化身300的嘴唇306的动画变形中，而其他视位被映射到“nn”(闭合的嘴唇)。在其他实现方式中，表示辅音的视位可用于使嘴唇动画化。

图4示出可由数字助理的处理器(例如，处理器210)实现的示例性逻辑。从框400开始，可接收诸如聊天机器人的名称302的唤醒字词以及随后来自人类用户316的查询。响应于使数字助理意识到查询的存在的唤醒字词，查询在框402处用作向数据库输入自变量以在框406处检索响应。数据库可在数字助理本地，或者它可以是云服务器318数据库。

所述响应作为音频流输入到嘴唇同步模块310，所述嘴唇同步模块在框408处执行以生成视位。视位用于与在诸如图2中的扬声器214的扬声器上播放响应同步地使图3中的化身300的嘴唇306动画化。

图5示出类似于图3的实例，其中化身300的嘴唇306与响应于来自人类316的查询而在数字助理312的扬声器上播放查询响应同步地移动，区别在于在图5中，系统实现了定制技能。示例性定制技能可以是通常不具备日语语言能力的数字助理说日语的能力。

如在图5的实例中示意性地示出的，首先接收诸如聊天机器人的名称302的唤醒字词500，以使数字助理意识到即将说出传入的查询。然后，由人类说出启动字词502来发起定制技能处理，之后是说出技能名称504来发起力求调用的特定定制技能。然后，人类说出定制技能的期望输出506。在所示的实例中，人类期望听到英语单词“hello(你好)”的日语翻译。

已经接收到定制技能处理启动字词、力求调用的特定定制技能(在此实例中为英语到日语的翻译)及其期望输出(日语的“hello(你好)”)，数字助理可向可由云服务器实现的技能引擎508发送对特定技能和期望结果的调用。技能引擎508可访问基于云的代码执行服务510，所述基于云的代码执行服务510继而可使用期望结果506访问基于云的简单存储服务512，以检索由定制技能处理修改的期望结果并将其返回给技能引擎508。

在所示的示例中，代码执行服务510接收英语的期望结果，并且将英语作为输入自变量输入到存储服务512，所述存储服务512(例如，使用表查找或其他匹配算法)将输入与力求的定制技能输出(在此情况下，日语的“hello(你好)”的音频文件)进行匹配。将音频文件返回给数字助理312，以用于与使化身300的嘴唇306动画化的伴随视位同步地在扬声器上播放所述音频文件。

应注意，在图5的实例中，数字助理312可使用双向通信路径514直接与存储服务512通信，并且还可使用不同的双向通信路径516通过技能引擎508与代码执行服务510通信。

因此，当使用唤醒字词(诸如“cb”)、之后是启动字词(诸如“询问”)再然后使用定制技能的名称(在此情况下为“marie”)时，可如图3中那样给向云服务器发送查询，不同之处在于，在云上执行定制(先前可能已上载到服务)的代码执行服务通过访问根据定制进行定制的简单存储服务数据库返回响应。在所示的示例中，简单存储服务可以定制语言(例如，日语)存储预先记录的音频文件。响应可以是通过文本和/或音频的，其中响应如上所述用于生成视位，所述视位用于使化身的嘴唇动画化。

图6是符合图5的示例性逻辑的流程图。初始地，在框600处，将对技能启动字词502-506作出响应的定制代码和相关联音频文件上载到云，例如，上载到代码执行服务510和存储服务512。然后，在框602处，响应于接收到正确的唤醒字词500，数字助理听到询问字词502，之后是技能名称504和期望输出506，以调用图5所示的定制特征。在接收到有效术语502-506之后，在图6的框604处，向图5中的云服务发送请求。在框606处，接收响应(在当前实例中为音频文件)。在框608中，与从音频文件生成视位并使用视位来移动化身的嘴唇同步地在扬声器上播放音频文件。

应理解，虽然已经参考一些示例性实施方案描述了本原理，但这些实施方案并不意图为限制性的，并且可使用各种替代布置来实现本文所要求保护的主题。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除