HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

低延迟邻近群组翻译的制作方法

2021-01-28 12:01:43|311|起点商标网
低延迟邻近群组翻译的制作方法



背景技术:

实时翻译通常用于使说不同语言的人能够参与对话。就这一点而言,实时翻译是指与对话基本同时地执行的并且希望在一个人说一种语言的话语的时间与向另一用户提供另一种语言的该话语的文本或口头表示的时间之间的延迟最小的翻译。在许多情况下,通过在线服务执行语言之间的翻译,该在线服务从听者的设备接收发言者的语音的音频流(例如,由听者的移动设备的麦克风捕获)、执行到听者期望的语言的翻译并且然后返回翻译的话语的音频流,或替代地,返回翻译的话语的文本表示,以在听者的设备上回放和/或显示。然而,已经发现,在在线连接性受限或不存在的许多情况下,特别是当在移动设备上捕获并回放音频时,可能需要翻译。

此外,在许多情况下,要求用户明确指定用于执行翻译的“从”和“到”语言。但是,存在说两种以上语言的人的群组试图彼此交谈的许多场合,这可能导致与在其间要执行翻译的正确的语言之间进行选择和切换相关联的附加困难。作为示例,当导游带领来自许多不同国家的人的群组时,即使特定选择了导游的母语以其来执行翻译,但是该群组中的其他人可能会以该人不能理解的各种不同的语言问问题。



技术实现要素:

本公开总体上涉及利用本地无线联网在说不同语言的三个或更多个用户之间建立多语言翻译群组的方法、装置和计算机可读介质(暂时性和非暂时性),使得当一个用户对其相应的计算设备(例如,移动设备)发言时,该用户的计算设备可以执行自动语音识别,并且在某些情况下,执行到不同语言的翻译,以生成随后可以被传送给多语言翻译群组中其他用户的计算设备的非音频数据(例如,文本数据)。其他用户的计算设备继而可以使用传送给其他用户的计算设备的非音频数据来生成适合其相应用户的口头音频输出。在其他用户的计算设备上生成口头音频输出还可以包括执行到相应用户的期望语言的翻译,从而使每个用户都能够响应于来自另一用户的语音输入,以其期望的语言接收口头音频输出,而与语音输入的原始语言无关。

因此,与一些实施方式一致,群组翻译方法可以包括:在第一用户的且被配置为输出第一语言的口头音频的第一计算设备中,通过建立到第二用户的第二计算设备和第三用户的第三计算设备中的一个或两个的本地无线网络连接而加入附加地包括第二用户和第三用户的多语言翻译群组,其中,第二计算设备和第三计算设备分别被配置为输出第二语言和第三语言的口头音频,并且其中,第一语言、第二语言和第三语言彼此不同;和在第一计算设备中,并响应于在第二计算设备处接收的且针对多语言翻译群组的第二语言的语音输入:接收与语音输入关联的非音频数据;和从与语音输入关联的非音频数据生成第一语言的且针对第一用户的口头音频输出。

一些实施方式可以进一步包括:在第三计算设备中,并响应于在第二计算设备处接收的且针对多语言翻译群组的第二语言的语音输入:接收与语音输入关联的非音频数据;和从与语音输入关联的非音频数据生成第三语言的且针对第三用户的第二口头音频输出。一些实施方式还可以包括:在第二计算设备中:接收语音输入;对语音输入执行自动语音识别以生成与语音输入关联的非音频数据;和通过多语言翻译群组将与语音输入关联的非音频数据发送到第一计算设备和第三计算设备。另外,一些实施方式还可以包括:在第二计算设备中:接收语音输入;对语音输入执行自动语音识别,并将自动语音识别的输出从第二语言本地地翻译成不同语言,以生成与语音输入关联的非音频数据;和通过多语言翻译群组将与语音输入关联的非音频数据发送到第一计算设备和第三计算设备。

另外,在一些实施方式中,在第一计算设备中生成口头音频输出包括将与语音输入关联的非音频数据本地地翻译成第一语言。一些实施方式还可以包括:在第一计算设备中:从第一用户接收第二语音输入;对第二语音输入执行自动语音识别以生成与第二语音输入关联的第二非音频数据;和通过多语言翻译群组将与第二语音输入关联的第二非音频数据发送到第二计算设备和第三计算设备。一些实现可以进一步包括,在第一计算设备中:从第一用户接收第二语音输入;对第二语音输入执行自动语音识别,并将自动语音识别的输出从第一语言本地地翻译成不同语言,以生成与第二语音输入关联的第二非音频数据;和通过多语言翻译群组将与第二语音输入关联的第二非音频数据发送到第二计算设备和第三计算设备。

此外,在一些实施方式中,与语音输入关联的非音频数据包括与语音输入关联的文本数据。另外,在一些实施方式中,与语音输入关联的非音频数据包括与语音输入关联的一个或多个特征向量。此外,在一些实施方式中,本地无线网络连接包括蓝牙连接、个域网连接、无线网状网络连接、近场连接(nfc)或无线局域网(wlan)连接。另外,在一些实施方式中,本地无线连接使用第一无线网络,其中,通过第一无线网络执行加入多语言翻译群组并通过第二无线网络执行接收与语音输入关联的非音频数据。

一些实施方式还可以包括在第一计算设备中,将与语音输入关联且从第二计算设备接收的非音频数据传递到第三计算设备。另外,在一些实施方式中,在由第二计算设备生成的广播消息中接收与语音输入关联的非音频数据。此外,在一些实施方式中,在由第二计算设备生成并寻址到第一计算设备的点对点消息中接收与语音输入关联的非音频数据。

另外,一些实施方式还可以包括通过以下步骤来发起多语言翻译群组:从第一计算设备和第二计算设备中的一个广播公告消息;和在第一计算设备和第二计算设备中的该一个处接收来自第一计算设备和第二计算设备中的另一个的对公告消息的响应。在一些实施方式中,第一计算设备包括移动设备,并且其中,由驻留在移动设备上的app执行加入多语言翻译群组、接收与语音输入关联的非音频数据和生成口头音频输出。此外,在一些实施方式中,第一计算设备还包括与移动设备无线通信的无线头戴式受话器,并且该方法还包括:通过无线头戴式受话器回放口头音频输出。在一些实施方式中,app在移动设备的显示器上生成聊天室显示,并且该方法还包括:在聊天室显示中以第一语言显示口头音频输出的文本表示。

另外,在一些实施方式中,语音输入是由第二用户选择的预存储消息。此外,在一些实施方式中,语音输入是由虚拟助手生成的消息。

与一些实施方式一致,群组翻译方法可以包括:在第一用户的且被配置为输出第一语言的口头音频的第一计算设备中,通过建立到第二用户的第二计算设备和第三用户的第三计算设备中的一个或两个的本地无线网络连接而加入附加地包括第二用户和第三用户的多语言翻译群组,其中,第二计算设备和第三计算设备分别被配置为输出第二语言和第三语言的口头音频,并且其中,第一语言、第二语言和第三语言彼此不同;和在第一计算设备中:从第一用户接收第一语言的语音输入;对语音输入执行自动语音识别以生成语音识别数据;使用语音识别数据生成与语音输入关联的非音频数据;和通过多语言翻译群组将与语音输入关联的非音频数据发送到第二计算设备和第三计算设备,以使第二计算设备和第三计算设备分别生成第二语言和第三语言的且并分别针对第二用户和第三用户的相应的口头音频输出。

在一些实施方式中,生成与语音输入关联的非音频数据包括将语音识别数据本地地翻译成与第一语言不同的语言。另外,在一些实施方式中,生成与语音输入关联的非音频数据包括将语音识别数据本地地翻译成第二和第三语言中的每一种。此外,在一些实施方式中,与语音输入关联的非音频数据包括与语音输入关联的文本数据或与语音输入关联的一个或多个特征向量。此外,在一些实施方式中,发送与语音输入关联的非音频数据包括:向第二计算设备和第三计算设备发送广播消息。

在一些实施方式中,发送与语音输入关联的非音频数据包括发送分别寻址到第二计算设备和第三计算设备的单独的消息。一些实施方式还可包括通过以下步骤来发起多语言翻译群组:从第一计算设备和第二计算设备中的一个广播公告消息;和在第一计算设备和第二计算设备中的该一个处接收来自第一计算设备和第二计算设备中的另一个的对公告消息的响应。在一些实施方式中,第一计算设备包括移动设备,并且其中,由驻留在移动设备上的app执行加入多语言翻译群组、对语音输入执行自动语音识别和生成与语音输入关联的非音频数据。此外,在一些实施方式中,app在移动设备的显示器上生成聊天室显示,并且该方法还包括:在聊天室显示中以第一语言显示口头音频输出的文本表示。

与一些实施方式一致,第一计算设备可以被配置为向第一用户输出第一语言的口头音频,并包括一个或多个处理器和与一个或多个处理器可操作地联接的存储器,其中,存储器存储指令,响应于一个或多个处理器对指令的执行,指令使一个或多个处理器:通过建立到第二用户的第二计算设备和第三用户的第三计算设备中的一个或两个的本地无线网络连接而加入附加地包括第二用户和第三用户的多语言翻译群组,其中,第二计算设备和第三计算设备分别被配置为输出第二语言和第三语言的口头音频,并且其中,第一语言、第二语言和第三语言彼此不同;和响应于在第二计算设备处接收的且针对多语言翻译群组的第二语言的语音输入:接收与语音输入关联的非音频数据;和从与语音输入关联的非音频数据生成第一语言的且针对第一用户的口头音频输出。

在一些实施方式中,第一计算设备包括移动设备,并且其中,指令定义多个软件组件,多个软件组件包括:本地翻译组件,被配置为从与语音输入关联的非音频数据生成第一语言的文本;和文本到语音组件,被配置为从由本地翻译组件生成的文本生成口头音频输出。此外,在一些实施方式中,多个软件组件还包括:与本地翻译组件和文本到语音组件中的每一个通信的多语言群组翻译app;与多语言群组翻译app通信并被配置为识别口头输入的自动语音识别组件;和与多语言群组翻译app通信并配置为在移动设备的显示器上生成聊天室显示和在聊天室显示中以第一语言显示口头音频输出的文本表示的聊天室组件。此外,在一些实施方式中,多个软件组件还包括被配置为建立和维护与第二计算设备的无线网络连接的联网组件。

与一些实施方式一致,第一计算设备可以被配置为向第一用户输出第一语言的口头音频,并包括一个或多个处理器和与一个或多个处理器可操作地联接的存储器,其中,存储器存储指令,响应于一个或多个处理器对指令的执行,指令使一个或多个处理器:通过建立到第二用户的第二计算设备和第三用户的第三计算设备中的一个或两个的本地无线网络连接而加入附加地包括第二用户和第三用户的多语言翻译群组,其中,第二计算设备和第三计算设备分别被配置为输出第二语言和第三语言的口头音频,并且其中,第一语言、第二语言和第三语言彼此不同;从第一用户接收第一语言的语音输入;对语音输入执行自动语音识别以生成语音识别数据;使用语音识别数据生成与语音输入关联的非音频数据;和通过多语言翻译群组将与语音输入关联的非音频数据发送到第二计算设备和第三计算设备,以使第二计算设备和第三计算设备分别生成第二语言和第三语言的且并分别针对第二用户和第三用户的相应的口头音频输出。

与一些实施方式一致,至少一种非暂时性计算机可读介质包括指令,响应于被配置为向第一用户输出第一语言的口头音频的第一计算设备的一个或多个处理器对指令的执行,指令使一个或多个处理器:通过建立到第二用户的第二计算设备和第三用户的第三计算设备中的一个或两个的本地无线网络连接而加入附加地包括第二用户和第三用户的多语言翻译群组,其中,第二计算设备和第三计算设备分别被配置为输出第二语言和第三语言的口头音频,并且其中,第一语言、第二语言和第三语言彼此不同;和响应于在第二计算设备处接收的且针对多语言翻译群组的第二语言的语音输入:接收与语音输入关联的非音频数据;和从与语音输入关联的非音频数据生成第一语言的且针对第一用户的口头音频输出。

与一些实施方式一致,至少一种非暂时性计算机可读介质包括指令,响应于被配置为向第一用户输出第一语言的口头音频的第一计算设备的一个或多个处理器对指令的执行,指令使一个或多个处理器:通过建立到第二用户的第二计算设备和第三用户的第三计算设备中的一个或两个的本地无线网络连接而加入附加地包括第二用户和第三用户的多语言翻译群组,其中,第二计算设备和第三计算设备分别被配置为输出第二语言和第三语言的口头音频,并且其中,第一语言、第二语言和第三语言彼此不同;从第一用户接收第一语言的语音输入;对语音输入执行自动语音识别以生成语音识别数据;使用语音识别数据生成与语音输入关联的非音频数据;和通过多语言翻译群组将与语音输入关联的非音频数据发送到第二计算设备和第三计算设备,以使第二计算设备和第三计算设备分别生成第二语言和第三语言的且并分别针对第二用户和第三用户的相应的口头音频输出。

其他实施方式可以包括非暂时性计算机可读存储介质,其存储可由处理器执行以执行例如上述方法中的一个或多个的方法的指令。又另一实施方式可以包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可进行操作以执行存储在存储器中的指令,以实现一个或多个模块或引擎,这些模块或引擎单独或共同地执行例如上述方法中的一个或多个的方法。

应当理解,本文中更详细描述的前述概念和附加概念的所有组合被认为是本文公开的主题的一部分。例如,出现在本公开的结尾处的要求保护的主题的所有组合被认为是本文公开的主题的一部分。

附图说明

图1示出了根据各种实施方式的在其中可以利用低延迟邻近群组翻译的环境。

图2a和2b描绘了示出根据各种实施方式的示例方法的流程图。

图3a、3b、3c和3d描绘了根据各种实施方式的群组成员设备可以如何呈现图形用户界面的示例。

图4描绘了根据各种实施方式的翻译群组数据结构的一个示例。

图5描绘了示出根据各种实施方式的另一示例方法的流程图。

图6描绘了示出根据各种实施方式的又另一示例方法的流程图。

图7示意性地描绘了计算设备的示例架构。

具体实施方式

在各种实施方式中,执行低延迟邻近群组翻译以促进使用不同用户的关联计算设备在说三种或更多种语言的用户之间的交流。在各种实施方式中,低延迟邻近群组翻译可以在三个或更多个用户之间建立多语言翻译群组,并且可以支持群组的用户的计算设备之间通过无线网络的非音频数据(例如,文本数据、特征或嵌套向量等)的通信,以在用户计算设备之间提供低延迟通信。计算设备继而可以执行到或从用户的相应语言的本地翻译,以及本地自动语音识别和文本到语音转换以在音频和非音频数据之间进行转换,从而最小化对计算设备的在线连接性的依赖性,使得在在线连接性受限或不存在的情况下,可以利用低延迟邻近群组翻译。从下文的讨论中将理解其他变化和修改。

图1示出了示例环境10,在一些实施方式中,在示例环境10中可以执行低延迟邻近群组翻译。示例环境10包括通过本地无线网络14彼此联接的多个计算设备12。每个计算设备12与特定用户(例如,用户a、b和c)关联,并且可以包括各种类型的计算机和其他可编程电子设备,包括移动设备、智能电话、平板计算机、可穿戴计算机、膝上型计算机、台式计算机、服务器计算机、控制器、机顶盒、专用计算设备,以及实际上包括包含用于执行指令的一个或多个处理器的任何其他类型的设备。

在各种实施方式中,计算设备12可以是便携式的,或者可以被安装或维护在固定位置。例如,当在例如飞机、火车、公共汽车、机场、火车或汽车站的公共区域中用作公告系统时,或当被用于体育或游戏赛事或用于会议、演讲或演示时,主要用户(例如,播音员)使用的计算设备可能不是便携式的。例如,在例如飞机、火车或公共汽车的交通工具中,计算设备可以被硬连线并集成到交通工具的电子系统中或与车辆的电子系统对接。否则,在一些实施方式中,所有计算设备12本质上可以是便携式的。在各种实施方式中,计算设备12及其用户位于相同的大致邻近度中,例如,在相同的大致物理位置中,和在计算设备联接到的一个或多个本地无线网络的范围内。

每个计算设备12无线联接到的本地无线网络14可以表示各种类型的短距离无线网络,包括例如蓝牙网络、个域网(pan)、无线网状网络、近场通信(nfc)网络或无线局域网(wlan或wi-fi)等,其中,到网络的连接性限于彼此相对邻近的计算设备。

每个计算设备12执行操作系统16和各种应用,例如,群组翻译应用(或app)18,可以在其中执行与低延迟邻近群组翻译关联的各种操作。应用18可以附加地包括驻留在其中的各种软件组件,包括例如联网组件20、聊天室或聊天室组件22、翻译组件24、文本到语音(tts)组件26和自动语音识别(asr)组件28。在一些实施方式中,每个组件20-28可以与应用18分离地实现,例如在操作系统16内或在单独的框架中,因此本发明不限于本文所述的特定架构。

联网组件20可以例如用于通过本地无线网络14建立与一个或多个其他计算设备12的网络连接,并管理通过本地无线网络14的通信。在下文将变得更加明显,在一些实施方式中,除其他操作外,联网组件20可发起或响应连接请求或公告、维持网络拓扑信息以及通过本地无线网络14发送、接收或确认网络通信。在所示实施方式中,联网组件20还可以专用于通过一个或多个特定网络协议(例如,蓝牙低功耗(ble))的通信。

聊天组件22可用于为计算设备12创建和维护“聊天室”类型的用户界面、在多语言翻译群组内呈现例如文本通信的转写并识别每个通信的用户或发言者。可以支持各种操作,例如发起与群组的通信、发起与该群组的选定成员的私人通信、记录音频、播放音频等。在一些实施方式中,组件22还可以支持在其他类型的聊天室(例如,sms或文本消息聊天室、即时消息(im)聊天室等)中利用的其他操作。

翻译组件24可用于在两种或更多种语言之间执行语言翻译。尽管在一些实施方式中,翻译组件24可以访问在线服务以执行一些或所有翻译,但是在所示实施方式中,翻译组件24是本地翻译组件,其在计算设备12上本地地执行翻译。就这一点而言,一些实施方式中,一个或多个翻译模型30可以本地地驻留在每个计算设备12上,并且将理解的是,在所示实施方式中,可以执行翻译而与计算设备的任何在线连接性无关。

此外,在所示实施方式中,计算设备之间的通信全部以单个共用语言(例如,在一些实施方式中为英语)执行,由此,每个翻译组件24被用于在该单个共用语言与计算设备12的用户的期望或选择的语言之间执行翻译。换句话说,每个计算设备12可以由其关联的用户配置有主要语言,并且翻译组件24可以用于在该主要语言和群组使用的共用语言之间进行翻译。在一些实施方式中,计算设备的主要语言可以与群组使用的单个共用语言相同,由此,可以不使用翻译组件24或者可以完全省略翻译组件24。在一些实施方式中,翻译组件24和关联的翻译模型30也可以限于在两种语言之间进行翻译,而在其他实施方式中,翻译组件24可以与多个翻译模型30联接以支持两种以上语言之间的翻译。

文本到语音(tts)组件26可用于将非音频数据(例如,文本数据或特征/嵌套向量)转换为口头话语或其翻译的音频表示。相反,自动语音识别(asr)组件28可用于将口头话语的音频表示转换为非音频数据。在一些实施方式中,asr组件28可以生成与口头话语对应的文本,而在其他实施方式中,asr组件28可以生成另一形式的非音频数据,例如描述口头话语中的音素、单词或短语的一个或多个特征/嵌套向量。

将可以理解,在一些实施方式中,任何组件20-28可以彼此组合,或者替代地,任何组件20-28的功能可以被分割到多个组件中。另外,如上所述,在所示实施方式中,组件20-28均不依赖在线连接性。然而,在其他实施方式中,例如,由本地无线网络14或由另一网络(例如,图1所示的互联网32)支持的在线连接性可以用于例如通过一个或多个云服务34提供对远程信息或操作的访问。例如,在一些实施方式中,例如翻译、语音识别和/或文本到语音转换的操作可以由云服务34提供。

此外,虽然在一些实施方式中每个计算设备12可以提供整合的音频输入和输出能力(例如,通过集成的麦克风和扬声器),但是在其他实施方式中,外部音频设备可以用于提供音频输入和/或输出功能。在一些实施方式中,例如,计算设备12可以联接到包含有集成麦克风的头戴式受话器36。其他外部设备,包括例如头戴式受话器、头戴式耳机、耳机、耳塞、麦克风、扬声器等的有线或无线设备,也可以在其他实施方式中使用。在一些实施方式中,例如,可以使用无线头戴式受话器、头戴式耳机、耳塞或耳机(在本文中将其统称为无线头戴式受话器)。此外,外部音频设备还可以例如通过个人助理(语音)接口、按钮或其他硬用户输入、触摸或手势传感器等来传送命令供计算设备12使用。

对于受益于本公开的那些人而言,其他变化将是显而易见的,并且因此,本发明不限于本文讨论的特定环境。

现在转到图2a-2b,示出了用于在图1的环境中实现低延迟邻近群组翻译的示例例程40。例程40示出了由三个用户(用户a、b和c)的计算设备执行的操作。此外,出于将例程置于上下文中的目的,讨论了示例的导游应用,其中,用户a是说法语的margaux,用户b是说英语的游览参与者jim,并且用户c是说西班牙语的游览参与者diego。应当理解,例程40可以用于其他应用,因此本发明不限于以下讨论的特定应用。

例程40在框42中由用户a请求在用户的计算设备上创建多语言翻译群组开始,从而导致由用户a计算设备创建该群组。就这一点而言,多语言翻译群组可以被认为是逻辑实体,该逻辑实体出于在说三种或更多种不同语言的用户之间进行群组通信的目的将至少一组用户计算设备彼此关联,以使得一个用户以一种语言发出的通信能够被传送给群组中其他用户的计算设备,并为这些不同的用户翻译成多种不同的语言。因此,在一些实施方式中,通过多语言翻译群组的通信可以包括使用为该多语言翻译群组存储的信息与多语言翻译群组关联的计算设备之间的数据通信,以帮助在与该群组关联的计算设备之间路由通信。

接下来,在框44中,用户a计算设备广播公告消息,如框46和48所示,该公告消息由用户b和用户c计算设备中的每一个接收。例如,公告的广播可以是例如蓝牙le配对请求,其中,计算设备通过蓝牙网络进行交互,但是可以理解,对于其他网络协议,可以使用其他形式的公告。还应当理解,其他计算设备可以发起公告消息,并且在一些实施方式中,可以不使用公告。

接下来,如框50-60所示,用户a计算设备将用户b和用户c中的每一个添加到多语言翻译群组中。应当理解,添加用户的顺序是任意的,并且还可以类似的方式将附加用户添加到多翻译翻译群组中。对于用户b,用户a和用户b计算设备在框50和52中协商彼此之间的网络连接,并且用户a计算设备在框54中将用户b添加到多语言翻译群组中。对于用户c,用户a和用户c计算设备在框56和58中协商彼此之间网络连接,并且用户a计算设备在框60中将用户c添加到多语言翻译群组中。可以以适合于所利用的特定本地无线网络的各种方式来执行在框50-52和56-58中的协商网络连接,例如,使用用于蓝牙网络的蓝牙协商协议,并且应当理解,在这样的协商期间可以交换各种信息,例如用户名、网络信息(例如ip地址、蓝牙地址、mac地址等),以及可选地,用户的母语、选定语言或期望语言。在框54和60中将用户添加到多语言翻译群组可以包括将条目添加到用于多语言翻译群组的数据结构中(例如,如下面结合图4所讨论),使得将来的通信可以针对群组的所有成员。

然后,框62-92表示从用户a到至少包括用户b和c的多语言翻译群组的群组通信的处理。将假定,出于该示例的目的,英语是用于在用户之间传送非音频口头话语的共用语言,但是本发明不限于此。

在框62中,用户a计算设备从用户a接收语音输入(例如,口头话语),例如通过来自用户a计算设备的麦克风捕获,或从与用户a计算设备通信的头戴式耳机、耳塞、头戴式受话器、耳机等接收该语音输入。在框64中,用户a计算设备例如以用户a语言对语音输入执行自动语音识别。在框66中,用户a计算设备然后确定用户a语言是否是共用语言(例如,英语),如果不是,则将控制传递到框68以执行从用户a语言到共用语言的翻译,并到框70,以生成共用语言的且表示语音输入的一组非音频数据。然而,如果用户a语言是共用语言,则用户a计算设备在框66中绕过框68,并且将控制传递到框70,以生成共用语言的一组非音频数据。

例如,在一些实施方式中,非音频数据可以被格式化为文本,而在其他实施方式中,可以使用其他格式,例如,机器学习组件可用于执行任何或所有语音识别、语言翻译和文本到语音转换的嵌套或特征向量。还应当理解,可以使用各种数据格式来通过自动语音识别和语言翻译来传递语音输入的各种表示。在一个实施方式中,例如,自动语音识别可以生成用户a语言的文本,并且语言翻译可以将该生成的文本转换为共用语言的翻译文本。

现在转到图2b,控制传递到框72,在框72,用户a计算设备向用户b和用户c计算设备中的每一个广播包含非音频数据的消息。然后,用户a计算设备可以在用户a计算设备上显示的聊天室中以用户a语言显示语音输入的文本表示(框76),然后用户a计算设备可以在框78中等待用户a将说出新话语或等待将接收表示群组中的另一成员说出的新话语的消息,并以此处讨论的方式处理话语。

在用户b和用户c计算设备的每一个中,以框80-92所示的方式处理在框72中由用户a计算设备广播的消息。在框80中,接收到来自用户a计算设备的消息,并且在框82中,用户b或用户c计算设备确定计算设备的用户的选定语言是否是共用语言。如果不是,则用户b或用户c计算设备在框82中将控制传递到框84,以将消息中的非音频数据从共用语言转换为用户选定的语言,并传递到框86,以生成用户选定的语言的口头音频输出(例如,使用文本到语音组件)。然而,如果两种语言相同,则用户b或用户c计算设备在框82中绕过框84并将控制直接传递到框86。

接下来,在框88中,用户b或用户c计算设备例如通过计算设备的扬声器或联接到用户的计算设备的耳塞、外部扬声器、头戴式耳机、头戴式受话器、耳机等的扬声器来回放语音输出。然后,在框90中,用户b或用户c计算设备在用户的计算设备上显示的聊天室中以用户的选定语言显示语音输入的文本表示。然后,用户b或用户c计算设备可以在框92中等待设备的用户将说出的新话语(其由用户的计算设备以以上结合框62-76描述的方式来处理),或等待将接收表示群组中的另一成员说出的新话语的消息(其由用户的计算设备以以上结合框80-90描述的方式来处理)。

继续参考框76和90,图3a-3d示出了用户a、b和c之间的示例交互的聊天室显示。例如,图3a示出了用户b(jim,其说英语)的示例用户计算设备100,该示例用户计算设备包括显示器102,其中显示了群组翻译(grouptranslate)应用窗口104。字段106显示了群组成员的列表,margaux、diego和jim,并且在元素108、110和112中显示了英语话语的转写,以及每个话语的发言者的指示,和可选地,该发言者的选定语言的指示。

用户界面102还包括用户b可以激活以创建用于与群组的其他人通信的口头话语的“发言”控件114。另外,在一些实施方式中,还可以例如通过选择“私人”(private)控件116来支持与个体群组成员的私人通信。

出于示例的目的,假设用户b希望与该群组进行通信。用户选择控件114,并对设备说出话语“他在哪一年去世的?(inwhatyeardidhedie?)”。如图3b所示,作为说出该话语的结果,用户b设备在元素118中显示了该口头话语的文本表示。

图3c示出了用户a(margaux,导游,其说法语)的示例计算设备120,该示例计算设备包括显示器122,其中显示了群组翻译(tradirelegroup)应用窗口124。字段126显示了群组成员的列表,margaux、diego和jim以及法语的话语的转写显示在元素130、132和138中,分别与图3a-3b中的英语元素110、112和118对应,以及每个话语的发言者的指示,和可选地,该发言者的选定语言的指示。

用户界面122还包括用户a可以激活以创建用于与群组的其他人通信的口头话语的“发言”控件134。另外,在一些实施方式中,可以与每个通信130、132、138关联地显示各个“回放”控件136,以使用户能够在需要时重新收听口头音频输出。图3c还示出了可以在用户界面122中显示的另一可选控件140,以使用户a能够创建多个预存储的消息和/或将多个预存储的消息传送给群组。对控件140的选择可以例如导致类似于图3d所示的显示,由此,弹出窗口142可以显示控件144、146和148,用户a可以选择控件144、146和148来向群组的其他成员传送与每个预存储的消息关联的非音频数据,从而使每个用户能够以他或她的选定语言翻译(如果需要)并回放与预存储的消息对应的口头音频输出。

将可以理解,尽管在图3a-3d的示例显示中,用户通过选择“发言”控件来发起语音输入,但是在其他实施方式中,可以以其他方式捕获语音输入,例如,使用“始终开启”模式,其中,计算设备基于按下计算设备上的硬按钮,或基于说出语音激活命令短语(类似于用于激活某些类型的计算设备上的个人助理的短语),捕获用户的所有口头输入。

现在转到图4,在各种实施方式中,可以使用许多不同的数据结构来维护多语言翻译群组的群组信息。特别地,图4示出了用于群组“margaux游览群组”的翻译群组数据结构150,其可以包括用于群组的每个成员的多个记录或条目152,并且其可以被维护在每个用户计算设备上。当新成员被添加到群组时,新条目152被添加到数据结构150。另外,可以为该组维护转写154,包括向群组发出的每个通信或口头话语。

每个条目152对于其相应的成员可以包括用户名字段156或其他用户标识信息,以及可选地包括表示关联用户的选定语言的语言字段158。在一些实施方式中,由于每个用户可以接收共用语言的所有通信,因此可以不存储语言信息。

每个条目152还可以包括存储每个用户的网络信息的网络字段160,从而使通信能够被传送给其他用户计算设备。

然而,应当理解,在其他实施方式中可以使用除图4所示的数据结构以外的数据结构,因此本发明不限于此。

接下来,图5示出了替代实施方式,其中,发送计算设备可以将单独的包括非音频数据的消息以每个用户的选定语言发送给其他组群成员,而不是向所有其他群组成员以共用语言发送包括非音频数据的广播消息。特别地,图5示出了例程170,该例程在框172中通过在发送计算设备中接收来自计算设备用户的语音输入开始。在框174中,在发送计算设备中执行自动语音识别,以生成用户的选定语言的语音输入的非音频(例如,文本)表示。然后,在框176中,发送计算设备发起循环,该循环向每个其他群组成员发送消息。对于每个这样的成员,在框178中,发送计算设备确定该成员是否选择了与发送用户的语言不同的语言(例如,基于存储在数据结构150中的语言数据),如果没有,则将控制传递到框180以执行到成员选择的语言的翻译。然后,在框182中,发送计算设备生成并发送寻址到该成员的计算设备、包括非音频数据的消息并寻址到该成员的计算设备。但是,如果语言没有不同,则绕过框180,并且框178将控制直接传递到框182,以生成消息并将消息发送给成员。一旦已经将消息发送给所有其他成员,例程170就完成。

在其他实施方式中,例程170也可以改变。例如,不是向每个成员发送单独的消息,而是可以针对群组中表示的每种语言生成消息,并且将消息发送给选择该语言的成员,从而减少带宽并减少发送设备的翻译开销。在其他实施方式中,可以生成包括每种表示的语言的非音频表示的单个广播消息,使得接收该消息的每个成员计算设备可以选择由成员选择的语言的非音频数据。

在再其他的实施方式中,自动语音识别、翻译和文本到语音转换中的一个或多个可以由云服务而不是在计算设备内本地地执行。另一方面,在某些实施方式中,可能期望本地地执行这些动作并使用计算设备的本地计算资源,以减少延迟和计算设备的带宽消耗,以及减少计算设备对到云服务的在线连接性的依赖,否则在几乎没有或没有在线连接的位置可能会限制群组翻译的使用。

此外,在一些实施方式中,可能期望使用多个无线网络来实现群组翻译。例如,在支持多种网络类型的情况下,不同的计算设备可以使用不同的网络连接彼此连接。此外,在一些实施方式中,可能期望使用一种类型的网络来建立多语言翻译群组,然后使用不同类型的网络来在不同的计算设备之间传送与语音输入关联的数据。因此,例如,在一个示例实施方式中,可以使用蓝牙、nfc或其他短距离网络来建立多语言翻译群组,并且在建立该群组的过程中,可以收集并在群组成员之间分布与每个网络关联的网络信息,例如每个计算设备的ip地址,使得可以通过其他类型的网络(例如,通过wi-fi)进行群组成员之间的将来通信(例如,与口头话语关联的非音频数据)。

接下来,图6示出了又另一实施方式,特别地是例程200,该例程可以由每个计算设备执行以接收和处理由多语言翻译群组的其他成员发送的非音频数据消息。在该实施方式中,使用网状网络拓扑,由此,不是在所有成员计算设备之间建立点对点连接,当在发送和接收设备之间不存在点对点连接时,使用成员计算设备将消息传递到其他成员计算设备。因此,例程200可以在框202中通过在接收计算设备处接收来自发送计算设备的非音频数据消息开始。然后,在框204中,接收计算设备确定是否将接收的消息寻址到该计算设备,并且如果是,则将控制传递到框206-210以处理接收的消息,包括通过接收计算设备将非音频数据翻译成用户的选定语言(框206),生成用户的选定语言的与语音输入对应的口头音频输出(框208)并播放该口头音频输出(框210)。

另一方面,如果未将非音频数据消息寻址到用户的计算设备,则在框204中,接收计算设备将控制传递到框212,以将消息传递到另一计算设备,从而使该消息传播通过网状网络,直到该消息被其预期的目的地计算设备接收。

因此,可以理解,与现有方法相比,各种实施方式可以提供各种技术优势。通过使用共用语言,以及在发言者和听者计算设备之间的共用语言的非音频数据的传送(communication),翻译操作被分布在发言者和听者计算设备之间,并且通常不需要计算设备来对于给定口头话语执行多次翻译。这样做可以减少每个计算设备中的延迟、处理开销和功耗。另外,通过传送非音频数据而不是音频数据,可以减少需要在设备之间传送的数据量。这可以有助于减少与多语言翻译群组的操作关联的延迟和/或可以避免通常与音频数据的无线传输关联的任何质量损失。此外,通过在各个计算设备内本地地执行自动语音识别、翻译和文本到语音转换,可以减少延迟和对在线连接性的依赖。此外,可用于建立多语言翻译群组的本地无线网络的邻近性质可以在同一位置的多个个人希望参与这样的群组的情况下促进群组建立,并且此外,由于在许多实施方式中,每个计算设备仅负责最多由用户选择的单个语言和共用语言之间的翻译(并且如果用户恰好说该共用语言的话则完全不翻译),因此在用户数量和受支持的语言数量方面缩放性很高。在许多实施方式中,添加与每个其他群组成员说不同语言的另一个群组成员通常不会改变参与多语言翻译群组的任何单个计算设备的处理和带宽开销或延迟。

此外,尽管本文讨论的实施方式聚焦于导游应用,但是本发明在许多其他情况下具有适用性,例如,以支持在说不同语言的多个个人可能位于同一位置的区域中的公告,例如在飞机、公共汽车、轮船或火车上、在火车总站或机场、在演示或会议上、在例如联合国的大型集会上、在体育或电子游戏赛事中等。此外,说两种以上的语言的个人处于同一位置的情况下,本文讨论的实施方式可以促进这些个人之间的交流,例如在鸡尾酒会、招待会、商务会议、饭店等处。

在某些实施方式中,还可能期望将虚拟助手功能也结合到群组翻译app中,例如,在用于多语言翻译群组的聊天室中。因此,例如,与作为非音频数据进行传送并被每个计算设备按需翻译的初始语音输入要么被发送计算设备的用户说出要么作为预存储的消息提供不同,初始语音输入可以是由虚拟助手生成的音频或非音频消息。可以例如响应于虚拟助手检测到提出可以由虚拟助手回答的问题的消息而自动生成语音输入,或者可以响应于对虚拟助手的专用请求而手动生成语音输入。因此,例如,响应于在以上结合图3b讨论的示例中由jim创建并在元素118中示出的消息“他是在哪一年去世的?”,jim的计算设备或另一计算设备(例如,导游margaux的计算设备)中的虚拟助手可以检测到群组成员已提出询问,并且可以以文本或口头音频形式生成例如“莱昂纳多·达·芬奇去世于1519年”的响应,并且可以导致生成类似于例程40的框70中生成的非音频消息(并根据需要执行框62-68中的任何一个以生成响应的非音频表示),可以在框72-92中以与任何其他语音输入相同的方式对其进行处理。因此,群组中的每个成员可以接收音频和/或文本格式且以他或她选择的语言的响应。作为另一替代方案,可以例如通过选择类似于图3c的元件138上的按钮136的控件来手动发起虚拟助手响应的发起。作为又另一替代方案,可以在计算设备上(例如,在导游的计算设备上)提供单独的控件,以使该计算设备的用户能够向虚拟助手询问响应。

图7是示例计算设备300的框图。计算设备300通常包括至少一个处理器302,该处理器通过总线子系统304与多个外围设备进行通信。这些外围设备可以包括存储子系统306,包括例如存储器子系统308和文件存储子系统310;用户接口输入设备312;用户接口输出设备314;和网络接口子系统316。输入和输出设备允许用户与计算设备300进行交互。网络接口子系统316提供到外部网络的接口,并且联接到其他计算设备中的对应接口设备。

用户接口输入设备312可以包括键盘,例如鼠标、轨迹球、触摸板或图形平板的指向设备,扫描仪,结合在显示器中的触摸屏,例如语音识别系统、麦克风的音频输入设备,和/或其他类型的输入设备。通常,术语“输入设备”的使用旨在包括用于将信息输入计算设备300中或通信网络上的所有可能类型的设备以及方式。

用户接口输出设备314可以包括显示子系统、打印机、传真机或例如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(crt)、例如液晶显示器(lcd)的平板设备、投影设备或用于创建可见图像的其他机构。显示子系统还可以例如通过音频输出设备提供非视觉显示。通常,术语“输出设备”的使用旨在包括用于将信息从计算设备300输出到用户或另一机器或计算设备的所有可能类型的设备和方式。

存储子系统306存储提供本文所述的一些或全部模块的功能的编程和数据结构。例如,存储子系统306可以包括用于执行图2a-2b的例程40的选定方面和/或实现图1的群组翻译app18、联网组件20、聊天组件22、翻译组件24、自动语音识别组件26和文本到语音转换组件28中的一个或多个的逻辑。

这些软件模块通常由处理器302单独执行或与其他处理器组合执行。在存储子系统306中使用的存储器308可以包括多种存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(ram)318以及在其中存储固定指令的只读存储器(rom)320。文件存储子系统310可以为程序和数据文件提供持久性存储,并且可以包括硬盘驱动器、软盘驱动器以及关联的可移动介质、cd-rom驱动器、光盘驱动器或可移动介质盒。实现某些实施方式的功能的模块可以由文件存储子系统310存储在存储子系统306中,或者存储在(一个或多个)处理器302可访问的其他机器中。

总线子系统304提供使计算设备300的各个组件和子系统能够按预期彼此通信的机制。尽管总线子系统304被示意性地示出为单个总线,但是总线子系统的替代实施方式可以使用多个总线。

计算设备300可以是各种类型的,包括移动设备、智能电话、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、可编程电子设备、机顶盒、工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质,出于说明一些实施方式的目的,对图7中描绘的计算设备300的描述仅旨在作为特定示例。与图7中描绘的计算设备300相比具有更多或更少的组件的计算设备300的许多其他配置也是可能。

在本文描述的系统收集关于用户的个人信息或可能会利用个人信息的情况下,可以给用户提供控制应用或特征是否收集用户信息(例如,关于用户的社交网络、社交动作或行为、职业、用户的偏好或用户的当前位置的信息)或控制是否和/或如何接收可能与用户较相关的内容的机会。此外,可以在存储或使用某些数据之前以一种或多种方式处理所述数据,以便去除个人可识别信息。例如,可以处理用户的身份以使得不能够确定该用户的个人可识别信息,或者可以笼统化获得定位信息的用户的地理位置(例如,到市、邮政编码或州级),以使得不能够确定用户的具体位置。因此,用户可以控制如何收集关于用户的信息和如何由内容服务器使用信息。

尽管本文已经描述和示出了若干实施方式,但是可以利用用于执行功能和/或获得结果和/或本文描述的一个或多个优点的多种其他手段和/或结构,并且每个这样的变化和/或修改被认为在本文描述的实施方式的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置均应是示例性的,并且实际参数、尺寸、材料和/或配置将取决于使用了的教导的一个或多个具体应用。仅使用常规实验,本领域技术人员将会认识到或能够确定本文所述的具体实施方式的许多等同形式。因此,应当理解,前述实施方式仅以示例的方式给出,并且在所附权利要求及其等同物的范围内,可以以不同于具体描述和要求保护的方式来实践实施方式。本公开的实施方式涉及本文所述的每个单独的特征、系统、物品、材料、套件和/或方法。另外,如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的,则包括两个或多个这样的特征、系统、物品、材料、套件和/或方法的任意组合包括在本公开的范围内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips