语音同步输出方法、装置及电子设备与流程

2021-01-28 16:01:42|

280|

起点商标网

本申请涉及网络通信技术领域，更具体地说，涉及一种语音同步输出方法、装置及电子设备。

背景技术：

交互系统，也称在线交互系统，可以实现不同用户通过网络实现多媒体数据的共享，如，在线交互系统所能实现的在线交互可以实现包括在线会议、在线课堂或者其他类型的在线直播等。如，老师与学生可以基于在线交互系统实现在线课程的讲解与交流。

在一些在线交互系统中，可能需要多人通过语音输入相同的内容。比如，在线课堂中，可能需要学生同时朗读课文，以带动学生投入课堂学习，实现类似线下课堂的课堂效果；又如，企事业单元可能会通过在线交互系统进行一些演讲节目排练等，在该种情况下，可能需要多人同步朗读相同内容。然而，在线交互中，受限于网络传输质量等多种因素，用户很难及时调整语音输入节奏，从而导致在线交互中多个用户的语音无法同步，导致语音嘈杂，因此如何在线交互中实现多人同步朗读的效果，减少多人同步朗读中所存在的语音嘈杂是本领域技术人员需要解决的技术问题。

技术实现要素：

本申请提供了一种语音同步输出方法、装置及电子设备。

其中，一种语音同步输出方法，包括：

获得至少两个第一用户的用户媒体数据，所述第一用户的第一客户端与交互系统建立有通讯连接，所述第一用户的用户媒体数据包括所述第一用户的语音数据，所述交互系统为基于网络能够实现多个用户之间同步共享所述多个用户的多媒体数据的平台；

识别所述第一用户的语音数据中包含的语音内容；

基于所述第一用户的语音内容，确定所述第一用户归属的语音播放组，所述语音播放组中包括符合条件的至少两个第一用户，所述条件包括：语音内容之间的匹配度满足第一条件；

将所述第一用户归属的语音播放组中所述第一用户之外的其他第一用户的语音数据输出到所述第一用户的第一客户端。

优选的，所述条件还包括：

用户属性特征之间的关联关系满足第二条件。

优选的，所述用户属性特征之间的关联关系满足第二条件，包括：

声音特征的相似度超过第一阈值，所述声音特征为基于所述第一用户的语音数据确定出的；

和/或，用户画像特征的相似度超过第二阈值；

和/或，所述第一用户之间的用户关系具有关联性；

和/或，所处地理位置属于相同地理区域范围。

优选的，所述基于所述第一用户的语音内容，确定所述第一用户归属的语音播放组，包括：

基于所述第一用户的语音内容以及所述第一用户设定的组内人数，确定所述第一用户归属的语音播放组，所述语音播放组内第一用户的人数不超过所述组内人数。

优选的，所述交互系统还与第二用户的第二客户端建立有通讯连接，所述交互系统用于将所述第二客户端传输的多媒体数据分发给所述至少两个第一用户的第一客户端；

所述方法还包括：

基于所述至少两个第一用户的语音内容，从所述至少两个第一用户中，确定与其他第一用户的语音内容之间的差异度符合条件的至少一个目标第一用户；

向所述第二用户的第二客户端发送语音内容异常提示，所述语音内容异常提示指示有所述目标第一用户的语音内容存在异常，以便在所述第二客户端的在线交互界面中标识出所述目标第一用户。

优选的，还包括：

确定所述目标第一用户的语音内容与其他第一用户的语音内容之间存在的语音差异状况；

将所述目标第一用户对应的语音差异状况发送给所述第二客户端，以便在所述第二客户端的所述在线交互界面中显示出所述目标第一用户的语音差异状况。

优选的，还包括：

获得所述第二用户的第二客户端发送的独立监听请求，所述独立监听请求指示有所述第二用户选择监听的第一用户；

从所述至少两个第一用户的语音数据中，提取出所述第二用户选择监控的第一用户的语音数据，并将所述第二用户选择监听的第一用户的语音数据发送给所述第二用户的第二终端，以在所述第二用户的第二终端单独播放所述第二用户选择监听的第一用户的语音数据。

又一方面，本申请还提供了一种语音同步输出装置，包括：

数据获得单元，用于获得至少两个第一用户的用户媒体数据，所述第一用户的第一客户端与交互系统建立有通讯连接，所述第一用户的用户媒体数据包括所述第一用户的语音数据，所述交互系统为基于网络能够实现多个用户之间同步共享所述多个用户的多媒体数据的平台；

内容识别单元，用于识别所述第一用户的语音数据中包含的语音内容；

组确定单元，用于基于所述第一用户的语音内容，确定所述第一用户归属的语音播放组，所述语音播放组中包括符合条件的至少两个第一用户，所述条件包括：语音内容之间的匹配度满足第一条件；

语音输出单元，用于将所述第一用户归属的语音播放组中所述第一用户之外的其他第一用户的语音数据输出到所述第一用户的第一客户端。

所述装置还包括：

异常用户确定单元，用于基于所述至少两个第一用户的语音内容，从所述至少两个第一用户中，确定与其他第一用户的语音内容之间的差异度符合条件的至少一个目标第一用户；

异常提示单元，用于向所述第二用户的第二客户端发送语音内容异常提示，所述语音内容异常提示指示有所述目标第一用户的语音内容存在异常，以便在所述第二客户端的在线交互界面中标识出所述目标第一用户。

又一方面，本申请还提供了一种电子设备，包括：

存储器和处理器；

其中，所述处理器用于执行如上任一项所述的语音同步输出方法；

所述存储器用于存储处理器执行操作所需的程序。

通过以上方案可知，本申请在识别出交互系统中用户的语音数据包含的语音内容之后，可以将语音内容之间的匹配度满足条件的用户归属为同一个语音播放组，并仅在用户的客户端侧输出与该用户属于同一语音播放组的其他用户的语音数据，从而可以实现在该用户的客户端播放与该用户发出的语音具有同步性的语音，进而实现了基于交互系统多人同时朗读的语音同步性，减少了多人基于交互系统同步朗读所产生的语音嘈杂，提高了基于交互系统进行同步朗读的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种在线交互场景的组成架构示意图；

图2为本申请实施例提供的一种语音同步输出方法的一种流程示意图；

图3为本申请实施例提供的一种语音同步输出方法又一种流程示意图；

图4为本申请实施例提供的一种语音同步输出方法又一种流程示意图；

图5为本申请实施例提供的一种语音同步输出方法的一种流程交互示意图；

图6为本申请实施例提供的一种语音同步输出装置的一种组成结构示意图；

图7为本申请实施例提供的一种电子设备的一种组成架构示意图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的方案适用于基于交互系统实现多人之间语音或者视频通讯的场景。其中，交互系统可以为在线会议系统，还可以为在线课堂系统等实现智能教育的在线教育系统，还可以是涉及到多人交互的直播系统等。

本申请的方案可以应用于交互系统的服务器，也可以是应用于交互系统的客户端，通过本申请的方案可以多人同步发声过程中所出现的嘈杂声音，提高多人同步发声的同步效果。

为了便于理解，下面先以交互系统的一种情况为例，对本申请所适用的场景进行介绍，如图1所示，其示出了本申请在线交互系统的一种组成结构示意图。

在图1中是以交互系统为在线课堂为例进行说明。

由图1可知，在图1中可以包括：在线课堂系统101、多个学生的第一客户端102和至少一个老师的第二客户端103。

其中，在线课堂系统101可以包括至少一台用于实现在线课堂的服务器1011，如，在线课堂系统可以包括多个服务器构成的服务器集群或者云平台等等。

其中，第一客户端和第二客户端均与在线课堂系统建立有通信连接，以使得第一客户端和第二客户端接入在线课堂系统。在此基础上，老师可以通过第二客户端向在线课堂系统传输需要直播的教学视频，而在线课堂系统会将教学视频分发给各个学生的第一客户端，从而实现了线上直播形式的网络课堂。

可以理解的是，第二客户端通过在线课堂系统传输的教学视频可以包括老师讲授的课程的课程内容、老师的语音以及老师的图像等信息中的一种或者多种。

另外，在基于在线课堂系统进行课程学习的过程中，第二客户端也可以将学生的包含音频和/或视频的多媒体数据发送给老师侧的第二客户端，以使得老师可以通过第二客户端获得各个学生的课程学习状态，或者是，通过学生的语音获知学生所存在的问题等。

可以理解的是，图1是以在线课堂这一在线交互场景为例进行说明。但是对于其他在线交互场景也类似，如，对于在线视频会议，同样需要多个用户通过客户端与在线视频会议系统的服务器建立通过连接，以使得参与会议的不同用户的客户端可以通过在线视频会议传输用户语音和视频，以及传输与会议相关的文档或者内容等。当然，对于基于其他交互系统的在线交互场景也类似，在此不再赘述。

基于以上内容，下面结合流程图对本申请的语音同步输出方法进行介绍。

如图2所示，其示出了本申请一种语音同步输出方法又一个实施例的流程示意图，本实施例的语音同步输出方法可以应用于交互系统的服务器，也可以是应用于与交互系统建立有通信连接的客户端。

本实施例的流程可以包括如下步骤：

s201，获得至少两个第一用户的用户媒体数据。

其中，第一用户的第一客户端与交互系统建立有通讯连接。在本申请实施例中，该第一用户可以为通过客户端与交互系统建立通讯连接的任意一个用户。

其中，该交互系统为基于网络能够实现多个用户之间同步共享好多个用户的多媒体数据的平台。如交互系统可以为前面提到的直播平台或者在线课堂的在线课堂系统等。

可以理解的是，用户基于该交互系统所能共享的多媒体数据可以有多种类型，如，可以为用户的音频和视频等多媒体，还可以是文档或者ppt等。

该第一用户的用户媒体数据至少包括第一用户的语音数据，如，第一用户发出的声音等。当然，该第一用户的用户媒体数据还可以包括第一用户的视频数据，如视频数据中包含第一用户的视频图像。

可以理解的是，在本实施例应用于交互系统的情况下，交互系统可以获得各个第一用户的第一客户端传输的用户媒体数据。

而在本实施例应用于客户端，如第一用户的第一客户端的情况下，可以获取第一客户端采集到的本地第一用户的用户媒体数据，以及交互系统传输的其他第一用户的用户媒体数据。

s202，识别该第一用户的语音数据中包含的语音内容。

其中，语音数据中的语音内容是指是指语音数据中通过语音形式表达的内容信息。

其中，识别语音数据中的语音内容可以采用任意语音识别技术，对此不加限制。

如，在一种可能的情况中，识别语音数据中的语音内容可以为识别语音数据对应的文本，文本中包括语音数据中语音所转换出的文字等字符，通过文本可以直观反映出语音数据中的内容信息。例如，如果第一用户通过语音发出“这是个美好的时代”，则可以识别出语音数据中包含的语音内容的文本为“这是个美好的时代”。

s203，基于该第一用户的语音内容，确定第一用户归属的语音播放组。

其中，该语音播放组中包括符合条件的至少两个第一用户，该条件至少包括：语音内容之间的匹配度满足第一条件。

如，语音内容之间的匹配度满足第一条件可以为语音内容之间的匹配度超过设定阈值。又如，语音内容之间的匹配度满足第一条件可以为语音内容之间的匹配度最高。

可以理解的是，如果同一时刻获得的多个第一用户的语音数据中包含的语音内容完全相同，则说明这多个第一用户的语音内容完全同步，因此，通过两个用户的语音内容之间的匹配度可以反映出这两个用户的声音所发出的语音内容的同步程度。

如，以在线课堂多个学生同时朗读文章为例，如果某一时刻获得到两个学生的语音数据后，分析出这两个学生的语音数据中的语音内容完全一致，则说明这两个学生正在以相同朗读进度和速度朗读文章，这两个学生朗读文章的语音同步性较高。

其中，在本实施例中确定不同语音内容之间的匹配度的方式可以有多种。如，对不同语音内容进行文本匹配，将文本匹配度作为语音内容之间的匹配度等。

又如，还可以是从语音内容中包含的字符总个数、相同字符的个数、连续相同的字符个数以及不同语音内容之间字符总个数的差值等一个或者多个维度来分析不同语音内容之间的匹配度。

举例说明，假设用户a对应的语音内容为“我们计划参观博物馆”，而用户b对应的语音内容也为“我们计划参观博物馆”，用户c对应的语音内容为“我们计划参观博物”，而用户d对应的语音内容为“我们打算参观博物馆并”，可知，用户a与用户b发出的语音内容是完成一致的，因此，这两个用户之间的语音内容具有同步性。

而用户c的语音内容比用户a的语音内容少了一个字符，因此，相对于用户a，用户c发出的语音内容具有滞后性。类似的，而用户d的语音内容虽然也包括用户a的语音内容，但，用户d的语音内容比用户a的语音内容多了一个字符“并“，相对于用户a而言，用户d发出的语音内容较为超前，未能与用户a的语音保持同步。因此，相对于用户b而言，用户d与用户a之间的语音同步性会相对较差。

由该例子可知，可以将用户b与用户a确定为属于同一个语音播放组。

可以理解的是，在实际应用中，还可以针对这几种不同的维度可以设置不同的匹配权重。例如，考虑到当不同用户发出语音内容越同步，语音内容中连续相同的字符的个数或者个数占比越多，因此，可以将不同语音内容中连续相同的字符个数的权重设置的相对较高，而字符总格式的差值的权重可以相对较弱等。

又如，还可以在结合语音内容的语义进行语音内容的匹配。当然，还可以结合多种匹配方式对语义内容进行匹配分析。

s204，将该第一用户归属的语音播放组中该第一用户之外的其他第一用户的语音数据输出到该第一用户的第一客户端。

其中，在本实施例应用于交互系统的情况下，针对任意一个第一用户，该交互系统可以仅将与该第一用户属于同一语音播放组内的其他用户的语音数据传输给该第一用户的第一客户端，以使得第一用户的第一客户端仅仅播放该第一用户所属的语音播放组内各用户的语音数据。

在本实施例应用于第一用户的第一客户端的情况下，第一客户端可以从交互系统发送的各个第一用户的语音数据中，提取出与该第一客户端的第一用户属于同一语音播放组的第一用户的语音数据，并播放提取出的各第一用户的语音数据。

可以理解的是，对于任意一个第一用户而言，仅将与该第一用户属于同一个语音播放组的其他第一用户的语音数据输出到该第一用户的客户端，那么该第一用户只能听到与自己发出的语音内容不同的语音内容，提高了第一用户侧感应到的语音内容的同步性，使得用户可以达到线下与其他用户同步朗读的效果。

可以理解的是，在任意一个第一用户的多媒体数据包括第一客户端侧采集到的视频图像(如，第一用户的视频图像等)的情况下，对于任意一个第一用户而言，则还会将与该第一用户归属于同一语音播放组内其他第一用户的视频图像输出到该第一客户端。

当然，在实际应用中，对于任意一个第一用户而言，向第一用户的第一客户端输出的视频图像也可以包括在先交互系统中任意一个第一用户的视频图像，但是可以仅仅属于与该第一用户输出同一语音播放组内的其他第一用户的语音数据。

可见，本申请在识别出交互系统中用户的语音数据包含的语音内容之后，可以将语音内容之间的匹配度满足条件的用户归属为同一个语音播放组，并仅在用户的客户端侧输出与该用户属于同一语音播放组的其他用户的语音数据，从而可以实现在该用户的客户端播放与该用户发出的语音具有同步性的语音，进而实现了基于交互系统多人同时朗读的语音同步性，减少了多人基于交互系统同步朗读所产生的语音嘈杂，提高了基于交互系统进行同步朗读的效果。

可以理解的是，在实际应用中还可以设定属于同一语音播放组的用户所需满足的用户属性特征，以将具有相同或者相似用户属性特征的用户划归到同一个语音播放组。

另外，在实际应用中，还可以由第一用户的客户端或者是该交互系统设定语音播放组内的人数，以使得每个语音播放组的人数不超过设定人数。

如，参见图3，其示出了本申请一种语音同步输出方法又一个实施例的流程示意图，本实施例的方法可以应用于客户端，如第一用户的第一客户端，也可以应用于交互系统。本实施例方法可以包括：

s301，获得至少两个第一用户的用户媒体数据。

该第一用户的用户媒体数据至少包括第一用户的语音数据。

s302，识别该第一用户的语音数据中包含的语音内容。

s303，基于该第一用户的语音内容以及第一用户设定的组内人数，确定第一用户归属的语音播放组，该语音播放组中包括符合条件的至少两个第一用户。

其中，该条件包括：语音内容之间的匹配度满足第一条件，以及用户属性特征之间的关联关系满足第二条件。

其中，第一条件可以参见前面的相关介绍，在此不再赘述。

用户属性特征是指用户自身所具有的或者关联的特征。通过设定属于同一语音播放组内不同第一用户的用户属性特征之间的关联关系满足第二条件，可以将用户属性特征相似或者存在关联的第一用户划分到一个语音播放组。

如，用户属性特征可以为用户的声音特征、身份特征、所处的地理位置以及用户在该交互系统中所归属的用户组等等特征中的一种或者几种。

相应的，该用户属性特征之间的关联关系满足第二条件可以包括如下几种情况中的任意一种或者多种：

声音特征的相似度超过第一阈值，该声音特征为基于第一用户的语音数据确定出的；

用户画像特征的相似度超过第二阈值；

第一用户之间的用户关系具有关联性；

所处地理位置属于相同地理区域范围。

其中，声音特征可以为第一用户的音色或者音调等特征，将声音特征相似度超过第一阈值的多个第一用户确定为同一个语音播放组，有利于避免由于某部分用户的音调过高或者过低(或者是，某部分用户的音色较为特殊等)，而导致语音播放组内多个第一用户整体发出的声音内容的协调性和一致性。

用户画像特征可以为反映用户自身属性或者社会行为属性的特征。如，用户画像特征可以包括用户的年龄、性别、学历以及所从事的职业等等。比如，在不同用户的年龄较为相似或者性别相同等，那么这些用户在发出相同语音内容时，语音内容的语音效果也较为相似，例如，男同学与女同学的声音效果差距较大，因此，男同学与女同学一起朗读课文所呈现出的声音一致性效果相对较差，而年龄相似的女同学朗读相同课文的发声效果较为相同，使得朗读效果的整齐性更为明显。

其中，用户关系可以是好友、属于同一个组或者属于同一个班级等等。可以理解的是，如果不同第一用户的用户关系之间具有关联性，则可以说明这些第一用户彼此是熟悉，较为了解，甚至是相互之间较为默契，因此，将用户关系具有关联性的第一用户作为属于同一个语音播放组的条件，更有利于语音播放组内各个第一用户能够按照相同语速来发出语音内容。

其中，所处地理位置属于相同地理区域范围。如，不同的第一用户属于部署有同一个交互系统的服务器所对应的地理区域范围；或者，不同的第一用户所处的地理位置属于同一个地级市或者省份等等。可以理解的是，在用户所处的地理位置属于相同地理区域范围内，用户之间的网络传输速度也会较为相似，有利于降低由于网络延迟而导致的语音内容不同步的情况，从而有利于提高语音内容的同步性。

当然，以上以用户属性特征的几种情况为例，在实际应用中用户属性特征之间的关联关系所满足的第二条件还可以有其他可能，对此不加限制。

可以理解的是，在本实施例在考虑不同用户的语音内容之间的相似性的前提下，还考虑到对语音内容的相似性具有影响的用户属性特征，来综合确定属于同一个语音播放组的用户，从而有利于后续语音播放组内各个用户的语音同步性。

其中，第一用户设定的组内人数是指第一用户设定的该第一用户所属的语音播放组内包含的用户的最多数量。相应的，在确定第一用户所属的语音播放组的过程中，需要保证该第一用户所归属的语音播放组内的用户数量不超过该第一用户设定的组内人数。例如，某个第一用户设定的组成内容为5个，则最终将该第一用户所划归的语音播放组内一共有5个第一用户，且这5个第一用户之间满足上面提到的条件。

如，以本实施例应用于交互系统为例，交互系统可以结合各第一用户的语音内容以及各个第一用户所设定的组内人数，确定适合划分到用一个语音播放组内的第一用户，从而可以得到每个第一用户所归属的语音播放组。

如果本申请应用于第一用户的第一客户端，那么第一客户端可以确定出与该第一客户端的第一用户满足条件的其他第一用户之后，按照该第一用户设定的组内人数，选取相应数量的其他第一用户与该第一用户组成一个语音播放组。

需要说明的是，本实施例是以语音播放组内第一用户所满足的条件同时包括第一条件和第二条件为例说明，但是可以理解的是，在语音播放组内的用户所满足的条件仅仅包括第一条件的情况下，结合第一用户设定的组内人数来确定语音播放组也同样适用于本实施例。

s304，将该第一用户归属的语音播放组中该第一用户之外的其他第一用户的语音数据输出到该第一用户的第一客户端。

该步骤304可以参见前面实施例的相关介绍，在此不再赘述。

可以理解的是，在基于交互系统进行在线交互的场景中，还可能会存在在线交互的控制者，如，在线交互的管理者、发起者或者维护者等都可以作为在线交互过程中的控制用户。例如，在线课堂中老师作为课堂的管理和维护者，又如，在线会议中，会议主持者或者发起者可能需要管理整个会议状态，维持会议进度并处理在线会议中存在的问题等。

相应的，在该交互系统还可以与第二用户的第二客户端建立有通讯连接。其中，该交互系统用于将该第二客户端传输的多媒体数据分发给与该交互系统的至少两个第一用户的第一客户端。

在该种情况下，在线交互的控制者(即第二用户)可能需要更为准确或者详细的了解到在线交互过程中，语音内容无法与其他用户同步的用户，或者某些用户的语音内容无法同步的具体原因等等。

其中，该第二用户可以属于至少两个第一用户，也可以是第一用户之外的其他用户。

如，以在线课堂场景为例，第一用户可以为学生，第二用户可以为老师。当然，也可以认为第一用户可以为学生或者老师中的任意一个用户，而第二用户仅仅指老师，如，在老师和学生同步朗读的情况下，老师和学生均可以通过设置或者默认在客户端仅仅输出与自身语音内容同步的用户的语音内容。

又如，以在线会议为例，第一用户和第二用户都可以为任意一个参会者，第二用户可以属于至少两个第一用户中的用户，因此，基于本申请的方案，任意一个参与者的客户端均可以仅播放与其语音内容同步的其他用户的语音内容，也可以申请获得无法实现语音同步的原因或者导致语音同步异常的异常用户等信息。当然，第二用户也可以为独立于第一用户之外的会议发起者，而第一用户可以为普通参会者。

如，参见图4，其示出了本申请一种语音同步输出方法又一个实施例的流程示意图，本实施例的方法可以应用于交互系统；在第二用户属于至少两个第一用户的情况下，本申请也可以应用于用户的客户端，本实施例的方法可以包括：

s401，获得至少两个第一用户的用户媒体数据。

该第一用户的用户媒体数据至少包括第一用户的语音数据。

s402，识别该第一用户的语音数据中包含的语音内容。

s403，基于该第一用户的语音内容，确定第一用户归属的语音播放组，该语音播放组中包括符合条件的至少两个第一用户。

其中，该条件至少包括：语音内容之间的匹配度满足第一条件。当然。还可以包括：用户属性特征之间的关联关系满足第二条件。

s404，将该第一用户归属的语音播放组中该第一用户之外的其他第一用户的语音数据输出到该第一用户的第一客户端。

以上s401到s404可以参见前面实施例的相关介绍，在此不再赘述。

s405，基于该至少两个第一用户的语音内容，从该至少两个第一用户中，确定与其他第一用户的语音内容之间的差异度符合条件的至少一个目标第一用户。

其中，目标第一用户属于该至少两个第一用户，仅仅是为了便于区分，将差异度符合条件的第一用户称为目标第一用户。

其中，差异度符合条件可以表征语音内容的同步性较差，可见，如果某个第一用户的语音内容与其他第一用户的内容之间的差异度符合条件，则说明该第一用户可能会相对其他第一用户存在语音内容的超前或者滞后。

相应的，与其他第一用户的语音内容之间的差异度符合条件可以有多种可能。如，与其他第一用户的语音内容之间的差异度符合条件可以为与其他第一用户的语音内容之间的相似度低于第三阈值。其中，该第三阈值小于前面提到的语音内容之间的匹配度所需超过的设定阈值。又如，差异度符合条件还可以为：与其他第一用户的语音内容之间存在不同字符的数量超过设定数量等。

举例说明，以基于交互系统实现多人朗读同一篇文档为例，假设正常情况下大部分第一用户朗读的内容为“我们计划参观博物馆”，则大部分第一用户的语音内容也就是“我们计划参观博物馆”，而如果某个第一用户发出的语音内容为“参观博物馆，这很有意义“，相对于其他第一用户，该第一用户朗读的语音内容较为超前，与其他第一用户的语音内容的差异性较大，导致该第一用户与其他大部分第一用户的语音内容无法实现语音同步，则可以将该第一用户确定为目标用户。类似的，如果第一用户发出的语音内容与其他第一用户完全不同，又或者是存在朗读内容滞后等情况，则该第一用户的语音内容与其他第一用户的语音内容的差异性会较高，则该第一用户可以被认为是存在语音内容异常的目标用户。

作为一种可选方式，在本实施例由交互系统执行的情况下，第二用户的第二客户端还可以向交互系统发送同步异常用户识别请求，该同步异常用户识别请求用于请求标识出用户发声不合规的用户。相应的，该交互系统可以响应与该同步异常用户识别请求，确定与其他第一用户的语音内容之间的差异度符合条件的至少一个目标第一用户。

s406，向该第二用户的第二客户端发送语音内容异常提示。

其中，该语音内容异常提示指示有该目标第一用户的语音内容存在异常，以便在该第二客户端的在线交互界面中标识出该目标第一用户。

如，该语音内容异常提示可以携带目标第一用户的标识以及语音不同步标识。相应的。第二客户端可以在在线交互界面展现出

其中，该语音不同步标识的具体形式可以根据需要设定，其作用是提示提示该目标第一用户的语音内容与其他第一用户的语音内容存在明显差异。例如，语音不同步标识可以为“！“这一符号，还可以是文字标识等等。

可以理解的是，对于存在目标第一用户而言，该目标第一用户与其他第一用户之间语音不同步的情况有多种，其中，将导致目标第一用户与其他第一用户之间的语音内容存在语音差异(语音不同步)的状况称为的语音差异状况，该语音差异状况可以有多种可能。

如，如果由于目标第一用户发出的语音内容相对其他第一用户的语音内容相对滞后，那么语音差异状况属于语音发声滞后，例如，文章朗读速度慢于其他人。

又如，如果由于目标第一用户发出的语音内容相对其他第一用户的语音内容相对超前，则语音异常状况属于语音发声超前，例如，由于语速过快，导致文章朗读的进度超过其他人。

又如，如果由于目标第一用户发出的语音内容与其他第一用户的语音内容完全不同，则语音异常状况可以为语音发声错误等。

当然，语音异常状况还可以有其他可能，对此不加限制。

相应的，为了使得第二客户端的第二用户可以获知导致目标第一用户的语音内容与其他第一用户不同步的具体原因，本实施例还可以确定该目标第一用户的语音内容与其他第一用户的语音内容之间存在的语音差异状况，并将目标第一用户对应的语音差异状况发送给第二客户端，以便在第二客户端的在线交互界面中显示出目标第一用户的语音差异状况。

语音差异状况可以基于目标第一用户的语音内容与其他第一用户的语音内容之间的具体差异语音来确定。如，语音差异状况可以通过比对目标第一用户的语音内容与其他第一用户的语音内容之间的内容差异，并确定该内容差异所对应的语音差异状况。

举例说明，假设用户a的语音内容都与其他用户存在较大语音差异，其中，大部分用户发出的语音内容为“今天是个好日子”，而用户a发出的语音内容为“好日子，心想的事情“，那么用户a的语音差异状况为”语速过快，语音内容超前“。

可以理解的是，在本实施例中，第二用户还可能会存在查看某个第一用户的在线交互情况的需求，如，老师可能需要查看学生的在线课堂状况，或者，在某个学生朗读内容与其他学生存在明显语音差异的情况下，查询学生的状态和单独收听该学生发出的语音等。

为了实现该目的，本申请中第二用户还可以通过第二客户端请求单独监听某个第一用户。相应的，在获得第二用户的第二客户端发送的独立监听请求后，可以从该至少两个第一用户的语音数据中，提取出该第二用户选择监控的第一用户的语音数据，并将该第二用户选择监听的第一用户的语音数据发送给该第二用户的第二终端，以在该第二用户的第二终端单独播放该第二用户选择监听的第一用户的语音数据。

其中，该独立监听请求指示有该第二用户选择监听的第一用户。如，在第二用户的第二客户端的在线交互界面上每个第一用户的显示窗口上都可以有一个监听按钮，在第二客户端检测到第二用户点击该第一用户的显示窗口上的监听按钮后，则可以生成针对该第一用户的独立监听请求。

可见，在本申请实施例中，不仅可以实现为第一用户的第一客户端播放与其语音内容同步的其他用户的语音数据，以减少第一用户侧由于语音不同步而产生的语音嘈杂，提高用户基于在线交互实现同步语音的效果。同时，本申请还可以为交互系统的第二用户的第二客户端提供语音同步异常的第一用户的用户信息，以及具体的语音异常状况，以便第二用户及时和便捷的了解到交互系统中各用户发出的语音情况。

为了便于理解本申请的方案，结合在线课堂这一应用场景进行介绍。为了便于理解，在该应用场景中，以在线课堂系统(即在线课堂系统的服务器)确定语音播放组并确定给各个第一用户的语音数据，并以在线课堂系统中第一用户为在线课堂中的学生，第二用户为在线课堂中的老师，且以基于多个学生在老师的指示下，基于在线课堂同步朗读课文这一场景为例说明。

如，参见图5，其示出了本申请一种语音同步输出方法的一种流程交互示意图，本实施例的方法可以包括：

s501，在线课堂系统获得至少两个学生的用户媒体数据。

该学生的用户媒体数据至少包括学生的语音数据，该学生的语音数据为学生朗读课文所发出的语音的数据。

当然，该学生的用户媒体数据还可以包括学生的图像数据。

s502，在线课堂系统识别每个学生的语音数据中包含的语音内容。

s503，在线课堂系统基于各学生的语音内容以及各学生设定的组内人数，确定各学生归属的语音播放组。

其中，该语音播放组中包括语音内容之间的匹配度满足第一条件，以及学生属性特征之间的关联关系满足第二条件的至少两个学生。如，在线课堂系统可以将语音内容的匹配度以及学生属性特征相似度相对较高的多个学生划归到一个语音播放组，以使得一个语音播放组内各个学生的语音内容基本一致。

s504，针对每个学生，在线课堂系统将该学生归属的语音播放组中该学生之外的其他学生的语音数据发送给该学生的第一客户端，以使得学生的第一客户端播放在线课堂系统播放的各学生的语音数据。

可以理解的是，在线课堂系统还可以将在线课堂中所有学生或者是属于同一个语音播放组的学生的视频图像发送给该学生，以在学生的第一客户端的在线课堂界面中查看到其他学生的图像。

当然，在线课堂系统还会获得老师端的第二客户端上传的老师的多媒体数据，如老师的视频和音频，或者老师发布的课堂资料或者课堂讲解多媒体等等。相应的，在线课堂系统还会将老师侧的多媒体数据发布给各个学生的第一客户端。

可见，在线课堂系统将语音内容相似的学生回归到一个语音播放组，并仅向学生播放与其在同一语音播放组内的其他学生朗读文章的语音，能够使得该学生听到与其文章朗读同步性较为一致的语音，减少部分学生朗读速度超前、滞后或者错误而导致在线课堂多人同时朗读所存在的声音嘈杂，提高学生基于在线课堂进行多人朗读的沉浸感，也提高多人朗读的同步效果。

s505，老师的第二客户端向在线课堂系统发送同步异常用户识别请求。

如，老师的第二客户端的在线课堂界面中可以显示有用于触发识别同步异常的按键，通过点击该按键可以触发第二客户端生成并发送该同步异常用户识别请求。

该同步异常识别请求用于请求识别出在线课堂的多个学生中文章朗读错误或者进度不同步等存在朗读同步性差的学生。

s506，在线课堂系统响应于该同步异常用户识别请求，基于该至少两个学生的语音内容，从该至少两个学生中确定与其他学生的语音内容之间的差异度符合条件的至少一个目标学生，并确定目标学生的语音内容与其他学生的语音内容之间存在的语音差异状况。

需要说明的是，本实施例是以老师通过第二客户端向在线课堂系统发送同步异常用户识别请求来触发在线课堂系统确定目标学以及语音异常状况为例，但是在实际应用中，也可以默认在线课堂系统会自动执行步骤s506，从无需在步骤s505的触发下便可以执行该步骤s506。

s507，向老师的第二客户端发送携带目标学生的语音差异状况的语音异常提示，以使得老师的第二客户端的在线交互界面中标识出各目标学生以及目标学生的语音差异状况。

如，可以在该语音异常提示中携带有该目标学生的信息以及语音差异状况，以便在第二客户端的在线交互界面中标识出目标学生，并在目标学生的视频窗口中标示出语音差异状况。

其中，语音差异状况可以为文章朗读进度相对其他学生明显超前或者滞后，朗读内容错误等导致与其他学生的朗读不同步的状况。

可以理解的是，该步骤505至507，与步骤503-504的顺序并不限于图5所示，在实际应用中，也可以在执行步骤s503-504的同时，执行步骤505到507，对此不加限制。

可以理解的是，老师也可以通过第二客户端请求单独监听某个学生，以使得在线课堂系统可以为该老师提供该老师选择监听的学生的语音(还可以有视频图像)，具体可以与前面实施例相似，在此不再赘述。

需要说明的是，本实施例是以在线课堂为例说明，但是对于其他交互系统也同样适用于本实施例，在此不再赘述。

对应本申请的一种语音同步输出方法，本申请还提供了一种语音同步输出装置。如参见图6，其示出了本申请一种语音同步输出装置一个实施例的组成结构示意图，本实施例的装置可以应用于交互系统的服务器；或者是，应用于与交互系统连接的客户端，如第一用户的客户端。本实施例的装置可以包括：

数据获得单元601，用于获得至少两个第一用户的用户媒体数据，所述第一用户的第一客户端与交互系统建立有通讯连接，所述第一用户的用户媒体数据包括所述第一用户的语音数据，所述交互系统为基于网络能够实现多个用户之间同步共享所述多个用户的多媒体数据的平台；

内容识别单元602，用于识别所述第一用户的语音数据中包含的语音内容；

组确定单元603，用于基于所述第一用户的语音内容，确定所述第一用户归属的语音播放组，所述语音播放组中包括符合条件的至少两个第一用户，所述条件包括：语音内容之间的匹配度满足第一条件；

语音输出单元604，用于将所述第一用户归属的语音播放组中所述第一用户之外的其他第一用户的语音数据输出到所述第一用户的第一客户端。

在一种可能的实现方式中，该组确定单元中的所述条件还包括：

用户属性特征之间的关联关系满足第二条件。

优选的，所述用户属性特征之间的关联关系满足第二条件，包括：

声音特征的相似度超过第一阈值，所述声音特征为基于所述第一用户的语音数据确定出的；

和/或，用户画像特征的相似度超过第二阈值；

和/或，所述第一用户之间的用户关系具有关联性；

和/或，所处地理位置属于相同地理区域范围。

在又一种可能的实现方式中，该组确定单元具体为，用于基于所述第一用户的语音内容以及所述第一用户设定的组内人数，确定所述第一用户归属的语音播放组，所述语音播放组内第一用户的人数不超过所述组内人数。

在又一种可能的实现方式中，交互系统还与第二用户的第二客户端建立有通讯连接，所述交互系统用于将所述第二客户端传输的多媒体数据分发给所述至少两个第一用户的第一客户端；

所述装置还包括：

可选的，该装置还包括：

状况确定单元，用于确定所述目标第一用户的语音内容与其他第一用户的语音内容之间存在的语音差异状况；

状况发送单元，用于将所述目标第一用户对应的语音差异状况发送给所述第二客户端，以便在所述第二客户端的所述在线交互界面中显示出所述目标第一用户的语音差异状况。

可选的，该装置还包括：

监听接收单元，用于获得所述第二用户的第二客户端发送的独立监听请求，所述独立监听请求指示有所述第二用户选择监听的第一用户；

监听数据返回单元，用于从所述至少两个第一用户的语音数据中，提取出所述第二用户选择监控的第一用户的语音数据，并将所述第二用户选择监听的第一用户的语音数据发送给所述第二用户的第二终端，以在所述第二用户的第二终端单独播放所述第二用户选择监听的第一用户的语音数据。

又一方面，本申请还提供了一种电子设备，如图7所示，其示出了该电子设备的一种组成结构示意图，该电子设备可以为交互系统的服务器，也可以为交互系统的客户端，该电子设备至少包括存储器701和处理器702；

其中，处理器701用于执行如上任意一个实施例中的语音同步输出方法。

该存储器用于存储处理器执行操作所需的程序。

可以理解的是，该电子设备还可以包括显示单元703、输入单元704以及通信总线705。当然，该电子设备还可以具有比图7更多或者更少的部件，对此不加限制。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。