会话环节确定方法、装置及设备、存储介质与流程

2021-01-28 16:01:05|

264|

起点商标网

本发明涉及计算机技术领域，尤其涉及的是一种会话环节确定方法、装置及设备、存储介质。

背景技术：

在一些会话场景中，会通过音视频记录会话过程，以便于后续通过回放音视频来了解整个会话过程。比如，司法审判中，开庭审理过程通常会形成一个全流程的视频（即庭审视频），并配套同步的音频（庭审音频），记录整个开庭中庭审参与者的庭审活动。庭审视音频对于参与庭审的法官、书记员、其他庭审参与者有着非常重要的意义，被允许公开的庭审视音频对于未参与庭审的法官、律师、法律服务者、司法从业者、公众调解组织来说，是一个很好的类案参照，对于普通大众，会起到很好的教育、指引作用。

但通常情况下，视音频的播放时长较长，尤其是较为复杂的案件，观看者如果希望观看某个关键的或者是自己感兴趣的环节，需要通过拉动进度条一点点尝试地查找出相应的环节，效率比较低，如果可以自动确定好音视频中哪些部分属于哪些环节，就可以帮助观看者快速地定位需要观看的环节。

技术实现要素：

有鉴于此，本发明提供一种会话环节确定方法、装置及设备、存储介质，可自动地确定会话环节。

本发明第一方面提供一种会话环节确定方法，包括：

从会话音频中确定出至少一目标发言内容，所述目标发言内容至少包括指定发言角色的发言内容；

依据所述目标发言内容确定待输入至已训练的会话环节分类模型的输入数据；

将所述输入数据输入至所述会话环节分类模型，以得到所述会话环节分类模型输出的目标发言内容对应的会话环节类别。

根据本发明的一个实施例，从会话音频中确定出至少一目标发言内容，包括：

对会话视频中的发言目标进行检测并跟踪，所述会话视频与所述会话音频是针对同一会话场景同步采集得到的；

在对当前发言目标跟踪完成时，从所述会话音频中确定出当前发言目标在本次被跟踪过程中的发言内容，并检查当前发言目标的角色是否为指定发言角色；

若是，则将依据所述当前发言目标在本次被跟踪过程中的发言内容确定所述目标发言内容。

根据本发明的一个实施例，所述目标发言内容进一步包括其他发言角色的发言内容；

其中，同一目标发言内容中指定发言角色的发言内容与其他发言角色的发言内容具有上下文关联。

根据本发明的一个实施例，检查当前发言目标的角色是否为指定发言角色，包括：

依据所述会话视频中跟踪到所述当前发言目标的至少一个视频帧，确定当前发言目标的角色是否为指定发言角色；

或者，

依据确定出的所述当前发言目标在本次被跟踪过程中的发言内容，确定当前发言目标的角色是否为指定发言角色。

根据本发明的一个实施例，从所述会话音频中确定出当前发言目标在本次被跟踪过程中的发言内容，包括：

从所述会话音频中获取出本次被跟踪过程对应的音频段落；

从所述音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容。

根据本发明的一个实施例，从所述音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容，包括：

对所述目标音频段落进行音频识别，得到识别出的至少一个参考语句；

对所述参考语句进行语音识别后处理，以得到所述满足要求的候选语句；

基于所述候选语句确定所述当前发言目标在本次被跟踪过程中的发言内容。

根据本发明的一个实施例，依据所述目标发言内容确定待输入至已训练的会话环节分类模型的输入数据，包括：

从所述会话音频中所述目标发言内容所在的音频段落中识别出对应的音频特征信息；

将所述目标发言内容和音频特征信息输入至已训练的向量模型中，以由所述向量模型基于输入的目标发言内容和音频特征信息确定对应的特征向量并输出；

将所述向量模型输出的特征向量确定为所述输入数据。

根据本发明的一个实施例，

每一目标发言内容具有对应的时间戳；

在得到所述会话音频中各目标发言内容对应的会话环节类别之后，该方法进一步包括：

针对每一会话环节类别，从该会话环节类别对应的各目标发言内容所对应的时间戳中，确定出最早时间戳和最晚时间戳，并依据所述最早时间戳和最晚时间戳在所述会话音频中、和/或会话视频中确定出该会话环节类别对应的会话环节，所述会话视频与所述会话音频是针对同一会话场景同步采集得到的。

本发明第二方面提供一种会话环节确定装置，包括：

目标发言内容确定模块，用于从会话音频中确定出至少一目标发言内容，所述目标发言内容至少包括指定发言角色的发言内容；

输入数据确定模块，用于依据所述目标发言内容确定待输入至已训练的会话环节分类模型的输入数据；

会话环节类别确定模块，用于将所述输入数据输入至所述会话环节分类模型，以得到所述会话环节分类模型输出的目标发言内容对应的会话环节类别。

根据本发明的一个实施例，所述目标发言内容确定模块从会话音频中确定出至少一目标发言内容时，具体用于：

对会话视频中的发言目标进行检测并跟踪，所述会话视频与所述会话音频是针对同一会话场景同步采集得到的；

若是，则依据所述当前发言目标在本次被跟踪过程中的发言内容确定所述目标发言内容。

根据本发明的一个实施例，所述目标发言内容进一步包括其他发言角色的发言内容；

其中，同一目标发言内容中指定发言角色的发言内容与其他发言角色的发言内容具有上下文关联。

根据本发明的一个实施例，所述目标发言内容确定模块检查当前发言目标的角色是否为指定发言角色时，具体用于：

依据所述会话视频中跟踪到所述当前发言目标的至少一个视频帧，确定当前发言目标的角色是否为指定发言角色；

或者，

依据确定出的所述当前发言目标在本次被跟踪过程中的发言内容，确定当前发言目标的角色是否为指定发言角色。

根据本发明的一个实施例，所述目标发言内容确定模块从所述会话音频中确定出当前发言目标在本次被跟踪过程中的发言内容时，具体用于：

从所述会话音频中获取出本次被跟踪过程对应的音频段落；

从所述音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容。

根据本发明的一个实施例，所述目标发言内容确定模块从所述音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容时，具体用于：

对所述目标音频段落进行音频识别，得到识别出的至少一个参考语句；

对所述参考语句进行语音识别后处理，以得到所述满足要求的候选语句；

基于所述候选语句确定所述当前发言目标在本次被跟踪过程中的发言内容。

根据本发明的一个实施例，所述输入数据确定模块依据所述目标发言内容确定待输入至已训练的会话环节分类模型的输入数据时，具体用于：

从所述会话音频中所述目标发言内容所在的音频段落中识别出对应的音频特征信息；

将所述向量模型输出的特征向量确定为所述输入数据。

根据本发明的一个实施例，

每一目标发言内容具有对应的时间戳；

该装置进一步包括：

会话环节划分模块，用于针对每一会话环节类别，从该会话环节类别对应的各目标发言内容所对应的时间戳中，确定出最早时间戳和最晚时间戳，并依据所述最早时间戳和最晚时间戳在所述会话音频中、和/或会话视频中确定出该会话环节类别对应的会话环节，所述会话视频与所述会话音频是针对同一会话场景同步采集得到的。

本发明第三方面提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的会话环节确定方法。

本发明第四方面提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中所述的会话环节确定方法。

本发明实施例具有以下有益效果：

本发明实施例中，可以从会话音频中确定出至少包含指定发言角色的发言内容的目标发言内容，所以目标发言内容可以表示指定发言角色具体说了哪些话，在实际中基于指定发言角色说了哪些话可以确定发言发生在哪个会话环节，基于这个特点可以预先训练出会话环节分类模型，将基于目标发言内容确定出的输入数据输入至已训练的会话环节分类模型，可由会话环节分类模型确定出对应的会话环节类别，从而可以让观看者快速地知晓会话音频哪些部分对应于哪些会话环节，不需要再通过人工查找和辨别，有助于观看者快速定位需要观看的会话环节，提升观看者的观看体验。

附图说明

图1是本发明一实施例的会话环节确定方法的流程示意图；

图2是本发明一实施例的目标发言内容的确定示意图；

图3是本发明一实施例的会话环节确定装置的结构框图；

图4是本发明一实施例的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种器件，但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如，在不脱离本发明范围的情况下，第一器件也可以被称为第二器件，类似地，第二器件也可以被称为第一器件。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使得本发明的描述更清楚简洁，下面对本发明中的一些技术术语进行解释：

nlp：naturallanguageprocessing，自然语言处理，是计算机科学、信息工程以及人工智能的子领域，专注于人机交互，特别是大规模自然语言数据的处理和分析，就是研究如何让计算机读懂人类语言，让计算机理解自然语言文本的意义，以自然语言文本来表达给定的深层的意图、思想等。

transformer：融入自注意力机制的深度学习模型，可以学习文本中单词（或子单词）之间的上下文关系。

bert：全称是bidirectionalencoderrepresentationfromtransformers，一种nlp预训练模型，具体是基于transformer的双向语言模型。

vggish：利用大型音频数据集audioset预训练得到的模型，其中，“vgg”代表了牛津大学的oxfordvisualgeometrygroup（牛津大学视觉几何组），支持从音频波形中提取具有语义的128维embedding（嵌入）特征向量。

视频庭审：采取远程视频方式进行开庭审理，是一种计算机辅助的同步庭审形式，利用音视频系统让位于不同地点的工作人员同时参与庭审。

庭审音视频：针对视频庭审、或者线下庭审，进行录音录像产生的音视频，包括同步的庭审音频和庭审视频。

下面对本发明实施例的会话环节确定方法进行更具体的描述，但不应以此为限。

在一个实施例中，参看图1，一种会话环节确定方法，应用于电子设备，该方法可以包括以下步骤：

s100：从会话音频中确定出至少一目标发言内容，所述目标发言内容至少包括指定发言角色的发言内容；

s200：依据所述目标发言内容确定待输入至已训练的会话环节分类模型的输入数据；

s300：将所述输入数据输入至所述会话环节分类模型，以得到所述会话环节分类模型输出的目标发言内容对应的会话环节类别。

本发明实施例中，会话环节确定方法的执行主体可以为电子设备。电子设备比如可以为计算机设备或嵌入式设备等。当然，电子设备的具体类型不限，具有一定的处理能力即可。

本发明实施例可以应用会话音频和/或会话视频的播放中，可以用于确定会话音频和/或会话视频中哪些部分属于哪些会话环节，可以有助于观看者快速地定位到某个关键的会话环节、或者是自己感兴趣的环节。

比如，本发明实施例可以应用在庭审音频和/或庭审视频的播放中，可以识别出哪个音频段落对应于哪个庭审环节，以便于观看者定位到所需的庭审环节，在下面的一些实施例中，以庭审场景为例来展开说明。

步骤s100中，从会话音频中确定出至少一目标发言内容，所述目标发言内容至少包括指定发言角色的发言内容。

以会话场景为庭审场景为例，整个庭审过程中发言角色可以包括法官、原告当事人、原告代理人、被告当事人、被告代理人等，这里的发言角色只是举例，实际当然还有可以其他的发言角色。在整个庭审过程中，这些发言角色可以多次发言。

由于在庭审过程中，法官的发言通常具有代表意义，不同庭审环节中法官会针对相应的庭审环节作出不同的发言。因此，本发明实施例中，指定发言角色可以为法官，后续基于至少法官的发言内容来确定对应的会话环节类别。

目标发言内容至少包括指定发言角色的发言内容。一个目标发言内容可以包含指定发言角色一次发言的发言内容（指定发言角色一次发言是指，指定发言角色在某个会话环节中一段完整的发言，中间无其他发言角色干扰，前后要么是其他发言角色发言、要么是没有发言角色发言）。

优选来说，所述目标发言内容进一步包括其他发言角色的发言内容；其中，同一目标发言内容中指定发言角色的发言内容与其他发言角色的发言内容具有上下文关联。这里的其他发言角色是指会话场景中除指定发言角色之外的发言角色，比如原告代理人、被告代理人等。

比如，同一目标发言内容中，指定发言角色的发言内容是承接在其他发言角色的发言内容之后的（即其他发言角色的发言完成之后由指定发言角色发言），或者其他发言角色的发言内容是承接在指定发言角色的发言内容之后的（即指定发言角色的发言完成之后由其他发言角色发言）。

可选的，目标发言内容中其他发言角色的发言内容，可以是其他发言角色一次发言的发言内容，也可以是一次发言的发言内容中的一部分，只要是与指定发言角色的发言内容具有上下文关联即可。

参看图2，会话音频中先后有a1、a2、a3三位发言角色各进行了一次发言，a2为指定发言角色比如法官，a1和a3为其他发言角色比如a1为原告代理人、a2为被告代理人，则目标发言内容b可以包括指定发言角色a2本次发言的发言内容、以及其他发言角色a1和a3本次发言的部分发言内容。

在目标发言内容包括具有上下文管理的指定发言角色的发言内容、以及其他发言角色的发言内容的情况下，即使指定发言角色在不同环节作相同发言，其他发言角色也不会在这些环节中作相同发言，借助于这些发言内容的上下文关联信息，可以更好地体现对话所发生的会话环节，可以避免指定发言角色在不同环节作相同发言时无法准确确定相应环节的问题，有利于会话环节的确定。

可选的，会话音频可以具有多个音轨，每一音轨对应于一个发言角色，不同音轨对应于不同发言角色。在此情况下，从会话音频中确定出至少一目标发言内容时，可以基于音轨来区分不同发言角色的发言内容，从而确定目标发言内容。比如，可以从指定发言角色对应的音轨中确定出指定发言角色每一次的发言内容；然后，可以将指定发言角色每一次的发言内容作为一目标发言内容，或者，针对指定发言角色每一次的发言内容，将该发言内容以及与该发言内容上下文关联的其他发言角色的发言内容作为一目标发言内容。

当然，上述只是从会话音频中确定出至少一目标发言内容的一个例子，实际还可以有其他方式，在后续的内容中将详细描述。

步骤s200中，依据所述目标发言内容确定待输入至已训练的会话环节分类模型的输入数据。

可以将目标发言内容确定为输入数据；或者，在会话环节分类模型对输入有要求的情况下，可以将目标发言内容转换成适于输入至会话环节分类模型的输入数据；或者，可以将目标发言内容与其他信息融合作为会话环节分类模型的输入。

可以理解，上述确定高输入数据的方式只是举例，实际并不局限于此，后续内容中会对此继续展开描述。

步骤s300中，将所述输入数据输入至所述会话环节分类模型，以得到所述会话环节分类模型输出的目标发言内容对应的会话环节类别。

比如，庭审场景中，整个庭审过程可以包括以下会话环节：宣布法庭纪律、核对当事人身份、原被告诉辩意见、举证质证、法庭辩论等，当然还可以根据实际情况加入其他会话环节，这些环节还可以进一步进行划分，具体不作限定。涉及的庭审场景可以是真实案件的司法场景，或者可以是由法律建模专家以众包方式构建的司法场景，具体不做限定。

会话环节分类模型是预先训练好的，保存在电子设备或其他设备中，在需要时调用即可。

将输入数据输入至会话环节分类模型之后，会话环节分类模型可以基于输入数据确定目标发言内容所属的会话环节类别。比如，目标发言内容中，被告方代理人正在对原告方代理人提出的证据，就其真实性、合法性、关联性以及证明力的有无、大小予以质辩，则基于输入数据确定出的对应会话环节类别为举证质证环节类别。

在一个实施例中，步骤s100中，从会话音频中确定出至少一目标发言内容，可以包括以下步骤：

s101：对会话视频中的发言目标进行检测并跟踪，所述会话视频与所述会话音频是针对同一会话场景同步采集得到的；

s102：在对当前发言目标跟踪完成时，从所述会话音频中确定出当前发言目标在本次被跟踪过程中的发言内容，并检查当前发言目标的角色是否为指定发言角色；

s103：若是，则依据所述当前发言目标在本次被跟踪过程中的发言内容确定所述目标发言内容。

会话视频与会话音频是针对同一会话场景同步采集得到的，在播放时可以将两者同步播放，从而提供画面与声音给观看者。

会话视频中可以包含多个发言角色，比如包含法官、原告当事人、原告代理人、被告当事人、被告代理人，一般来说，每次只会有一个发言角色进行发言，进行发言的发言角色就是需要被检测与跟踪的发言目标。

可以基于行为分析对会话视频中的发言目标进行检测。一般来说，发言目标在发言时会有一些特定的行为，比如，会连续地进行张嘴闭嘴、会进行低头抬头、会有一些特殊的手势等，基于这些行为特点可以检测出会话视频中的发言目标。

在检测出某一发言目标之后，对该发言目标进行跟踪。可以在检测到另一发言目标时，确定对当前发言目标跟踪完成；或者，可以在当前发言目标连续一段时间内不发言的情况下，确定对当前发言目标跟踪完成。当然，对当前发言目标跟踪完成的时机确定方式不限，具体不限于此。

在对当前发言目标跟踪完成时，从所述会话音频中确定出当前发言目标在本次被跟踪过程中的发言内容，并检查当前发言目标的角色是否为指定发言角色，若是，则依据所述当前发言目标在本次被跟踪过程中的发言内容确定目标发言内容，比如，可以将确定出的发言内容作为目标发言内容，或者，可以将确定出的发言内容、以及会话音频中与该发言内容具有上下文关联的其他角色的发言内容作为目标发言内容。

在一个实施例中，步骤s102中，从所述会话音频中确定出当前发言目标在本次被跟踪过程中的发言内容，可以包括以下步骤：

s1021：从所述会话音频中获取出本次被跟踪过程对应的音频段落；

s1022：从所述音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容。

本次被跟踪过程是从检测到当前发言目标开始到对当前发言目标跟踪完成时结束的。可以在本地记录检测到当前发言目标的时间（即本次被跟踪过程的起始时间），以及对当前发言目标跟踪完成的时间（即本次被跟踪过程的结束时间），这里的时间是以会话视频的起始播放时间点为参考的。

由于会话视频与会话音频是同步的，所以可以基于本地记录的本次被跟踪过程的起始时间和结束时间确定会话音频中与本次被跟踪过程对应的音频段落。比如，可以从会话音频中获取从起始时间开始到结束时间为止的音频段落，作为与本次被跟踪过程对应的音频段落。

接着，可以从所述音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容。比如可以采用音频识别（或者说语音识别，asr，automaticspeechrecognition）的方式从音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容。发言内容可以用文本来表示、或者也可以用其他形式表示。

在一个实施例中，步骤s1022中，从所述音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容，可以包括以下步骤：

s10221：对所述目标音频段落进行音频识别，得到识别出的至少一个参考语句；

s10222：对所述参考语句进行语音识别后处理，以得到所述满足要求的候选语句；

s10223：基于所述候选语句确定所述当前发言目标在本次被跟踪过程中的发言内容。

音频识别是一种将人的语音转换为文本的技术，可以采用深度学习算法来实现，具体不做限定。在音频识别时，若发言只包含一句话，可以得到一个参考语句；若发言包含多句话，可以将发言自动进行语句分割，得到多个参考语句，一句话对应一个参考语句。

虽然目前的音频识别技术已经较为成熟，但是仍然避免不了一些断句、病句、错字等问题，所以，在得到参考语句之后，可以对参考语句进行语音识别后处理。

语音识别后处理比如可以包括语句顺滑、纠错、规整、逆文本标准化等，可以借助于上下文分析来实现。其中，语句顺滑是指从参考语句中去掉口语化的一些语气词、重复词等，方便更好阅读和理解。纠错是指纠正参考语句中的一些错误内容，包括断句、病句、错字等。规整是指将参考语句中不规整的语句重新进行划分，得到规整的语句。逆文本标准化是指使用标准的格式化方式来展示时间、日期、地址和金额等信息。当然，语音识别后处理具体不限于此。

基于所述候选语句确定所述当前发言目标在本次被跟踪过程中的发言内容时，可以直接将候选语句组成为当前发言目标在本次被跟踪过程中的发言内容；或者，在后续有语句长度限制的情况下，可以将长度超过设定长度的候选语句分割成若干长度未超过设定长度的语句，将分割出的语句以及长度未超过设定长度的候选语句组成为当前发言目标在本次被跟踪过程中的发言内容，比如，需要将语句长度限制在512个字以内的情况下，若候选语句的长度超过512，则将该候选语句进行截断，得到至少两个长度未超过512的语句，发言内容包括多个长度未超过512的语句。

可以理解，上述确定发言内容的方式只是优选的方式，实际并不局限于此，比如在对精度要求不高的情况下，也可以直接将音频识别得到的参考语句组成为发言内容，或者在有语句长度限制的情况下，可以将参考语句中长度超限的语句截断后组成为发言内容。

在一个实施例中，步骤s102中，检查当前发言目标的角色是否为指定发言角色，可以包括以下步骤：

依据所述会话视频中跟踪到所述当前发言目标的至少一个视频帧，确定当前发言目标的角色是否为指定发言角色。

可以根据视频帧中与当前发言目标相关的场景特征来确定当前发言目标的角色是否为指定发言角色。这里的场景特征比如可以包括名牌，不同的发言角色前面都会有相应的名牌，名牌上可以写有相应的发言角色，可以基于最靠近该当前发言目标的名牌来识别出当前发言目标的角色，进而确定是否为指定发言角色。当然，场景特征不限于此。

在另一个实施例中，步骤s102中，检查当前发言目标的角色是否为指定发言角色，可以包括以下步骤：

依据确定出的所述当前发言目标在本次被跟踪过程中的发言内容，确定当前发言目标的角色是否为指定发言角色。

在会话过程中，不同发言角色要发言的内容会有不同的特点，比如法官与其他发言角色的发言内容就会有较大的区别，因而可以根据当前发言目标在本次被跟踪过程中的发言内容，确定当前发言目标的角色是否为指定发言角色。

若当前发言目标的角色为指定发言角色，可以将确定出的发言内容作为目标发言内容。进一步的，在目标发言内容包括具有上下文关联的指定发言角色的发言内容和其他发言角色的发言内容的情况下，还可以确定从音频段落中确定出与指定发言角色的发言内容具有上下文关联的其他发言角色的发言内容，将确定出的指定发言角色的发言内容和其他发言角色的发言内容确定为目标发言内容，以使得同一目标发言内容中指定发言角色的发言内容与其他发言角色的发言内容具有上下文关联。

在一个实施例中，步骤s200中，依据所述目标发言内容确定待输入至已训练的会话环节分类模型的输入数据，可以包括以下步骤：

s201：从所述会话音频中所述目标发言内容所在的音频段落中识别出对应的音频特征信息；

s202：将所述目标发言内容和音频特征信息输入至已训练的向量模型中，以由所述向量模型基于输入的目标发言内容和音频特征信息确定对应的特征向量并输出；

s203：将所述向量模型输出的特征向量确定为所述输入数据。

可选的，步骤s201中，从所述会话音频中所述目标发言内容所在的音频段落中识别出对应的音频特征信息，可以包括以下步骤：将该音频段落输入至已训练的音频特征抽取器，以得到所述音频特征抽取器输出的音频特征信息；所述音频特征抽取器至少包括用于从输入的音频段落中抽取音频特征的抽取层、以及用于对音频特征进行嵌入表达并输出表达的音频特征信息的嵌入层；将所述音频特征抽取器输出的音频特征信息确定为所述目标音频段落的音频特征信息。

音频特征抽取器是预先训练好的，可以保存在电子设备或其他设备中，在需要时调用。

音频特征抽取器可以包括用于从输入的音频段落中抽取音频特征的抽取层、以及用于对音频特征进行嵌入表达并输出表达的音频特征信息的嵌入层。其中，抽取层可以有多个处理子层组成，比如可以包括采样层、短时傅里叶变换（stft，short-timefouriertransform，或short-termfouriertransform)）层、过滤层等，具体不做限定。嵌入层可以对音频特征进行嵌入表达并输出表达的音频特征信息，嵌入表达是指将数据转换(降维)为固定大小的特征表示(矢量)，以便于处理和计算(如求距离)，比如将音频特征转化为具有语义的128维embedding特征向量。

在一个例子中，可以采用vggish模型作为音频特征抽取器，当然，具体不限于此。

将音频段落输入至音频特征抽取器，音频特征抽取器可以抽取音频段落的音频特征并对音频特征进行嵌入表达，得到具有语义的embedding特征向量，作为音频特征信息。

音频特征信息由于可以表征发言角色，可以作为目标发言内容的附加特征，为会话环节的确定提供更加有语义表示的信息。该音频特征信息可以表征发言角色的声纹。声纹不仅具有特定性，而且有相对稳定性的特点，依靠声纹可以确定发言内容来自哪个发言角色，所以，音频特征信息也可以表征发言角色。

步骤s202中，将所述目标发言内容和音频特征信息输入至已训练的向量模型中，以由所述向量模型基于输入的目标发言内容和音频特征信息确定对应的特征向量并输出。

向量模型分别对输入的目标发言内容和音频特征信息进行特征提取，得到发言内容特征向量和音频特征向量，并将发言内容特征向量和音频特征向量进行融合得到对应的特征向量后输出。

其中，将发言内容特征向量和音频特征向量进行融合可以包括：将发言内容特征向量和音频特征向量进行拼接，得到对应的特征向量；比如发言内容特征向量为512维向量，音频特征向量为128维向量，则将两者拼接后可以得到对应的特征向量。

或者，将发言内容特征向量和音频特征向量进行融合可以包括：在发言内容特征向量和音频特征向量的维度相同的情况下，可以将发言内容特征向量和音频特征向量进行求和，得到对应的特征向量；在会发言内容特征向量和音频特征向量的维度不相同的情况下，可以先将发言内容特征向量和音频特征向量中维度较少的向量扩展为维度与另一向量一致，扩展之后，再将两个向量进行求和，得到对应的特征向量。

当然，上述的融合方式只是举例，实际还可以有其他方式，比如上述的求和也可以为加权求和，发言内容特征向量的权重系数可以更大，具体不做限定。

步骤s203中，将所述向量模型输出的特征向量确定为所述输入数据。

由于向量模型输出的特征向量是基于目标发言内容和音频特征信息确定的，所以特征向量是一个多模态特征向量，可以实现发言内容与音频特征之间信息的互补，用于表征对应的发言角色发言的内容。

特征向量即待输入至会话环节分类模型的输入数据，是一个多维向量，每一维度上的数据可以有一定的取值范围，比如，每一维度上的数据可以均在0~1范围内（当然，此范围仅是举例，也可以是其他范围），可以减轻会话环节分类模型计算的复杂度。

在一个实施例中，所述向量模型通过以下方式训练得到：

t101：获取第一音频段落样本集合，所述第一音频段落样本集合包含从多个会话音频划分出的音频段落样本，每一音频段落样本中的发言来自一个发言角色、且音频段落样本与该发言角色对应；

t102：针对第一音频段落样本集合中的每一音频段落样本，从该音频段落样本中获取该音频段落样本的发言内容和音频特征信息，并将该音频段落样本的发言内容和音频特征信息组成为第一样本数据；

t103：利用各音频段落样本对应的发言角色与第一样本数据训练出所述向量模型。

这里的多个会话音频可以在真实司法场景或模拟司法场景中采集得到，针对其中的每一会话音频，可以按照发言角色对该会话音频进行划分，得到多个音频段落样本，每一音频段落样本中的发言来自一个发言角色。优选来说，每一音频段落样本中的发言为一个发言角色的一段完整发言（即中间无其他人插话，且之前与之后的一段时间内要么是其他发言角色在发言、要么是无人发言）。

本实施例中，采用发言来自同一发言角色的音频段落样本，而不是来自多个发言角色的音频段落样本，可以更有助于向量模型对向量的正确表达，有利于提升向量模型在被使用时输出的准确性。

在划分出音频段落样本之后，可以将音频段落样本与其中发言的发言角色对应保存，针对第一音频段落样本集合中的每一音频段落样本，在获取到该音频段落样本的发言内容和音频特征信息之后，将发言内容和音频特征信息组成为第一样本数据。

上述获取音频段落样本中的发言内容和音频特征信息的方式，可以与前述实施例中获取目标音频段落中的发言内容和音频特征信息中的方式相同，在此不再赘述。

利用各音频段落样本对应的发言角色与第一样本数据训练出所述向量模型。其中，可以将第一样本数据作为输入数据，将第一样本数据中的发言角色作为监督信息，进行有监督训练，得到向量模型。

在一个实施例中，步骤t103中，利用各音频段落样本对应的发言角色与第一样本数据训练出所述向量模型，可以包括以下步骤：

建立第一模型和第二模型；

从各第一样本数据中选择至少一个第一样本数据，并输入至所述第一模型，以使所述第一模型从输入的第一样本数据中提取出特征向量并输出至所述第二模型，所述第二模型基于所述第一模型输出的特征向量预测发言角色并输出；

依据被选择的第一样本数据对应的发言角色与所述第二模型输出的发言角色优化所述第一模型；在当前不满足训练完成条件时，返回从各第一样本数据中选择至少一个第一样本数据的步骤，在当前满足训练完成条件时，将所述第一模型确定为所述向量模型。

在一个例子中，第一模型可以采用bert模型，第二模型可以采用分类器，当然具体不限于此。

在将第一样本数据输入至第一模型之后，第一模型可以对输入的第一样本数据中的发言内容和音频特征信息进行特征提取，得到发言内容特征向量和音频特征向量，并将发言内容特征向量和音频特征向量进行融合得到对应的特征向量后输出至第二模型中，第二模型可以基于所述第一模型输出的特征向量预测发言角色并输出。

依据被选择的第一样本数据对应的发言角色与所述第二模型输出的发言角色优化所述第一模型，比如可以为：依据第一样本数据对应的发言角色与第二模型输出的发言角色的差异优化第一模型，具体是优化第一模型中的网络参数。

当然，在优化第一模型时，也可以同时优化第二模型，在训练时，第一模型和第二模型可以使用同一个损失函数，也可以使用不同的损失函数进行优化。

在优化第一模型之后，可以检查当前是否满足训练完成条件，比如：可以检查当前是否存在未被选择的第一样本数据，如果是，则当前未满足训练完成条件，如果否，则当前满足训练完成条件；或者，可以检查当前训练次数是否达到预设的训练次数，如果否，则当前未满足训练完成条件，如果是，则当前满足训练完成条件；或者，可以检查第一模型的性能是否达到指定要求，比如准确率是否达到97%，如果否，则当前未满足训练完成条件，如果是，则当前满足训练完成条件。

可选的，为了验证向量模型的性能，还可以获取多个第一样本数据进行验证，这些第一样本数据可以不同于训练所用的第一样本数据。可选的，验证所用的第一样本数据与训练所用的第一样本数据的数量比例可以为3:7。验证方式可以是，在训练过程中，每训练几次便验证一次，验证结果不用于优化模型，可以在训练过程中供训练人员监督或在训练完成之后供训练人员确认模型训练是否达标。

可选的，还可以获取多个第一样本数据进行测试，在完成训练之后，利用测试用的第一样本数据对训练出的向量模型进行测试，测试结果比如可以用于确定向量模型输出结果的准确率等，以便测试人员了解训练所得的向量模型的性能。

在一个实施例中，所述会话环节分类模型通过以下方式训练得到：

t201：获取第二音频段落样本集合，所述第二音频段落样本集合包含从多个会话音频划分出的音频段落样本，每一音频段落样本中的发言来自一个或多个发言角色，且每一音频段落样本对应于一个会话环节；

t202：针对第二音频段落样本集合中的每一音频段落样本，从该音频段落样本中获取该音频段落样本的发言内容和音频特征信息，并输入至所述向量模型中，以得到所述向量模型输出的特征向量，依据该音频段落样本对应的会话环节为该特征向量标定用于指示该会话环节的类别标签，得到第二样本数据；

t203：利用各第二样本数据训练出所述会话环节分类模型。

本实施例中，第二音频段落样本集合中每一音频段落样本中的发言可以来自一个或多个发言角色。优选来说，第二音频段落样本集合中至少一个音频段落样本中的发言来自多个发言角色。

在音频段落样本中的发言来自多个发言角色的情况下，由于发言中有多人在对话，上下文关联更强，更有助于会话环节分类模型进行上下文理解而识别出会话环节，也有利于会话环节分类模型的学习与表达。

因而与训练向量模型不同，在训练会话环节分类模型时，优选采用包含至少一个音频段落样本中的发言来自多个发言角色的第二音频段落样本集合进行训练。

会话环节分类模型可以在训练出向量模型之后训练得到。在训练会话环节分类模型时，可以借助于向量模型，即将获取的音频段落样本的发言内容和音频特征信息输入至已训练的向量模型中，得到各音频段落样本对应的特征向量，并为各特征向量标定对应的类别标签，类别标签用于指示音频段落样本对应的会话环节，得到第二样本数据。

利用各第二样本数据训练出所述会话环节分类模型，比如可以包括：

建立第三模型；

从各第二样本数据中选择至少一个第二样本数据，并输入至第三模型，以使第三模型依据第二样本数据中的特征向量预测出对应的会话环节类别；

依据被选择的第二样本数据的类别标签与第三模型输出的会话环节类别优化第三模型；在当前不满足训练完成条件时，返回从各第二样本数据中选择至少一个第二样本数据的步骤，在当前满足训练完成条件时，将所述第三模型确定为所述会话环节分类模型。

其中，第三模型可以为输入为向量的多分类模型，具体不做限定。

训练方式中的其他内容可以参考向量模型的训练方式，具体可以参看前述实施例中的描述内容，在此不再赘述。

在一个实施例中，每一目标发言内容具有对应的时间戳；

在得到所述会话音频中各目标发言内容对应的会话环节类别之后，该方法进一步包括以下步骤：

s400：针对每一会话环节类别，从该会话环节类别对应的各目标发言内容所对应的时间戳中，确定出最早时间戳和最晚时间戳，并依据所述最早时间戳和最晚时间戳在所述会话音频中、和/或会话视频中确定出该会话环节类别对应的会话环节，所述会话视频与所述会话音频是针对同一会话场景同步采集得到的。

目标发言内容包括指定发言角色的发言内容与其他发言角色的发言内容的情况下，对应的时间戳会有多个，但是会有一个较早时间戳和较晚时间戳，可以针对每一会话环节类别，将对应的所有目标发言内容对应的时间戳进行排序，找出最早时间戳和最晚时间戳，可以将会话音频中、和/或会话视频中在最早时间戳和最晚时间戳之间（当然也可以有一定的微调）的部分确定为该会话环节类别对应的会话环节。

本发明还提供一种会话环节确定装置，在一个实施例中，参看图3，该会话环节确定装置100包括：

目标发言内容确定模块101，用于从会话音频中确定出至少一目标发言内容，所述目标发言内容至少包括指定发言角色的发言内容；

输入数据确定模块102，用于依据所述目标发言内容确定待输入至已训练的会话环节分类模型的输入数据；

会话环节类别确定模块103，用于将所述输入数据输入至所述会话环节分类模型，以得到所述会话环节分类模型输出的目标发言内容对应的会话环节类别。

在一个实施例中，所述目标发言内容确定模块从会话音频中确定出至少一目标发言内容时，具体用于：

对会话视频中的发言目标进行检测并跟踪，所述会话视频与所述会话音频是针对同一会话场景同步采集得到的；

若是，则依据所述当前发言目标在本次被跟踪过程中的发言内容确定所述目标发言内容。

在一个实施例中，所述目标发言内容进一步包括其他发言角色的发言内容；

其中，同一目标发言内容中指定发言角色的发言内容与其他发言角色的发言内容具有上下文关联。

在一个实施例中，所述目标发言内容确定模块检查当前发言目标的角色是否为指定发言角色时，具体用于：

依据所述会话视频中跟踪到所述当前发言目标的至少一个视频帧，确定当前发言目标的角色是否为指定发言角色；

或者，

依据确定出的所述当前发言目标在本次被跟踪过程中的发言内容，确定当前发言目标的角色是否为指定发言角色。

在一个实施例中，所述目标发言内容确定模块从所述会话音频中确定出当前发言目标在本次被跟踪过程中的发言内容时，具体用于：

从所述会话音频中获取出本次被跟踪过程对应的音频段落；

从所述音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容。

在一个实施例中，所述目标发言内容确定模块从所述音频段落中确定出当前发言目标在本次被跟踪过程中的发言内容时，具体用于：

对所述目标音频段落进行音频识别，得到识别出的至少一个参考语句；

对所述参考语句进行语音识别后处理，以得到所述满足要求的候选语句；

基于所述候选语句确定所述当前发言目标在本次被跟踪过程中的发言内容。

在一个实施例中，所述输入数据确定模块依据所述目标发言内容确定待输入至已训练的会话环节分类模型的输入数据时，具体用于：

从所述会话音频中所述目标发言内容所在的音频段落中识别出对应的音频特征信息；

将所述向量模型输出的特征向量确定为所述输入数据。

在一个实施例中，

每一目标发言内容具有对应的时间戳；

该装置进一步包括：

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。

本发明还提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的会话环节确定方法。

本发明会话环节确定装置的实施例可以应用在电子设备上。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，图4是本发明根据一示例性实施例示出的会话环节确定装置100所在电子设备的一种硬件结构图，除了图4所示的处理器510、内存530、网络接口520、以及非易失性存储器540之外，实施例中会话环节确定装置100所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

本发明还提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中所述的会话环节确定方法。

本发明可采用在一个或多个其中包含有程序代码的存储介质（包括但不限于磁盘存储器、cd-rom、光学存储器等）上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于：相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除