HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

会话环节识别方法、装置及设备、存储介质与流程

2021-01-28 16:01:58|286|起点商标网
会话环节识别方法、装置及设备、存储介质与流程

本发明涉及计算机技术领域,尤其涉及的是一种会话环节识别方法、装置及设备、存储介质。



背景技术:

在一些会话场景中,会通过音视频记录会话过程,以便于后续通过回放音视频来了解整个会话过程。比如,司法审判中,开庭审理过程通常会形成一个全流程的视频(即庭审视频),并配套同步的音频(庭审音频),记录整个开庭中庭审参与者的庭审活动。庭审音视频对于参与庭审的法官、书记员、其他庭审参与者有着非常重要的意义,被允许公开的庭审音视频对于未参与庭审的法官、律师、法律服务者、司法从业者、公众调解组织来说,是一个很好的类案参照,对于普通大众,会起到很好的教育、指引作用。

但通常情况下,音视频的播放时长较长,观看者如果希望观看某个关键的或者是自己感兴趣的环节,需要通过拉动进度条一点点尝试地查找出相应的环节,效率比较低,如果可以预先确定好音视频中哪些段落对应于哪个环节,就可以帮助观看者快速地定位需要观看的环节。



技术实现要素:

有鉴于此,本发明提供一种会话环节识别方法、装置及设备、存储介质,可以确定会话音频中音频段落对应的会话环节。

本发明第一方面提供一种会话环节识别方法,包括:

从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的发言内容和音频特征信息,所述目标音频段落的发言来自一个或多个发言角色;

依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量;

将所述目标特征向量输入至已训练的会话环节识别模型,以得到所述会话环节识别模型输出的所述目标音频段落对应的会话环节。

根据本发明的一个实施例,从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的发言内容,包括:

对所述目标音频段落进行音频识别,得到识别出的至少一个参考语句;

将所述参考语句输入至已训练的纠错模型,所述纠错模型用于纠正所述参考语句中的错误内容,得到所述纠正模型输出的候选语句;

基于所述候选语句确定所述发言内容。

根据本发明的一个实施例,从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的音频特征信息,包括:

将所述目标音频段落输入至已训练的音频特征抽取器,以得到所述音频特征抽取器输出的音频特征信息;所述音频特征抽取器至少包括用于从输入的音频段落中抽取音频特征的抽取层、以及用于对音频特征进行嵌入表达并输出表达的音频特征信息的嵌入层;

将所述音频特征抽取器输出的音频特征信息确定为所述目标音频段落中的发言角色的音频特征信息。

根据本发明的一个实施例,依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量,包括:

将所述发言内容和音频特征信息输入至已训练的向量模型中,以由所述向量模型基于输入的发言内容和音频特征信息确定对应的特征向量并输出;

将所述向量模型输出的特征向量确定为所述目标特征向量。

根据本发明的一个实施例,所述向量模型通过以下方式训练得到:

获取第一音频段落样本集合,所述第一音频段落样本集合包含从多个会话音频划分出的音频段落样本,每一音频段落样本中的发言来自一个发言角色;

针对第一音频段落样本集合中的每一音频段落样本,从该音频段落样本中获取该音频段落样本中发言角色的发言内容和音频特征信息,将该音频段落样本中发言角色的发言内容和音频特征信息组成为第一样本数据,并将该音频段落样本对应的发言角色标定为所述第一样本数据对应的标签信息;

利用各第一样本数据与对应的标签信息训练出所述向量模型。

根据本发明的一个实施例,利用各第一样本数据与对应的标签信息训练出所述向量模型,包括:

建立第一模型和第二模型;

从各第一样本数据中选择至少一个第一样本数据,并输入至所述第一模型,以使所述第一模型从输入的第一样本数据中提取出特征向量并输出至所述第二模型,所述第二模型基于所述第一模型输出的特征向量预测发言角色并输出;

依据被选择的第一样本数据对应的标签信息与所述第二模型输出的发言角色优化所述第一模型;在当前不满足训练完成条件时,返回从各第一样本数据中选择至少一个第一样本数据的步骤,在当前满足训练完成条件时,将所述第一模型确定为所述向量模型。

根据本发明的一个实施例,所述会话环节识别模型通过以下方式训练得到:

获取第二音频段落样本集合,所述第二音频段落样本集合包含从多个会话音频划分出的音频段落样本,每一音频段落样本中的发言来自一个或多个发言角色,且每一音频段落样本对应于一个会话环节;

针对第二音频段落样本集合中的每一音频段落样本,从该音频段落样本中获取该音频段落样本中发言角色的发言内容和音频特征信息,并输入至所述向量模型中,以得到所述向量模型输出的特征向量作为第二样本数据,将该音频段落样本对应的会话环节标定为该第二样本数据对应的类别标签;

利用各第二样本数据与对应的类别标签训练出所述会话环节识别模型。

本发明第二方面提供一种会话环节识别装置,包括:

信息获取模块,用于从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的发言内容和音频特征信息,所述目标音频段落的发言来自一个或多个发言角色;

目标特征向量确定模块,用于依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量;

会话环节识别模块,用于将所述目标特征向量输入至已训练的会话环节识别模型,以得到所述会话环节识别模型输出的所述目标音频段落对应的会话环节。

根据本发明的一个实施例,所述信息获取模块从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的发言内容时,具体用于:

对所述目标音频段落进行音频识别,得到识别出的至少一个参考语句;

将所述参考语句输入至已训练的纠错模型,所述纠错模型用于纠正所述参考语句中的错误内容,得到所述纠正模型输出的候选语句;

基于所述候选语句确定所述发言内容。

根据本发明的一个实施例,所述信息获取模块从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的音频特征信息时,具体用于:

将所述目标音频段落输入至已训练的音频特征抽取器,以得到所述音频特征抽取器输出的音频特征信息;所述音频特征抽取器至少包括用于从输入的音频段落中抽取音频特征的抽取层、以及用于对音频特征进行嵌入表达并输出表达的音频特征信息的嵌入层;

将所述音频特征抽取器输出的音频特征信息确定为所述目标音频段落中的发言角色的音频特征信息。

根据本发明的一个实施例,目标特征向量确定模块依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量时,具体用于:

将所述发言内容和音频特征信息输入至已训练的向量模型中,以由所述向量模型基于输入的发言内容和音频特征信息确定对应的特征向量并输出;

将所述向量模型输出的特征向量确定为所述目标特征向量。

根据本发明的一个实施例,所述向量模型通过以下模块训练得到:

第一集合获取模块,用于获取第一音频段落样本集合,所述第一音频段落样本集合包含从多个会话音频划分出的音频段落样本,每一音频段落样本中的发言来自一个发言角色、且音频段落样本与该发言角色对应;

第一样本数据获取模块,用于针对第一音频段落样本集合中的每一音频段落样本,从该音频段落样本中获取该音频段落样本中发言角色的发言内容和音频特征信息,将该音频段落样本中发言角色的发言内容和音频特征信息组成为第一样本数据,并将该音频段落样本对应的发言角色标定为所述第一样本数据对应的标签信息;

向量模型训练模块,用于利用各第一样本数据与对应的标签信息训练出所述向量模型。

根据本发明的一个实施例,所述向量模型训练模块利用各第一样本数据与对应的标签信息训练出所述向量模型时,具体用于:

建立第一模型和第二模型;

从各第一样本数据中选择至少一个第一样本数据,并输入至所述第一模型,以使所述第一模型从输入的第一样本数据中提取出特征向量并输出至所述第二模型,所述第二模型基于所述第一模型输出的特征向量预测发言角色并输出;

依据被选择的第一样本数据对应的标签信息与所述第二模型输出的发言角色优化所述第一模型;在当前不满足训练完成条件时,返回从各第一样本数据中选择至少一个第一样本数据的步骤,在当前满足训练完成条件时,将所述第一模型确定为所述向量模型。

根据本发明的一个实施例,所述会话环节识别模型通过以下模块训练得到:

第二集合获取模块,用于获取第二音频段落样本集合,所述第二音频段落样本集合包含从多个会话音频划分出的音频段落样本,每一音频段落样本中的发言来自一个或多个发言角色,且每一音频段落样本对应于一个会话环节;

第二样本数据获取模块,用于针对第二音频段落样本集合中的每一音频段落样本,从该音频段落样本中获取该音频段落样本中发言角色的发言内容和音频特征信息,并输入至所述向量模型中,以得到所述向量模型输出的特征向量作为第二样本数据,将该音频段落样本对应的会话环节标定为该第二样本数据对应的类别标签;

会话环节识别模型训练模块,用于利用各第二样本数据与对应的类别标签训练出所述会话环节识别模型。

本发明第三方面提供一种电子设备,包括处理器及存储器;所述存储器存储有可被处理器调用的程序;其中,所述处理器执行所述程序时,实现如前述实施例中所述的会话环节识别方法。

本发明第四方面提供一种机器可读存储介质,其上存储有程序,该程序被处理器执行时,实现如前述实施例中所述的会话环节识别方法。

本发明实施例具有以下有益效果:

本发明实施例中,基于获取的目标音频段落中发言角色的发言内容和音频特征信息,确定对应的目标特征向量,由于目标特征向量是发言内容和音频特征信息综合的向量表示,而发言内容可以表示目标音频段落中发言角色具体说了哪些话,音频特征信息可以表示目标音频段落中具体是哪个发言角色在说话,在实际中基于哪个发言角色说了哪些话事实上可以确定发言发生在哪个会话环节,基于这个特点可以预先训练出会话环节识别模型,将目标特征向量输入至已训练的会话环节识别模型后,可由会话环节识别模型识别出目标音频段落对应的会话环节,从而可以让观看者快速地知晓哪些音频段落对应于哪些会话环节,不需要再通过人工查找和辨别,有助于观看者快速定位需要观看的会话环节,提升观看者的观看体验。

附图说明

图1是本发明一实施例的会话环节识别方法的流程示意图;

图2是本发明一实施例的会话音频中音频段落的划分示意图;

图3是本发明一实施例的会话环节识别装置的结构框图;

图4是本发明一实施例的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种器件,但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如,在不脱离本发明范围的情况下,第一器件也可以被称为第二器件,类似地,第二器件也可以被称为第一器件。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使得本发明的描述更清楚简洁,下面对本发明中的一些技术术语进行解释:

nlp:naturallanguageprocessing,自然语言处理,是计算机科学、信息工程以及人工智能的子领域,专注于人机交互,特别是大规模自然语言数据的处理和分析,就是研究如何让计算机读懂人类语言,让计算机理解自然语言文本的意义,以自然语言文本来表达给定的深层的意图、思想等。

transformer:融入自注意力机制的深度学习模型,可以学习文本中单词(或子单词)之间的上下文关系。

bert:全称是bidirectionalencoderrepresentationfromtransformers,一种nlp预训练模型,具体是基于transformer的双向语言模型。

vggish:利用大型音频数据集audioset预训练得到的模型,其中,“vgg”代表了牛津大学的oxfordvisualgeometrygroup(牛津大学视觉几何组),支持从音频波形中提取具有语义的128维embedding(嵌入)特征向量。

下面对本发明实施例的会话环节识别方法进行更具体的描述,但不应以此为限。

在一个实施例中,参看图1,一种会话环节识别方法,应用于电子设备,该方法可以包括以下步骤:

s100:从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的发言内容和音频特征信息,所述目标音频段落的发言来自一个或多个发言角色;

s200:依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量;

s300:将所述目标特征向量输入至已训练的会话环节识别模型,以得到所述会话环节识别模型输出的所述目标音频段落对应的会话环节。

本发明实施例中,会话环节识别方法的执行主体可以为电子设备。电子设备比如可以为计算机设备或嵌入式设备等。当然,电子设备的具体类型不限,具有一定的处理能力即可。

本发明实施例可以应用会话音频和/或会话视频的播放中,可以用于识别会话音频中音频段落对应的会话环节,在会话音频和会话视频同步播放的情况下,也就可以确定相应的视频段落对应的会话环节,可以有助于观看者快速地定位到某个关键的会话环节、或者是自己感兴趣的环节。

比如,本发明实施例可以应用在庭审音频和/或庭审视频的播放中,可以识别出哪个音频段落对应于哪个庭审环节,以便于观看者定位到所需的庭审环节,在下面的一些实施例中,以庭审场景为例来展开说明。

在执行上述步骤s100之前,可以按照设定的音频段落划分方式将会话音频进行划分,得到多个音频段落。

可选的,可以按照发言角色来划分,划分出的每个音频段落中的发言来自同一发言角色、且相邻两个音频段落中的发言来自不同发言角色,比如会话音频中先后有a1、a2、a3三位发言角色进行发言,对应划分出三个音频段落,这三个音频段落中的发言分别来自发言角色a1、a2、a3,三者不具有重叠的部分。

或者,仍然按照发言角色划分,但是每次划分时,划分出的每个音频段落中的发言来自不同发言角色,相邻两个音频段落之间具有重叠的一部分,比如参看图2,会话音频中先后有a1、a2、a3三位发言角色进行发言,对应划分出三个音频段落,一个音频段落b1中的发言来自发言角色a1和a2(包含a1的一段完整发言和a2的一段完整发言中的部分发言),一个音频段落b2中的发言来自发言角色a1、a2和a3(包含a2的一段完整发言和a1、a3的一段完整发言中的部分发言),一个音频段落b3中的发言来自发言角色a2和a3(包含a3的一段完整发言和a2的一段完整发言中的部分发言)。

这里只举例了a1、a2、a3三位发言角色,实际还可以有更多的发言角色。比如,庭审场景中,发言角色可以包括法官、原告当事人、原告代理人、被告当事人、被告代理人等,而且,这些发言角色可以多次发言。

可以理解,上述的划分方式只是举例,当然还可以有其他的划分方式,比如还可以将会话音频划分成多个时长相同的音频段落等,具体并不局限于此。

可以将划分出的音频段落进行保存,同时可以保存音频段落对应的时间戳,该时间戳可以为对应音频段落在会话音频中的起始时间。

步骤s100中,从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的发言内容和音频特征信息,所述目标音频段落的发言来自一个或多个发言角色。

目标音频段落可以是从会话音频划分出的任一个音频段落,其中的发言可以来自一个或多个发言角色,比如可以为一个发言角色的一段完整发言,或者可以为一个发言角色的一段完整发言以及其他发言角色的一部分发言。优选来说,目标音频段落中的发言来自1个或2个或3个发言角色。

比如,庭审场景中,会话中的发言角色可以包括法官、原告方当事人、原告方代理人、被告方当事人、被告方代理人,当然,会话中的发言角色也不限于此,比如还可以包括证人、陪审员、书记员等。

从目标音频段落中获取该目标音频段落的发言内容,比如可以采用音频识别(或者说语音识别,asr,automaticspeechrecognition)的方式从目标音频段落中获取发言内容。发言内容可以用文本来表示、或者也可以用其他形式表示。

在一个实施例中,步骤s100中,从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的发言内容,可以包括以下步骤:

s101:对所述目标音频段落进行音频识别,得到识别出的至少一个参考语句;

s102:将所述参考语句输入至已训练的纠错模型,所述纠错模型用于纠正所述参考语句中的错误内容,得到所述纠正模型输出的候选语句;

s103:基于所述候选语句确定所述发言内容。

音频识别是一种将人的语音转换为文本的技术,可以采用深度学习算法来实现,具体不做限定。在音频识别时,若发言只包含一句话,可以得到一个参考语句;若发言包含多句话,可以将发言自动进行语句分割,得到多个参考语句,一句话对应一个参考语句。

虽然目前的音频识别技术已经较为成熟,但是仍然避免不了一些断句、病句、错字等问题,所以,在得到参考语句之后,可以对参考语句进行纠错。

纠错过程可以由已训练的纠错模型来实现,纠错模型是预先训练好的,保存在电子设备或其他设备中,在需要时调用。纠错模型可以通过一些已知错误内容的语句样本来训练得到,具体不再赘述。

将参考语句输入至纠错模型中,以由纠错模型纠正参考语句中的错误内容,包括断句、病句、错字等错误,得到候选语句。

基于纠正模型输出的候选语句来确定发言内容时,可以直接将纠正模型输出的候选语句组成为发言内容;或者,在后续有语句长度限制的情况下,可以将长度超过设定长度的候选语句分割成若干长度未超过设定长度的语句,将分割出的语句以及长度未超过设定长度的候选语句组成为发言内容,比如,需要将语句长度限制在512个字以内的情况下,若候选语句的长度超过512,则将该候选语句进行截断,得到至少两个长度未超过512的语句,发言内容包括多个长度未超过512的语句。

可以理解,上述确定发言内容的方式只是优选的方式,实际并不局限于此,比如在对精度要求不高的情况下,也可以直接将音频识别得到的参考语句组成为发言内容,或者在有语句长度限制的情况下,可以将参考语句中长度超限的语句截断后组成为发言内容。

除了从目标音频段落中获取发言内容之外,还从目标音频段落中获取该目标音频段落中的发言角色的音频特征信息,该音频特征信息可以表征目标音频段落中的发言角色的声纹。声纹不仅具有特定性,而且有相对稳定性的特点,依靠声纹可以确定发言来自哪个发言角色,所以,音频特征信息也可以表征目标音频段落中发言的发言角色。

在一个实施例中,步骤s100中,从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的音频特征信息,可以包括以下步骤:

s104:将所述目标音频段落输入至已训练的音频特征抽取器,以得到所述音频特征抽取器输出的音频特征信息;所述音频特征抽取器至少包括用于从输入的音频段落中抽取音频特征的抽取层、以及用于对音频特征进行嵌入表达并输出表达的音频特征信息的嵌入层;

s105:将所述音频特征抽取器输出的音频特征信息确定为所述目标音频段落中的发言角色的音频特征信息。

步骤s104和s105可以在步骤s101-s103之前执行,也可以在之后执行,或者两者同时执行,具体顺序不做限定。

音频特征抽取器是预先训练好的,可以保存在电子设备或其他设备中,在需要时调用。

音频特征抽取器可以包括用于从输入的音频段落中抽取音频特征的抽取层、以及用于对音频特征进行嵌入表达并输出表达的音频特征信息的嵌入层。其中,抽取层可以有多个处理子层组成,比如可以包括采样层、短时傅里叶变换(stft,short-timefouriertransform,或short-termfouriertransform))层、过滤层等,具体不做限定。嵌入层可以对音频特征进行嵌入表达并输出表达的音频特征信息,嵌入表达是指将数据转换(降维)为固定大小的特征表示(矢量),以便于处理和计算(如求距离),比如将音频特征转化为具有语义的128维embedding特征向量。

在一个例子中,可以采用vggish模型作为音频特征抽取器,当然,具体不限于此。

将目标音频段落输入至音频特征抽取器,音频特征抽取器可以抽取目标音频段落的音频特征并对音频特征进行嵌入表达,得到具有语义的embedding特征向量,作为音频特征信息。

音频特征信息由于可以表征发言角色,可以作为发言内容的附加特征,为会话环节的识别提供更加有语义表示的信息。

步骤s200中,依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量。

可以对发言内容和音频特征信息进行处理,得到适合于机器学习模型输入的向量即目标特征向量。即,将发言内容和音频特征信息综合起来,用目标特征向量来表示。

目标特征向量是一个多维向量,具体的维度不限。目标特征向量中每一维度上的数据可以有一定的取值范围,比如,每一维度上的数据可以均在0~1范围内(当然,此范围仅是举例,也可以是其他范围),可以减轻机器学习模型计算的复杂度。

确定目标特征向量的方式具体不限,比如,可以将发言内容和音频特征信息进行向量化之后融合在一起,得到目标特征向量,当然,具体方式不限于此。

在一个实施例中,步骤s200中,依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量,可以包括以下步骤:

s201:将所述发言内容和音频特征信息输入至已训练的向量模型中,以由所述向量模型基于输入的发言内容和音频特征信息确定对应的特征向量并输出;

s202:将所述向量模型输出的特征向量确定为所述目标特征向量。

向量模型分别对输入的发言内容和音频特征信息进行特征提取,得到发言内容特征向量和音频特征向量,并将发言内容特征向量和音频特征向量进行融合得到对应的特征向量后输出。

其中,将发言内容特征向量和音频特征向量进行融合可以包括:将发言内容特征向量和音频特征向量进行拼接,得到对应的特征向量;比如发言内容特征向量为512维向量,音频特征向量为128维向量,则将两者拼接后可以得到对应的特征向量。

或者,将发言内容特征向量和音频特征向量进行融合可以包括:在发言内容特征向量和音频特征向量的维度相同的情况下,可以将发言内容特征向量和音频特征向量进行求和,得到对应的特征向量;在发言内容特征向量和音频特征向量的维度不相同的情况下,可以先将发言内容特征向量和音频特征向量中维度较少的向量扩展为维度与另一向量一致,扩展之后,再将两个向量进行求和,得到对应的特征向量。

当然,上述的融合方式只是举例,实际还可以有其他方式,比如上述的求和也可以为加权求和,发言内容特征向量的权重系数可以更大,具体不做限定。

将向量模型输出的特征向量确定为目标特征向量,由于是基于发言内容和音频特征信息确定的,所以目标特征向量是一个多模态特征向量,可以实现发言内容与音频特征之间信息的互补,用于表征对应的发言角色发言的内容。

步骤s300中,将所述目标特征向量输入至已训练的会话环节识别模型,以得到所述会话环节识别模型输出的所述目标音频段落对应的会话环节。

以会话场景为庭审场景为例,整个庭审过程可以包括以下庭审环节:宣布法庭纪律、核对当事人身份、原被告诉辩意见、举证质证、法庭辩论等,当然还可以根据实际情况加入其他庭审环节。这些环节还可以进一步进行划分,具体不作限定。涉及的会话场景可以是真实案件的司法场景,或者可以是由法律建模专家以众包方式构建的司法场景,具体不做限定。

会话环节识别模型是预先训练好的,保存在电子设备或其他设备中,在需要时调用即可。

会话环节识别模型用于识别音频段落对应的会话环节,即音频段落中的发言所属的会话环节。将目标特征向量输入至会话环节识别模型之后,会话环节识别模型可以识别并输出的目标音频段落对应的会话环节。比如,目标音频段落中,被告方代理人正在对原告方代理人提出的证据,就其真实性、合法性、关联性以及证明力的有无、大小予以质辩,则目标音频段落对应的会话环节为举证质证环节。

本发明实施例中,基于获取的目标音频段落中发言角色的发言内容和音频特征信息,确定对应的目标特征向量,由于目标特征向量是发言内容和音频特征信息综合的向量表示,而发言内容可以表示目标音频段落中发言角色具体说了哪些话,音频特征信息可以表示目标音频段落中具体是哪个发言角色在说话,在实际中基于哪个发言角色说了哪些话事实上可以确定发言发生在哪个会话环节,基于这个特点可以预先训练出会话环节识别模型,将目标特征向量输入至已训练的会话环节识别模型后,可由会话环节识别模型识别出目标音频段落对应的会话环节,从而可以让观看者快速地知晓哪些音频段落对应于哪些会话环节,不需要再通过人工查找和辨别,有助于观看者快速定位需要观看的会话环节,提升观看者的观看体验。

可选的,在确定出会话音频中各个音频段落对应的会话环节之后,可以进一步基于各个音频段落对应的时间戳确定会话音频中各个会话环节的开始时间,即定位会话音频中的各个会话环节。比如,针对会话音频中每一会话环节对应的音频段落,将各音频段落对应的时间戳中对应的最早时间戳分别作为该会话环节的开始时间。当然,还可以确定基于各个音频段落对应的时间戳确定会话音频中各个会话环节的结束时间,具体不再赘述。

可选的,上述的会话环节的开始时间和/或结束时间可以应用于与会话音频同步的会话视频中,即会话视频中各会话环节的开始时间和/或结束时间与会话音频中的相同。

可选的,在定位会话音频中的各个会话环节之后,可以会话环节对应的音频段落的相关信息,来补充需显示的会话信息,比如可以根据某个会话环节中,各音频段落对应的发言角色,确定被告方有没有当庭答辩等,从而丰富会话信息。

在一个实施例中,所述向量模型通过以下方式训练得到:

t101:获取第一音频段落样本集合,所述第一音频段落样本集合包含从多个会话音频划分出的音频段落样本,每一音频段落样本中的发言来自一个发言角色;

t102:针对第一音频段落样本集合中的每一音频段落样本,从该音频段落样本中获取该音频段落样本中发言角色的发言内容和音频特征信息,将该音频段落样本中发言角色的发言内容和音频特征信息组成为第一样本数据,并将该音频段落样本对应的发言角色标定为所述第一样本数据对应的标签信息;

t103:利用各第一样本数据与对应的标签信息训练出所述向量模型。

这里的多个会话音频可以在真实司法场景或模拟司法场景中采集得到,针对其中的每一会话音频,可以按照发言角色对该会话音频进行划分,得到多个音频段落样本,每一音频段落样本中的发言来自一个发言角色。优选来说,每一音频段落样本中的发言为一个发言角色的一段完整发言(即中间无其他人插话,且之前与之后的一段时间内要么是其他发言角色在发言、要么是无人发言)。

本实施例中,采用发言来自同一发言角色的音频段落样本,而不是来自多个发言角色的音频段落样本,可以更有助于向量模型对向量的正确表达,有利于提升向量模型在被使用时输出的准确性。

在划分出音频段落样本之后,可以将音频段落样本与其中发言的发言角色对应保存,针对第一音频段落样本集合中的每一音频段落样本,在获取到该音频段落样本的发言内容和音频特征信息之后,将该音频段落样本中发言角色的发言内容和音频特征信息组成为第一样本数据,并将该音频段落样本对应的发言角色标定为所述第一样本数据对应的标签信息。第一样本数据和对应的标签信息比如可以表示为<发言角色,发言内容+音频特征信息>。

上述获取音频段落样本中的发言内容和音频特征信息的方式,可以与前述实施例中获取目标音频段落中的发言内容和音频特征信息中的方式相同,在此不再赘述。

利用各第一样本数据与对应的标签信息训练出所述向量模型。其中,可以将第一样本数据作为输入数据,将第一样本数据对应的标签信息即发言角色作为监督信息,进行有监督训练,得到向量模型。

在一个实施例中,步骤t103中,利用各第一样本数据与对应的标签信息训练出所述向量模型,可以包括以下步骤:

建立第一模型和第二模型;

从各第一样本数据中选择至少一个第一样本数据,并输入至所述第一模型,以使所述第一模型从输入的第一样本数据中提取出特征向量并输出至所述第二模型,所述第二模型基于所述第一模型输出的特征向量预测发言角色并输出;

依据被选择的第一样本数据对应的标签信息与所述第二模型输出的发言角色优化所述第一模型;在当前不满足训练完成条件时,返回从各第一样本数据中选择至少一个第一样本数据的步骤,在当前满足训练完成条件时,将所述第一模型确定为所述向量模型。

在一个例子中,第一模型可以采用bert模型,第二模型可以采用分类器,当然具体不限于此。

在将第一样本数据输入至第一模型之后,第一模型可以对输入的第一样本数据中的发言内容和音频特征信息进行特征提取,得到发言内容特征向量和音频特征向量,并将发言内容特征向量和音频特征向量进行融合得到对应的特征向量后输出至第二模型中,第二模型可以基于所述第一模型输出的特征向量预测发言角色并输出。

依据被选择的第一样本数据对应的标签信息与所述第二模型输出的发言角色优化所述第一模型,比如可以为:依据第一样本数据对应的标签信息与第二模型输出的发言角色的差异优化第一模型,具体是优化第一模型中的网络参数。

当然,在优化第一模型时,也可以同时优化第二模型,在训练时,第一模型和第二模型可以使用同一个损失函数,也可以使用不同的损失函数进行优化。

在优化第一模型之后,可以检查当前是否满足训练完成条件,比如:可以检查当前是否存在未被选择的第一样本数据,如果是,则当前未满足训练完成条件,如果否,则当前满足训练完成条件;或者,可以检查当前训练次数是否达到预设的训练次数,如果否,则当前未满足训练完成条件,如果是,则当前满足训练完成条件;或者,可以检查第一模型的性能是否达到指定要求,比如准确率是否达到97%,如果否,则当前未满足训练完成条件,如果是,则当前满足训练完成条件。

可选的,为了验证向量模型的性能,还可以获取多个第一样本数据进行验证,这些第一样本数据可以不同于训练所用的第一样本数据。可选的,验证所用的第一样本数据与训练所用的第一样本数据的数量比例可以为3:7。验证方式可以是,在训练过程中,每训练几次便验证一次,验证结果不用于优化模型,可以在训练过程中供训练人员监督或在训练完成之后供训练人员确认模型训练是否达标。

可选的,还可以获取多个第一样本数据进行测试,在完成训练之后,利用测试用的第一样本数据对训练出的向量模型进行测试,测试结果比如可以用于确定向量模型输出结果的准确率等,以便测试人员了解训练所得的向量模型的性能。

在一个实施例中,所述会话环节识别模型通过以下方式训练得到:

t201:获取第二音频段落样本集合,所述第二音频段落样本集合包含从多个会话音频划分出的音频段落样本,每一音频段落样本中的发言来自一个或多个发言角色,且每一音频段落样本对应于一个会话环节;

t202:针对第二音频段落样本集合中的每一音频段落样本,从该音频段落样本中获取该音频段落样本中发言角色的发言内容和音频特征信息,并输入至所述向量模型中,以得到所述向量模型输出的特征向量作为第二样本数据,将该音频段落样本对应的会话环节标定为该第二样本数据对应的类别标签;

t203:利用各第二样本数据与对应的类别标签训练出所述会话环节识别模型。

本实施例中,第二音频段落样本集合中每一音频段落样本中的发言可以来自一个或多个发言角色。优选来说,第二音频段落样本集合中至少一个音频段落样本中的发言来自多个发言角色。

在音频段落样本中的发言来自多个发言角色的情况下,由于发言中有多人在对话,上下文关联更强,更有助于会话环节识别模型进行上下文理解而识别出会话环节,也有利于会话环节识别模型的学习与表达。

因而与训练向量模型不同,在训练会话环节识别模型时,优选采用包含至少一个音频段落样本中的发言来自多个发言角色的第二音频段落样本集合进行训练。

会话环节识别模型可以在训练出向量模型之后训练得到。在训练会话环节识别模型时,可以借助于向量模型,即将获取的音频段落样本中发言角色的发言内容和音频特征信息输入至已训练的向量模型中,得到各音频段落样本对应的特征向量,并为各特征向量标定对应的类别标签,类别标签用于指示音频段落样本对应的会话环节,得到第二样本数据。

利用各第二样本数据与对应的类别标签训练出所述会话环节识别模型,比如可以包括:

建立第三模型;

从各第二样本数据中选择至少一个第二样本数据,并输入至第三模型,以使第三模型依据第二样本数据中的特征向量预测出对应的会话环节;

依据被选择的第二样本数据对应的类别标签与第三模型输出的会话环节优化第三模型;在当前不满足训练完成条件时,返回从各第二样本数据中选择至少一个第二样本数据的步骤,在当前满足训练完成条件时,将所述第三模型确定为所述会话环节识别模型。

其中,第三模型可以为输入为向量的多分类模型,具体不做限定。

会话环节识别模型的训练方式与向量模型的训练方式类似,具体可以参看前述实施例中的描述内容,在此不再赘述。

本发明还提供一种会话环节识别装置,参看图3,会话环节识别装置100可以包括:

信息获取模块101,用于从会话音频待识别的目标音频段落中,获取该目标音频段落中发言角色的发言内容和音频特征信息,所述目标音频段落的发言来自一个或多个发言角色;

目标特征向量确定模块102,用于依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量;

会话环节识别模块103,用于将所述目标特征向量输入至已训练的会话环节识别模型,以得到所述会话环节识别模型输出的所述目标音频段落对应的会话环节。

在一个实施例中,所述信息获取模块从会话音频待识别的目标音频段落中,获取该目标音频段落中发言角色的发言内容时,具体用于:

对所述目标音频段落进行音频识别,得到识别出的至少一个参考语句;

将所述参考语句输入至已训练的纠错模型,所述纠错模型用于纠正所述参考语句中的错误内容,得到所述纠正模型输出的候选语句;

基于所述候选语句确定所述发言内容。

在一个实施例中,所述信息获取模块从会话音频待识别的目标音频段落中,获取该目标音频段落中发言角色的音频特征信息时,具体用于:

将所述目标音频段落输入至已训练的音频特征抽取器,以得到所述音频特征抽取器输出的音频特征信息;所述音频特征抽取器至少包括用于从输入的音频段落中抽取音频特征的抽取层、以及用于对音频特征进行嵌入表达并输出表达的音频特征信息的嵌入层;

将所述音频特征抽取器输出的音频特征信息确定为所述目标音频段落中发言角色的音频特征信息。

在一个实施例中,目标特征向量确定模块依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量时,具体用于:

将所述发言内容和音频特征信息输入至已训练的向量模型中,以由所述向量模型基于输入的发言内容和音频特征信息确定对应的特征向量并输出;

将所述向量模型输出的特征向量确定为所述目标特征向量。

在一个实施例中,所述向量模型通过以下模块训练得到:

第一集合获取模块,用于获取第一音频段落样本集合,所述第一音频段落样本集合包含从多个会话音频划分出的音频段落样本,每一音频段落样本中的发言来自一个发言角色;

第一样本数据获取模块,用于针对第一音频段落样本集合中的每一音频段落样本,从该音频段落样本中获取该音频段落样本中发言角色的发言内容和音频特征信息,将该音频段落样本中发言角色的发言内容和音频特征信息组成为第一样本数据,并将该音频段落样本对应的发言角色标定为所述第一样本数据对应的标签信息;

向量模型训练模块,用于利用各第一样本数据与对应的标签信息训练出所述向量模型。

在一个实施例中,所述向量模型训练模块利用各第一样本数据与对应的标签信息训练出所述向量模型时,具体用于:

建立第一模型和第二模型;

从各第一样本数据中选择至少一个第一样本数据,并输入至所述第一模型,以使所述第一模型从输入的第一样本数据中提取出特征向量并输出至所述第二模型,所述第二模型基于所述第一模型输出的特征向量预测发言角色并输出;

依据被选择的第一样本数据对应的标签信息与所述第二模型输出的发言角色优化所述第一模型;在当前不满足训练完成条件时,返回从各第一样本数据中选择至少一个第一样本数据的步骤,在当前满足训练完成条件时,将所述第一模型确定为所述向量模型。

在一个实施例中,所述会话环节识别模型通过以下模块训练得到:

第二集合获取模块,用于获取第二音频段落样本集合,所述第二音频段落样本集合包含从多个会话音频划分出的音频段落样本,每一音频段落样本中的发言来自一个或多个发言角色,且每一音频段落样本对应于一个会话环节;

第二样本数据获取模块,用于针对第二音频段落样本集合中的每一音频段落样本,从该音频段落样本中获取该音频段落样本中发言角色的发言内容和音频特征信息,并输入至所述向量模型中,以得到所述向量模型输出的特征向量作为第二样本数据,将该音频段落样本对应的会话环节标定为该第二样本数据对应的类别标签;

会话环节识别模型训练模块,用于利用各第二样本数据与对应的类别标签训练出所述会话环节识别模型。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元。

本发明还提供一种电子设备,包括处理器及存储器;所述存储器存储有可被处理器调用的程序;其中,所述处理器执行所述程序时,实现如前述实施例中所述的会话环节识别方法。

本发明会话环节识别装置的实施例可以应用在电子设备上。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,图4是本发明根据一示例性实施例示出的会话环节识别装置100所在电子设备的一种硬件结构图,除了图4所示的处理器510、内存530、接口520、以及非易失性存储器540之外,实施例中会话环节识别装置100所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。

本发明还提供一种机器可读存储介质,其上存储有程序,该程序被处理器执行时,实现如前述实施例中所述的会话环节识别方法。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于:相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签: 音频应用
tips