后创建声纹的会议语音转写方法、装置及存储介质与流程

2021-01-28 15:01:19|

229|

起点商标网

本发明属于语音会议及信息处理技术领域，具体涉及后创建声纹的会议语音转写方法、装置及存储介质。

背景技术：

随着科技进步，会议记录系统或会议语音转录系统已实现自动快速地得到会议记录，包括发言人、发言内容等。现在的会议语音转写系统，可以对会议进行实时转写，或者是对录音文件进行转写。而功能更加强大的一些系统，还能区分各参会方，转写是对话式的，但是前提条件是必须要先创建好参会方的声纹模型。

通常，现有产品在进行发言人识别时需要提前收集并存储参会相关人员的语音特征信息，然后通过录制的语音信息与存储的用户语音特征信息进行对比从而辨识出和语音片段对应的发言用户。但实际上开会的参会人员往往不固定或参会人员的临时变化，使现有技术的工作流程受限，而且有些特殊会议，如果提前收集参会人员的语音特征信息甚至加以存储还存在安全隐患。

由于声纹缺失导致没有参会方信息的转写记录，大部分情况下是不能满足会议记录的要求，还需要人工再进行处理，例如重新听一遍，补充各时间段每句话的具体发言人信息。

技术实现要素：

针对现有技术中存在的上述缺陷，为解决会议前未能采集参会人声纹的会议语音转写记录问题，本发明提供了后创建声纹的会议语音转写方法、装置及存储介质。

为实现上述发明目的，本发明的采用以下技术方案。

第一方面，本发明提供了一种支持后创建声纹的会议语音转写方法，包括：

步骤1、对会议语音文件进行转写，生成会议记录文本文件；

步骤2、通过操作开始播放/停止播放按钮，从会议语音文件中选取语音片段及该语音片段开始时间至结束时间对应的文本片段；

步骤3、对所选取的语音片段及其对应的文本片段进行标记；

步骤4、确认语音片段对应的发言人身份信息，将该语音片段作为所述发言人的声音数据进行声纹特征提取，创建所述发言人的声纹；

步骤5、判断是否存在未创建声纹的发言人，如果存在则返回步骤2，否则执行步骤6；

步骤6、在已创建声纹的情况下，重新对会议语音文件进行转写，检查是否存在不能识别的发言人；如果不存在不能识别的发言人，则完成会议语音转写；如果存在不能识别的发言人，则标记为未知发言人。

可选地，在步骤6中，还包括针对未知发言人进行如下处理：

获取未知发言人的语音片段，接收经用户核实确认的发言人身份，如果发言人的声纹已创建，使用该“未知发言人的语音片段”对该发言人的声纹进行修正；如果发言人的声纹尚未创建，则返回步骤2的方法创建该发言人的声纹。

可选地，创建声纹的方法包括：

对语音进行预处理和特征提取，然后通过声纹模型训练得到该发言人的声纹模型；所述预处理方法包括静音检测、去噪、解混响；

提取到的特征包括mfcc，使用的声纹模型算法是gmm-ubm联合模型，即高斯混合模型-通用背景模型联合模型；

mfcc即梅尔频率倒谱系数，计算方法是：对输入的语音进行预加重和分帧，然后施加汉明加窗处理后进行快速傅里叶变换，对得到的特征进行幅度压制，得到能量谱；通过三角窗函数将能量谱映射到梅尔刻度，从而完成梅尔滤波，再取对数后经过离散余弦变换得到转换后的频谱即mfcc。

可选地，步骤6中如果存在不能识别的发言人，则进行识别失败原因判断，原因包括噪声和/或多人同时发言；

当识别到两人及两人以上同时发言时，判定为多人同时发言，记录下多人发言的起止时间，对相应起止时间段内，增加多人发言标记，并将该起止时间段内的语音片段标记为混合语音片段。

进一步，对多人同时发言的混合语音片段进行语音分离处理包括：

对混合语音片段进行噪音分离处理后进行特征提取；

将已获取的每个声纹特征分别与混合语音特征进行相似度计算；

将相似度最高的声纹特征的所有者作为该段混合语音片段的主要发言人；

将主要发言人与该段混合语音片段转换成的文字记录进行匹配。

进一步，在语音转写的过程中，将各语音片段转成文字，同时识别该语音片段的发言人，即声纹识别过程。

可选地，声纹识别过程包括：

按创建声纹过程中的方法对语音片段进行特征提取，然后将该声纹特征通过声纹数据库中的已有发言人的声纹模型进行打分判决，选取匹配度最高并且可信、即大于最低置信度的声纹模型，以此声纹模型的所有者，作为发言人，如未能匹配上，则标记为未知发言人。

可选地，还包括声纹模型测试的步骤，用于验证已采集声纹模型的有效性，包括：

用户选定已知发言人的至少一个语音片段；

识别该语音片段的发言人，如果识别出的发言人与已知发言人一致则通过测试，否则重新创建该已知发言人的声纹。

本发明的第二方面提供了一种后创建声纹的会议语音转写装置，包括存储器和处理器；

所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本发明第一方面提供的任一所述会议语音转写方法。

本发明的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括实现后创建声纹的会议语音转写的计算机程序，所述计算机程序被处理器执行时实现本发明第一方面提供的任一所述会议语音转写方法。

相对于现有技术，本发明取得以下有益效果。

本发明通过采用专用工具，从会议的录音文件和转写记录，来创建声纹，进而后期花费少量的人工来补充声纹，省去了人工再完整听一遍录音去补充所花费的大量时间。解决了会议开启前声纹缺失这种情况下，会议语音转写系统这种人工智能，使用不便捷、不智能的问题。

附图说明

图1是本发明实施例的软件界面示意图；

图2是本发明实施例的方法流程图。

具体实施方式

以下将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，并且所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种支持后创建声纹的会议语音转写方法。本实施例中，工具软件以便完成后创建声纹以及会议语音转写操作。本实施例采用的软件界面如图1所示。

本实施例为用户提供两个工具以便完成后创建声纹以及会议语音转写操作。第一个工具为声纹创建工具，用于从录音文件和已有会议转写记录来创建声纹。人工听取部分会议录音，标记不同的片段，核实文字和填写说话人信息，加入到声纹系统。第二个工具为会议语音转写工具，按新的声纹对录音文件再次转写。如有仍不能识别的参会方，标记为未知，后续人工处理或再走一遍此流程。通常第二个工具可以采用现有会议语音转写系统实现。

本实施例的一种支持后创建声纹的会议语音转写方法主要流程如图2所示，包括：

步骤1、对会议语音文件进行转写，生成会议记录文本文件；

步骤2、通过操作开始播放/停止播放按钮，从会议语音文件中选取语音片段及该语音片段开始时间至结束时间对应的文本片段；

步骤3、对所选取的语音片段及其对应的文本片段进行标记；

步骤4、确认语音片段对应的发言人身份信息，将该语音片段作为所述发言人的声音数据进行声纹特征提取，创建所述发言人的声纹；

步骤5、判断是否存在未创建声纹的发言人，如果存在则返回步骤2，否则执行步骤6；

步骤6、在已创建声纹的情况下，重新对会议语音文件进行转写，检查是否存在不能识别的发言人；如果不存在不能识别的发言人，则完成会议语音转写。如果存在不能识别的发言人，则标记为未知发言人。

针对未知发言人，需由人工处理，处理方法如下：

获取未知发言人的语音片段，人工核实发言人身份，如果发言人的声纹已创建，则属于声纹识别问题，使用该“未知发言人的语音片段”对该发言人的声纹进行修正；如果发言人的声纹尚未创建，即存在漏创建声纹的情况，则返回步骤2的方法创建该发言人的声纹。

本实施例图1所示软件工具的实现逻辑如下：

点击开始播放，开始播放录音，按钮字样变为停止播放；

当前语音片段的开始时间，记录为点击开始播放时的进度条位置；

点击停止播放，停止播放录音，按钮字样变为开始播放；进度条在停止播放的时候，可以拖动；

当前语音片段的结束时间，一直记录为当前最新的进度条位置（不管有没有在播放、进度条是否有拖动）；

转写记录显示区域高亮开始时间至结束时间内的文字，如果结束时间小于开始时间（由于进度条拖动的原因），则不高亮任何内容；高亮的内容如有变化，就自动复制到讲话人讲话内容显示区域；

补充好讲话人，修改好讲话人讲话内容，点击加入声纹按钮，即将这些信息提交给系统，让系统按此时间段内的语音片段和文字内容，为讲话人创建声纹，同时在声纹列表显示区域显示；

在声纹列表显示区域，可以将已提交的声纹删除。

在可选实施方式中，创建声纹的具体方法如下：

首先对语音进行预处理和特征提取，然后通过声纹模型训练得到该发言人的声纹模型。主要的预处理方法有vad（voiceactivitydetection，即静音检测）、去噪，解混响等，提取到的特征主要是mfcc（melfrequencycepstrumcoefficient，即梅尔倒频系数），使用的声纹模型算法是gmm-ubm联合模型（gmm，gaussianmixturemodel，即高斯混合模型；universalbackgroundmodel，即通用背景模型）。

梅尔频率倒谱系数（mfcc）的计算方法是：对输入的语音进行预加重和分帧，然后施加汉明加窗处理后进行快速傅里叶变换，对得到的特征进行幅度压制，得到能量谱；通过三角窗函数将能量谱映射到梅尔刻度，从而完成梅尔滤波，再取对数后经过离散余弦变换得到转换后的频谱（即mfcc）。

在实际应用中，有可能存在已创建声纹，却识别失效的情况。这有可能是因为声纹模型算法不够完善，但更多是由于噪声或者是多人同时发言造成的，在专业会议场景，可以通过麦克风阵列、多麦克风、定向麦克风、申请发言等硬件提升或会议规则来解决。

识别到两人及两人以上同时发言时，判定为多人同时发言，记录下多人发言的起止时间，对相应起止时间段内，增加多人发言标记，并将该起止时间段内的语音片段标记为混合语音片段。

在一个可选实施方式中，进一步对多人同时发言的混合语音片段进行语音分离处理，具体方法如下：

对混合语音片段进行噪音分离处理后进行特征提取；

将已获取的每个声纹特征分别与混合语音特征进行相似度计算；

将相似度最高的声纹特征的所有者作为该段混合语音片段的主要发言人；

将主要发言人与该段混合语音片段转换成的文字记录进行匹配。

其中，噪音分离和相似度计算方法可采用语音处理领域已有常用的方法，此处不再赘述。

在一个可选实施方式中，带有声纹的语音转写过程如下：

在语音转写的过程中，会同时对语音进行两种主要的计算，一种是将各语音片段转成文字，另外一种就是识别该语音片段的说话人，这个计算过程就是声纹识别过程。按创建声纹过程中的方法对语音片段进行特征提取，然后将该声纹特征通过声纹数据库中的已有发言人的声纹模型进行打分判决，选取匹配度最高并且可信（大于最低置信度）的声纹模型，以此声纹模型的所有者，作为发言人，如未能匹配上，则标记为未知发言人。

在一个可选实施方式中，在正式转写前，还提供了声纹模型测试功能，用于验证已采集声纹模型的质量和有效性。过程如下：

用户选定已知发言人的至少一个语音片段；

识别该语音片段的发言人，如果识别出的发言人与已知发言人一致则通过测试，否则重新创建该已知发言人的声纹。

本发明的另一个本实施例提供一种后创建声纹的会议语音转写装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述实施例中提供的会议语音转写方法的步骤。

本发明的另一个本实施例还提供一种计算机可读存储介质，该计算机可读存储介质可以是硬盘、多媒体卡、sd卡、闪存卡、smc、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括实现后创建声纹的会议语音转写的计算机程序，所述计算机程序被处理器执行时实现上述实施例中提供的会议语音转写方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除