视频说话人的识别方法、装置、计算机设备及存储介质与流程
本发明实施例涉及视频分析或视频创作领域,尤其涉及一种视频说话人的识别方法、装置、计算机设备及存储介质。
背景技术:
目前各类视频中大量使用配音,同一配音员可能为不同剧的不同角色配音,同一演员在不同的影视剧里也可能使用不同的配音演员,这使得人物声音的收集和后续的识别变得非常麻烦,并且,现在大量的视频中并没有包含配音演员信息,因此,后续在对视频内容的理解、自动生成剧本、自动抽取某些角色的所有说话片段以便视频拆条或给海量视频增加配音演员信息等工作就变得非常困难。
技术实现要素:
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种视频说话人的识别方法、装置、计算机设备及存储介质。
第一方面,本发明实施例提供一种视频说话人的识别方法,包括:
确定视频中的目标人物,以及所述目标人物的身份信息;
根据所述身份信息,按照时序信息从所述视频中提取包含有所述目标人物的一组人脸图片;
从一组所述人脸图片中提取包含有所述目标人物嘴部的嘴部图片集;
根据所述嘴部图片集,确定包含有所述目标人物存在说话动作的多个第一语音片段;
对多个所述第一语音片段进行人声检测处理,得到所述目标人物对应的多个第一目标语音片段。
在一个可能的实施例中,所述方法还包括:
采集视频中出现的多个人脸图像;
提取多个所述人脸图像中对应的人脸特征;
对多个所述人脸特征与数据库中存储的目标人脸特征进行匹配,将所述人脸特征与目标人脸特征的相似度超过第一阈值的人脸图像中的人物作为目标人物,以及根据所述目标人脸特征输出所述目标人物的身份信息。
在一个可能的实施例中,所述方法还包括:
按照时序信息从所述视频对应的帧图像中出现的人物进行身份识别;
确定出现所述身份信息对应所述目标人物的多个目标帧图像;
从多个所述目标帧图像中提取包含有所述目标人物的一组人脸图片。
在一个可能的实施例中,所述方法还包括:
根据时序信息依次对比所述嘴部图片集对应的嘴部特征关键点的相对位置变化,提取所述目标人物存在说话动作的多个嘴部图片;
基于多个所述嘴部图片,从所述视频中提取多个所述嘴部图片对应位置的多个第一语音片段;
基于人声检测模型,对多个所述第一语音片段进行人声检测,去除每个所述第一语音片段中的非人物声音部分,得到多个存在人物声音的第一目标语音片段。
在一个可能的实施例中,所述方法还包括:
对多个所述第一目标语音片段进行性别一致化处理,去除与所述目标人物性别不一致的部分语音片段。
在一个可能的实施例中,所述方法还包括:
基于人声检测从所述视频中提取多个第二语音片段,所述第二语音片段为所述视频中存在说话人声音的非第一语音片段;
将多个所述第二语音片段输入至声纹模型中,得到多个所述第二语音片段对应的多个声音特征向量;
基于多个所述声音特征向量,确定与所述目标人物对应的至少一个第二目标语音片段。
在一个可能的实施例中,所述方法还包括:
对多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量进行匹配,将多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量的相似度超过第二阈值的多个第二语音片段作为所述目标人物的第二目标语音片段。
在一个可能的实施例中,所述方法还包括:
将所述第一目标语音片段和所述第二目标语音片段按照时序信息合并成所述目标人物的目标语音片段集合。
第二方面,本发明实施例提供一种视频说话人识别装置,包括:
识别模块,用于确定视频中的目标人物,以及所述目标人物的身份信息;
获取模块,用于根据所述身份信息,按照时序信息从视频中提取包含有所述目标人物的一组人脸图片;
所述获取模块,还用于从一组所述人脸图片中提取包含有所述目标人物嘴部的嘴部图片集;
确定模块,用于根据所述嘴部图片集,确定包含有所述目标人物存在说话动作的多个第一语音片段;
所述确定模块,还用于对多个所述第一语音片段进行人声检测处理,得到所述目标人物对应的多个第一目标语音片段。
第三方面,本发明实施例提供一种计算机设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的视频说话人的识别程序,以实现上述第一方面中任一项所述的视频说话人的识别方法。
第四方面,本发明实施例提供一种存储介质,包括:所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中任一项所述的视频说话人的识别方法。
本发明实施例提供的视频说话人的识别方案,通过确定视频中的目标人物,以及所述目标人物的身份信息;根据所述身份信息,按照时序信息从视频中提取包含有所述目标人物的一组人脸图片;从一组所述人脸图片中提取包含有所述目标人物嘴部的嘴部图片集;根据所述嘴部图片集,确定包含有所述目标人物存在说话动作的多个第一语音片段;对所述第一语音片段进行人声检测处理,得到所述目标人物对应的第一目标语音片段,由此方法,可以自动完成对整条视频中出现的人物的声音进行识别和分类,得到所有人物对应的所有语音片段集合,方便后续对某个角色人物的所有语音进行配音替换等工作。
附图说明
图1为本发明实施例提供的一种视频说话人的识别方法的流程示意图;
图2为本发明实施例提供的另一种视频说话人的识别方法的流程示意图;
图3为本发明实施例提供的一种视频说话人的识别装置的结构示意图;
图4为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种视频说话人的识别方法的流程示意图,如图1所示,该方法具体包括:
s11、确定视频中的目标人物,以及所述目标人物的身份信息。
在本发明实施例提供的视频说话人的识别方法,应用于音视频分析领域或音视频创作领域,预先在数据库中存储多个目标人物的人物信息,该人物信息至少包括:目标人物的人脸特征信息和目标人物的身份信息。
在视频播放过程中,检测视频对应的帧图像中是否出现人物的人脸图像,若出现人脸图像,截取该人物的人脸图片,对获取的人脸图片进行人脸识别,并判断该人物是否为目标人物,若确定该人物为目标人物(人脸图片对应的特征与预先存储的目标人物的特征的相似度达到一定值),则从数据库中确定该目标人物的身份信息。
s12、根据所述身份信息,按照时序信息从视频中提取包含有所述目标人物的一组人脸图片。根据目标人物的身份信息,按照时序信息,对视频播放过程中的每一帧图像进行人物识别,若确定该帧图像中出现目标人物,则从该帧图像中提取包含目标人物的人脸图片,进而得到整个视频对应的目标人物的一组人脸图像。
s13、从一组所述人脸图片中提取包含有所述目标人物嘴部的嘴部图片集。
检测人脸图片中的关键点,以及确定嘴部对应的关键点,进而根据嘴部对应的关键点,从多个人脸图片中截取多个嘴部图片,将多个截取到的嘴部图片组成目标人物嘴部的嘴部图片集。
s14、根据所述嘴部图片集,确定包含有所述目标人物存在说话动作的多个第一语音片段。
根据目标人物的嘴部图片集,按照每一张图片的时序信息依次判断每一张图片对应的嘴部位置关键点是否发生变化,进而对目标人物是否存在说话动作进行判断,若确认目标人物存在说话动作,则同时逐帧提取目标人物存在说话动作时对应的多个语音片段。
s15、对多个所述第一语音片段进行人声检测处理,得到所述目标人物对应的多个第一目标语音片段。
在本发明实施例中,利用人声检测模型,检测提取到的多个第一语音片段中是否存在人物声音,若存在人物声音,则保留存在人物声音的语音片段,若不存在人物声音,则去除此语音片段。
本发明实施例提供的视频说话人的识别方法,确定视频中的目标人物,以及所述目标人物的身份信息;根据所述身份信息,按照时序信息从视频中提取包含有所述目标人物的一组人脸图片;从一组所述人脸图片中提取包含有所述目标人物嘴部的嘴部图片集;根据所述嘴部图片集,确定包含有所述目标人物存在说话动作的多个第一语音片段;对多个所述第一语音片段进行人声检测处理,得到所述目标人物对应的多个第一目标语音片段,由此方法,可以自动完成对整条视频中出现的人物的声音进行识别和分类,得到所有人物对应的所有语音片段集合。
图2为本发明实施例提供的另一种视频说话人的识别方法的流程示意图,如图2所示,该方法具体包括:
s21、采集视频中出现的多个人脸图像。
在本发明实施例中,预先训练好人脸检测模型,当视频播放过程中,人脸检测模型自动检测视频中是否出现人物的人脸图像,以及在检测到视频中出现人物的人脸图像时截取对应的该人物的多张人脸图片。例如,待识别视频总时长20分钟,视频中所有人物总计10人。人脸检测模型根据预设好的每一帧时间间隔(例如,1s),自动截取视频播放过程中出现的多个带有人脸的图像,其中,截取到的带有人脸的图像数量大于等于10,然后根据这些人脸图像截取到多张人脸图片。
s22、提取多个所述人脸图像中对应的人脸特征。
在本发明实施例中,预先训练好人脸特征模型,人脸检测模型将截取下来的多张人脸图片传输给人脸特征模型,人脸特征模型对接收到的多张人脸图片分别计算出对应的人脸特征向量。
s23、对多个所述人脸特征与数据库中存储的目标人脸特征进行匹配,将所述人脸特征与目标人脸特征的相似度超过第一阈值的人脸图像中的人物作为目标人物,以及根据所述目标人脸特征输出所述目标人物的身份信息。
对比由人脸特征模型计算得到的人脸特征向量与人物数据库中预先存储的目标人物的人脸特征向量,得到二者的相似度,若相似度超过第一阈值,则确定视频中出现的人物与目标人物为同一人,进而输出预先存储的目标人脸特征向量对应的身份信息。
进一步地,可以设置人脸特征向量的相似度对应的第一阈值(例如,95%)。
身份信息可以包括:角色名、性别和/或年龄。
例如,从视频中截取到的人脸图片的人脸特征可以包括:眉形、眼型、鼻型、嘴型或脸型等,人脸特征模型可以根据以上特征计算出人脸特征向量,通过对比从视频中截取到的人脸图片的人脸特征向量与人物数据库中存储的目标人脸特征向量的相似度,相似度超过第一阈值(例如,95%),认为是同一个人,则输出目标人脸特征向量对应的身份信息。
s24、按照时序信息从视频对应的帧图像中出现的人物进行身份识别。
s25、确定出现所述身份信息对应所述目标人物的多个目标帧图像。
在视频播放过程中,按照视频播放时序信息对视频的每一帧图像进行检测,检测每一帧图像中是否出现人物以及根据目标人物的身份信息确定出现的人物是否为目标人物,进而,从全部帧图像中提取多个带有目标人物的目标帧图像。
s26、从多个所述目标帧图像中提取包含有所述目标人物的一组人脸图片。
确定目标帧图像中目标人物的位置,根据该位置确定人脸框的位置,基于人脸框从目标帧图像中截取人脸框对应的区域,得到该目标帧图像对应的人脸图片,进而得到视频对应的一组人脸图片。
s27、根据时序信息依次对比所述嘴部图片集对应的嘴部特征关键点的相对位置变化,提取所述目标人物存在说话动作的多个嘴部图片。
在本发明实施例中,利用五官定位模型,定位找到筛选出的一组人脸图片中的脸部的多个关键点,利用这些关键点,定位出嘴部区域,进而截取目标人物的多个嘴部图片。
例如,利用五官定位模型,对筛选出的一组人脸图片进行五官定位,定位出每张图片中人脸部的多个关键点,对于关键点具体数量的选择可根据方案执行过程中的情况进行确定,关键点数量可以是68个、106个、150个,或者1000个,对此,本实施例不作具体限定。
进一步地,将截取到的多个嘴部图片根据时序信息依次传输给3d卷积神经网络模型,3d卷积神经网络模型根据嘴部关键点的相对位置变化,判断目标人物存在说话动作的多个嘴部图片,进而提取目标人物存在说话动作时对应的多个嘴部图片。
s28、基于多个所述嘴部图片,从所述视频中提取多个所述嘴部图片对应位置的多个第一语音片段。
上一步提取到目标人物存在说话动作时对应的多个嘴部图片后,根据这些图片的时序信息,找到视频中图片对应的位置,然后从视频中提取这些存在说话动作的图片对应的多个第一语音片段。
s29、基于人声检测模型,对多个所述第一语音片段进行人声检测,去除每个所述第一语音片段中的非人物声音部分,得到多个存在人物声音的第一目标语音片段。
在本发明实施例中,利用人声检测模型,判断提取到的每一个第一语音片段中是否存在非人物说话声音部分(可能是背景音乐等),若存在非人物说话声音部分,则去除此语音片段中非人物说话声音的部分,保留仅存在人物说话声音的部分,最终得到多个存在人物说话声音的第一目标语音片段。
s210、对多个所述第一目标语音片段进行性别一致化处理,去除与所述目标人物性别不一致的部分语音片段。
在本发明实施例中,利用人声性别模型判断存在人物说话声音的第一目标语音片段对应的声音性别,并与人脸特征模型识别到的人脸性别进行比对,去除语音片段对应的声音性别和人脸性别不一致的多个语音片段。
例如,若视频中有两个或多个不同性别的角色人物处于对话状态时,镜头给到的是目标人物,但目标人物此时并没有说话,而是另外的角色在说话,这就可能造成人声检测模型采集到的语音片段不是目标人物说的话,所以这一步是去除第一目标语音片段中与目标人物性别不一致的部分语音片段,最终得到目标人物的语音样本。
s211、基于人声检测从所述视频中提取多个第二语音片段,所述第二语音片段为所述视频中存在说话人声音的非第一语音片段。
在本发明实施例中,利用人声检测模型,按照时序信息从待识别的视频中提取所有包含人物说话声音的语音片段,这些语音片段包括显示人物说话画面和不显示人物说话画面的所有语音片段,根据第一语音片段的时序信息,从提取到的所有语音片段中,筛选出没有显示人物说话画面的第二语音片段。
s212、将多个所述第二语音片段输入至声纹模型中,得到多个所述第二语音片段对应的多个声音特征向量。
在本发明实施例中,将所有筛选出来的没有显示人物说话画面的语音片段输入到声纹模型中,声纹模型计算得到每个语音片段对应的声音特征向量。
s213、基于多个所述声音特征向量,确定与所述目标人物对应的至少一个第二目标语音片段。
在本发明实施例中,对比所有未显示人物说话画面的语音片段的声音特征向量和目标人物的语音样本的声音特征向量的相似度,找出未显示人物说话画面的语音片段中至少一个目标人物的语音片段。
s214、对多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量进行匹配,将多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量的相似度超过第二阈值的多个第二语音片段作为所述目标人物的第二目标语音片段。
在本发明实施例中,对比多个没有显示人物说话画面的语音片段的声音特征向量和目标人物的语音样本的声音特征向量的距离,将没有显示人物说话画面的语音片段的声音特征向量与所述目标人物的语音样本的声音特征向量的距离超过第二阈值(例如,0.95)的多个没有显示人物说话画面的语音片段作为所述目标人物在视频中的未显示说话画面的语音片段。
s215、将所述第一目标语音片段和所述第二目标语音片段按照时序信息合并成所述目标人物的目标语音片段集合。
按照时序信息,合并视频中显示目标人物说话画面的第一目标语音片段和没有显示目标人物说话画面的第二目标语音片段,作为目标人物的整个视频中的语音片段集合,由此,提取到目标人物对应的所有纯净语音片段后,可以方便后续用配音演员的语音将某个角色的所有语音进行全部替换等工作的进行。
本发明实施例提供的视频说话人的识别方法,确定视频中的目标人物,以及所述目标人物的身份信息;根据所述身份信息,按照时序信息从视频中提取包含有所述目标人物的一组人脸图片;从一组所述人脸图片中提取包含有所述目标人物嘴部的嘴部图片集;根据所述嘴部图片集,确定包含有所述目标人物存在说话动作的多个第一语音片段;对所述第一语音片段进行人声检测处理,得到所述目标人物对应的第一目标语音片段,由此方法,可以自动完成对整条视频中出现的人物的声音进行识别和分类,得到所有人物对应的所有语音片段集合,方便后续对某个角色人物的所有语音进行配音替换等工作。
图3为本发明实施例提供的一种视频说话人的识别装置的结构示意图,退包括:
识别模块301,用于确定视频中的目标人物,以及所述目标人物的身份信息;
获取模块302,用于根据所述身份信息,按照时序信息从视频中提取包含有所述目标人物的一组人脸图片;
所述获取模块302,还用于从一组所述人脸图片中提取包含有所述目标人物嘴部的嘴部图片集;
确定模块303,用于根据所述嘴部图片集,确定包含有所述目标人物存在说话动作的多个第一语音片段;
所述确定模块303,还用于对所述第一语音片段进行人声检测处理,得到所述目标人物对应的多个第一目标语音片段。
识别模块,具体用于采集视频中出现的多个人脸图像;提取多个所述人脸图像中对应的人脸特征;对多个所述人脸特征与数据库中存储的目标人脸特征进行匹配,将所述人脸特征与目标人脸特征的相似度超过第一阈值的人脸图像中的用户作为目标人物,以及根据所述目标人脸特征输出所述目标人物的身份信息。
获取模块,具体用于按照时序信息从视频对应的帧图像中出现的人物进行身份识别;确定出现所述身份信息对应所述目标人物的多个目标帧图像;从多个所述目标帧图像中提取包含有所述目标人物的一组人脸图片。
确定模块,具体用于根据时序信息依次对比所述嘴部图片集对应的嘴部特征关键点的相对位置变化,提取所述目标人物存在说话动作的多个嘴部图片;基于多个所述嘴部图片,从所述视频中提取多个所述嘴部图片对应位置的多个第一语音片段;基于人声检测模型,对多个所述第一语音片段进行人声检测,去除每个所述第一语音片段中的非人物声音部分,得到多个存在人物声音的第一目标语音片段。
在一个可能的实施方式中,所述确定模块,还用于对多个所述第一目标语音片段进行性别一致化处理,去除与所述目标人物性别不一致的部分语音片段。
在一个可能的实施方式中,所述确定模块,还用于基于人声检测从所述视频中提取多个第二语音片段,所述第二语音片段为所述视频中存在说话人声音的非第一语音片段;将多个所述第二语音片段输入至声纹模型中,得到多个所述第二语音片段对应的多个声音特征向量;基于多个所述声音特征向量,确定与所述目标人物对应的至少一个第二目标语音片段。
在一个可能的实施方式中,所述确定模块,还用于对多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量进行匹配,将多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量的相似度超过第二阈值的多个第二语音片段作为所述目标人物的第二目标语音片段。
在一个可能的实施方式中,所述确定模块,还用于将所述第一目标语音片段和所述第二目标语音片段按照时序信息合并成所述目标人物的目标语音片段集合。
本实施例提供的视频说话人的识别装置可以是如图3中所示的视频说话人的识别装置,可执行如图1-2中视频说话人的识别方法的所有步骤,进而实现图1-2所示视频说话人的识别方法的技术效果,具体请参照图1-2相关描述,为简洁描述,在此不作赘述。
图4为本发明实施例提供的一种计算机设备的结构示意图,图4所示的计算机设备400包括:至少一个处理器401、存储器402、至少一个网络接口404和其他用户接口403。计算设备400中的各个组件通过总线系统405耦合在一起。可理解,总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统405。
其中,用户接口403可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicram,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram,ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。本文描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器402存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统4021和应用程序4022。
其中,操作系统4021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序4022,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序4022中。
在本发明实施例中,通过调用存储器402存储的程序或指令,具体的,可以是应用程序4022中存储的程序或指令,处理器401用于执行各方法实施例所提供的方法步骤,例如包括:
确定视频中的目标人物,以及所述目标人物的身份信息;根据所述身份信息,按照时序信息从所述视频中提取包含有所述目标人物的一组人脸图片;从一组所述人脸图片中提取包含有所述目标人物嘴部的嘴部图片集;根据所述嘴部图片集,确定包含有所述目标人物存在说话动作的多个第一语音片段;对多个所述第一语音片段进行人声检测处理,得到所述目标人物对应的多个第一目标语音片段。
在一个可能的实施方式中,采集视频中出现的多个人脸图像;提取多个所述人脸图像中对应的人脸特征;对多个所述人脸特征与数据库中存储的目标人脸特征进行匹配,将所述人脸特征与目标人脸特征的相似度超过第一阈值的人脸图像中的人物作为目标人物,以及根据所述目标人脸特征输出所述目标人物的身份信息。
在一个可能的实施方式中,按照时序信息从视频对应的帧图像中出现的人物进行身份识别;确定出现所述身份信息对应所述目标人物的多个目标帧图像;从多个所述目标帧图像中提取包含有所述目标人物的一组人脸图片。
在一个可能的实施方式中,根据时序信息依次对比所述嘴部图片集对应的嘴部特征关键点的相对位置变化,提取所述目标人物存在说话动作的多个嘴部图片;基于多个所述嘴部图片,从所述视频中提取多个所述嘴部图片对应位置的多个第一语音片段;基于人声检测模型,对多个所述第一语音片段进行人声检测,去除每个所述第一语音片段中的非人物声音部分,得到多个存在人物声音的第一目标语音片段。
在一个可能的实施方式中,对多个所述第一目标语音片段进行性别一致化处理,去除与所述目标人物性别不一致的部分语音片段。
在一个可能的实施例中,基于人声检测从所述视频中提取多个第二语音片段,所述第二语音片段为所述视频中存在说话人声音的非第一语音片段;将多个所述第二语音片段输入至声纹模型中,得到多个所述第二语音片段对应的多个声音特征向量;基于多个所述声音特征向量,确定与所述目标人物对应的至少一个第二目标语音片段。
在一个可能的实施方式中,对多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量进行匹配,将多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量的相似度超过第二阈值的多个第二语音片段作为所述目标人物的第二目标语音片段。
在一个可能的实施方式中,将所述第一目标语音片段和所述第二目标语音片段按照时序信息合并成所述目标人物的目标语音片段集合。
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuits,asic)、数字信号处理器(digitalsignalprocessing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmablelogicdevice,pld)、现场可编程门阵列(field-programmablegatearray,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的计算机设备可以是如图4中所示的计算机设备,可执行如图1-2中视频说话人的识别方法的所有步骤,进而实现图1-2所示视频说话人的识别方法的技术效果,具体请参照图1-2相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在计算机设备侧执行的视频说话人的识别方法。
所述处理器用于执行存储器中存储的计算机程序,以实现以下在计算机设备侧执行的视频说话人的识别方法的步骤:
确定视频中的目标人物,以及所述目标人物的身份信息;根据所述身份信息,按照时序信息从所述视频中提取包含有所述目标人物的一组人脸图片;从一组所述人脸图片中提取包含有所述目标人物嘴部的嘴部图片集;根据所述嘴部图片集,确定包含有所述目标人物存在说话动作的多个第一语音片段;对多个所述第一语音片段进行人声检测处理,得到所述目标人物对应的多个第一目标语音片段。
在一个可能的实施方式中,采集视频中出现的多个人脸图像;提取多个所述人脸图像中对应的人脸特征;对多个所述人脸特征与数据库中存储的目标人脸特征进行匹配,将所述人脸特征与目标人脸特征的相似度超过第一阈值的人脸图像中的人物作为目标人物,以及根据所述目标人脸特征输出所述目标人物的身份信息。
在一个可能的实施方式中,按照时序信息从视频对应的帧图像中出现的人物进行身份识别;确定出现所述身份信息对应所述目标人物的多个目标帧图像;从多个所述目标帧图像中提取包含有所述目标人物的一组人脸图片。
在一个可能的实施方式中,根据时序信息依次对比所述嘴部图片集对应的嘴部特征关键点的相对位置变化,提取所述目标人物存在说话动作的多个嘴部图片;基于多个所述嘴部图片,从所述视频中提取多个所述嘴部图片对应位置的多个第一语音片段;基于人声检测模型,对多个所述第一语音片段进行人声检测,去除每个所述第一语音片段中的非人物声音部分,得到多个存在人物声音的第一目标语音片段。
在一个可能的实施方式中,对多个所述第一目标语音片段进行性别一致化处理,去除与所述目标人物性别不一致的部分语音片段。
在一个可能的实施例中,基于人声检测从所述视频中提取多个第二语音片段,所述第二语音片段为所述视频中存在说话人声音的非第一语音片段;将多个所述第二语音片段输入至声纹模型中,得到多个所述第二语音片段对应的多个声音特征向量;基于多个所述声音特征向量,确定与所述目标人物对应的至少一个第二目标语音片段。
在一个可能的实施方式中,对多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量进行匹配,将多个所述第二语音片段的声音特征向量与所述第一目标语音片段的声音特征向量的相似度超过第二阈值的多个第二语音片段作为所述目标人物的第二目标语音片段。
在一个可能的实施方式中,将所述第一目标语音片段和所述第二目标语音片段按照时序信息合并成所述目标人物的目标语音片段集合。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除