HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

获取目标声音的方法、装置、电子设备及存储介质与流程

2021-01-28 15:01:19|320|起点商标网
获取目标声音的方法、装置、电子设备及存储介质与流程

本发明涉及计算机技术领域,具体涉及一种获取目标声音的方法、装置和电子设备以及计算机存储介质。



背景技术:

目前机器发出人声的技术已经非常成熟,由于声音合成的效果很好,已经达到无法区分是真人说话还是机器说话,所以诞生了定制声音的需求,比如汽车导航时,发出的导航的声音的是自己亲人的声音,但是目前每完成一个目标人的声音合成模型,需要目标人在安静的环境中录音至少1000句,大约要说2-3小时,录音需求门槛较高,限制了定制声音的市场化推广。



技术实现要素:

为解决上述技术问题,本发明的一个目的在于提供一种获取目标声音的方法,该获取目标声音的方法,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。

本发明的另一个目的在于提供一种实现上述获取目标声音的方法的获取目标声音的装置。

为达到上述目的,本发明采用如下技术方案:

根据本发明第一方面实施例的获取目标声音的方法,包括:

获取音视频;

基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

优选地,所述音视频为录制完成的音视频,

所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:

对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据;

识别所述音视频中的视频流中的所有人脸特征;

根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系,进而获取目标人的人脸特征以及对应于目标人的声音数据。

优选地,所述对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据,具体包括:

对所述音视频中的音频流进行声音分离处理,得到包括多个单人声音的音频流;

对于包括多个单人声音的音频流中的各个音频流段分别提取声纹特征;

根据各个音频流段的声纹特征对所述音频流进行聚类处理,获得各个声纹特征对应的声音数据。

优选地,所述对所述音视频中的音频流进行声音分离处理之后还包括:

对所述音频流进行降噪处理。

优选地,所述音视频为实时录制的音视频,

所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:

识别获取的音视频段中的视频流中的所有人脸特征;

判断获取的所述音视频段中的音频流中是否有声音,当该音视频段中的音频流中有声音时,对该音视频段中的视频流进行识别获取说话人的人脸特征;

判断说话人是否为单人以及该音视频段中的音频流中的声音是否为单人声音;

当说话人为单人且该音视频段中的音频流中的声音为单人声音时,将该音视频段中的音频流中的声音数据与获取的说话人的人脸特征相对应;

当说话人为多人且该音视频段中的音频流中的声音为多人声音时,对该音视频段中的音频流进行分离处理得到包括多个单人声音的音频流,根据已获取的声音数据与人脸特征的对应关系,将能够与说话人的人脸特征相关联的该音视频段中的音频流中的声音数据与人脸特征相对应;

基于获取的各个音视频段获取目标人的人脸特征以及对应于目标人的声音数据。

优选地,所述对该音视频段中的视频流进行识别获取说话人的人脸特征,具体包括:

对该音视频段中的视频流进行识别获取说话人的人脸特征以及说话人所在的位置,并通过声源定位对说话人所在的位置进行确认。

根据本发明第二方面实施例的获取目标声音的装置,包括:

第一获取模块,用于获取音视频;

第二获取模块,用于基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

优选地,所述音视频为录制完成的音视频,所述第二获取模块具体用于,

对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据;

识别所述音视频中的视频流中的所有人脸特征;

根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系,进而获取目标人的人脸特征以及对应于目标人的声音数据。

根据本发明第三方面实施例的用于获取目标声音的电子设备,包括:

一个或多个处理器;

一个或多个存储器,其中存储了计算机可读代码,所述计算机可读代码当由所述一个或多个处理器执行时进行如下处理:

获取音视频;

基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

根据本发明第四方面实施例的计算机存储介质,其中存储了计算机可读代码,所述计算机可读代码当由一个或多个处理器执行时进行如下处理:

获取音视频;

基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

本发明的有益效果在于:

通过获取音视频,然后基于获取的音视频获取目标人的人脸特征以及对应于目标人的声音数据,该获取目标声音的方法,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明实施例的获取目标声音的一种应用场景示意图;

图2为本发明实施例的获取目标声音的方法的流程图;

图3为本发明实施例的获取目标声音的装置的结构示意图;

图4为本发明实施例的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例仅用于说明本发明,但不用来限制本发明的范围。

可以理解的是,如本文所使用的,术语“模块””可以指代或者包括专用集成电路(asic)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件,或者可以作为这些硬件组件的一部分。

可以理解的是,在本发明各实施例中,处理器可以是微处理器、数字信号处理器、微控制器等,和/或其任何组合。根据另一个方面,所述处理器可以是单核处理器,多核处理器等,和/或其任何组合。

如图1所示,根据本发明实施例的本申请技术方案的一种应用场景示意图,在汽车11导航时,用户希望发出的导航的声音的是自己亲人的声音,然而目前每完成一个目标人的声音合成模型,需要目标人在安静的环境中录音至少1000句,大约要说2-3小时,录音需求门槛较高,本发明的获取目标声音时,首先获取音视频,然后基于音视频获取目标人的人脸特征以及对应于目标人的声音数据,较为简单可行,且能够较为便利的获取目标声音。

如图2所示,根据本发明实施例的获取目标声音的方法,包括如下步骤:

步骤s1,获取音视频。

步骤s2,基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

优选地,所述音视频为录制完成的音视频,所述步骤s2具体包括:

步骤s21,对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据。

优选地,步骤s21具体包括:

步骤s211,对所述音视频中的音频流进行声音分离处理,得到包括多个单人声音的音频流。

具体地,对音视频中的音频流进行声音分离处理将音频流中重叠声音的部分进行声音分离,以得到包括多个单人声音的音频流。

优选地,所述对所述音视频中的音频流进行声音分离处理之后还包括:

对所述音频流进行降噪处理。

以便于确保得到的包括多个单人声音的音频流的声音质量。

步骤s212,对于包括多个单人声音的音频流中的各个音频流段分别提取声纹特征。

步骤s213,根据各个音频流段的声纹特征对所述音频流进行聚类处理,获得各个声纹特征对应的声音数据。

具体地,根据各个音频流段的声纹特征,将相同声纹特征的音频流段进行聚类,从而获得各个声纹特征对应的声音数据。

通过对音频流进行声音分离处理,然后对得到的包括多个单人声音的音频流进行聚类处理获得各个声纹特征对应的声音数据,以便于能够准确的获得各个声纹特征对应的声音数据。

步骤s22,识别所述音视频中的视频流中的所有人脸特征。

步骤s23,根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系,进而获取目标人的人脸特征以及对应于目标人的声音数据。

具体地,可以根据视频流识别到单人说话的图像,根据该单人说话的图像的时帧对应的音频流段,可以得到声纹特征和人脸特征的对应关系,进而根据前述获得的各个声纹特征对应的声音数据,得到目标人的人脸特征以及对应于目标人的声音数据。

具体地,音视频可以为家庭中用手机录制完成的音视频,音视频中的说话人主要是家庭成员因此说话人较为简单,可以基于该音视频获取目标人的人脸特征以及对应于目标人的声音数据,进而可以将目标人的人脸特征给用户确认是否利用该目标人的声音数据训练该目标人的声音合成模型。

由此,能够通过录制完成的音视频较为简单且准确的获取目标人的人脸特征以及对应于目标人的声音数据。

优选地,音视频为实时录制的音视频,所述步骤s2具体包括:

识别获取的音视频段中的视频流中的所有人脸特征。

具体地,识别获取的每个音视频段中的视频流中的所有人脸特征,并将识别得到的人脸特征加入人脸数据库中。

判断获取的音视频段中的音频流中是否有声音,当该音视频段中的音频流中有声音时,对该音视频段中的视频流进行识别获取说话人的人脸特征。

优选地,所述对该音视频段中的视频流进行识别获取说话人的人脸特征,具体包括:

对该音视频段中的视频流进行识别获取说话人的人脸特征以及说话人所在的位置,并通过声源定位对说话人所在的位置进行确认。

由此,便于确保了对该音视频段中的视频流进行识别获取的说话人的人脸特征的准确性。

判断说话人是否为单人以及该音视频段中的音频流中的声音是否为单人声音。

具体地,根据对该音视频段中的视频流进行识别获取的说话人的人脸特征判断说话人是否为单人,并判断该音视频段中的音频流中的声音是否为单人声音。

当说话人为单人且该音视频段中的音频流中的声音为单人声音时,将该音视频段中的音频流中的声音数据与获取的说话人的人脸特征相对应。

具体地,可以将该音视频段中的音频流中的声音数据进行降噪处理后加入到获取的说话人的人脸特征相对应的音频库中。

当说话人为多人且该音视频段中的音频流中的声音为多人声音时,对该音视频段中的音频流进行分离处理得到包括多个单人声音的音频流,根据已获取的声音数据与人脸特征的对应关系,将能够与说话人的人脸特征相关联的该音视频段中的音频流中的声音数据与人脸特征相对应。

具体地,当说话人为多人且该音视频段中的音频流中的声音为多人声音时,对该音视频段中的音频流通过声音分离技术进行分离处理,将音频流中重叠声音的部分进行声音分离,得到包括多个单人声音的音频流,可以对该包括多个单人声音的音频流进行降噪处理,根据该音视频段以前获取的音视频段得到的声音数据与人脸特征的对应关系,将能够与说话人的人脸特征相关联的该音视频段中的音频流中的声音数据与人脸特征相对应,例如,当说话人为两个人且该音视频段中的音频流中的声音为两人声音时,根据该音视频段以前获取的音视频段可以得到其中一个人的声纹特征与其人脸特征的对应关系,从而该音视频段中的音频流中的两个人的声音数据能够分别与其人脸特征相关联。

基于获取的各个音视频段获取目标人的人脸特征以及对应于目标人的声音数据。

具体地,该音视频可以为安装于汽车内的摄像头实时录制的音视频,安装于汽车内的摄像头通常安装于汽车的前方位置可以捕获汽车内的所有人,且不存在捕获范围以外人的声音,而且通常汽车内的人都是家庭成员,因此说话人较为简单,可以基于该实时录制的音视频获取目标人的人脸特征以及对应于目标人的声音数据,进而可以将获取的声音数据达到训练声音合成模型要求的目标人的人脸特征给用户确认是否利用该目标人的声音数据训练该目标人的声音合成模型。

由此,该通过实时录制的音视频获取目标人的人脸特征以及对应于目标人的声音数据的方法,能够较为简单、准确且快捷的获取目标人的人脸特征以及对应于目标人的声音数据。

通过获取音视频,然后基于获取的音视频获取目标人的人脸特征以及对应于目标人的声音数据,该获取目标声音的方法,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。

如图3所示,实现上述根据发明实施例的获取目标声音的方法的根据本发明实施例的获取目标声音的装置,包括第一获取模块20和第二获取模块30。

其中,第一获取模块20,用于获取音视频。

第二获取模块30,用于基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

通过获取音视频,然后基于获取的音视频获取目标人的人脸特征以及对应于目标人的声音数据,该获取目标声音的装置,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。

优选地,所述音视频为录制完成的音视频,所述第二获取模块30具体用于,

对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据;

识别所述音视频中的视频流中的所有人脸特征;

根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系,进而获取目标人的人脸特征以及对应于目标人的声音数据。

如图4所示,基于与上述获取目标声音的方法相同的发明构思,本申请还提供一种电子设备1400,该电子设备1400包括一个或多个处理器1401和一个或多个存储器1402,存储器1402中存储了计算机可读代码,

其中,计算机可读代码当由一个或多个处理器1401执行时进行如下处理:

获取音视频;

基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

优选地,所述音视频为录制完成的音视频,

所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:

对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据;

识别所述音视频中的视频流中的所有人脸特征;

根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系,进而获取目标人的人脸特征以及对应于目标人的声音数据。

优选地,所述对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据,具体包括:

对所述音视频中的音频流进行声音分离处理,得到包括多个单人声音的音频流;

对于包括多个单人声音的音频流中的各个音频流段分别提取声纹特征;

根据各个音频流段的声纹特征对所述音频流进行聚类处理,获得各个声纹特征对应的声音数据。

优选地,所述对所述音视频中的音频流进行声音分离处理之后还包括:

对所述音频流进行降噪处理。

优选地,所述音视频为实时录制的音视频,

所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:

识别获取的音视频段中的视频流中的所有人脸特征;

判断获取的所述音视频段中的音频流中是否有声音,当该音视频段中的音频流中有声音时,对该音视频段中的视频流进行识别获取说话人的人脸特征;

判断说话人是否为单人以及该音视频段中的音频流中的声音是否为单人声音;

当说话人为单人且该音视频段中的音频流中的声音为单人声音时,将该音视频段中的音频流中的声音数据与获取的说话人的人脸特征相对应;

当说话人为多人且该音视频段中的音频流中的声音为多人声音时,对该音视频段中的音频流进行分离处理得到包括多个单人声音的音频流,根据已获取的声音数据与人脸特征的对应关系,将能够与说话人的人脸特征相关联的该音视频段中的音频流中的声音数据与人脸特征相对应;

基于获取的各个音视频段获取目标人的人脸特征以及对应于目标人的声音数据。

优选地,所述对该音视频段中的视频流进行识别获取说话人的人脸特征,具体包括:

对该音视频段中的视频流进行识别获取说话人的人脸特征以及说话人所在的位置,并通过声源定位对说话人所在的位置进行确认。

进一步地,电子设备1400还包括网络接口1403、输入设备1404、硬盘1405、和显示设备1406。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器1401代表的一个或者多个中央处理器(cpu),以及由存储器1402代表的一个或者多个存储器1402的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。

网络接口1403,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,并可以保存在硬盘1405中。

输入设备1404,可以接收操作人员输入的各种指令,并发送给处理器1401以供执行。输入设备1404可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

显示设备1406,可以将处理器1401执行指令获得的结果进行显示。

存储器1402,用于存储操作系统14021运行所必须的程序和数据,以及处理器1401计算过程中的中间结果等数据。

可以理解,本申请实施例中的存储器1402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高速缓存。本文描述的装置和方法的存储器1402旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器1402存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统14021和应用程序14014。

其中,操作系统14021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序14014,包含各种应用程序,例如浏览器(browser)等,用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序14014中。

本申请上述实施例揭示的方法可以应用于处理器1401中,或者由处理器1401实现。处理器1401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1401可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1402,处理器1401读取存储器1402中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本申请实施例中,该电子设备1400通过获取音视频,然后基于获取的音视频获取目标人的人脸特征以及对应于目标人的声音数据,该用于获取目标声音的电子设备,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。

另外,本申请实施例还提供了一种计算机存储介质,所述计算机存储介质存储了计算机可读代码,计算机可读代码当由一个或多个处理器执行时进行如下处理:

获取音视频;

基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

该计算机可读代码被处理器执行时实现上述获取目标声音的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再对详细的过程进行赘述。其中,所述的计算机存储介质,如只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等。

在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips