处理方法、处理装置、电子设备与流程

2021-01-28 15:01:43|

259|

起点商标网

本申请涉及音频处理技术领域，更具体而言，特别涉及一种处理方法、处理装置、电子设备。

背景技术：

在相关技术中，录制视频时通常也会录制音频。在场景比较复杂时，视频中的画面和音频中的声音都是多种多样的，因此，容易使得视频和对应的音频之间不匹配、不协调。

技术实现要素：

本申请的实施方式提供一种处理方法、处理装置、电子设备。

本申请的实施方式的处理方法包括：确定音频中的每一个声音与视频中的每一个对象的对应关系，根据所述对应关系确定感兴趣对象对应的感兴趣声音，增强所述感兴趣声音并减弱除所述感兴趣声音外的其他声音。

本申请的实施方式的处理装置包括第一确定模块、第二确定模块和处理模块。所述第一确定模块用于确定音频中的每一个声音与视频中的每一个对象的对应关系，所述第二确定模块用于根据所述对应关系确定感兴趣对象对应的感兴趣声音，所述处理模块用于增强所述感兴趣声音并减弱除所述感兴趣声音外的其他声音。

本申请的实施方式的电子设备包括处理器。所述处理器用于：确定音频中的每一个声音与视频中的每一个对象的对应关系，根据所述对应关系确定感兴趣对象对应的感兴趣声音，增强所述感兴趣声音并减弱除所述感兴趣声音外的其他声音。

本申请实施方式的处理方法、处理装置、电子设备通过增强感兴趣对象对应的感兴趣声音并减弱除感兴趣声音外的其他声音，能够重点突出感兴趣声音，从而能够使得音频与视频相匹配。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的处理方法的流程示意图；

图2是本申请某些实施方式的处理装置的示意图；

图3是本申请某些实施方式的电子设备的结构示意图；

图4和图5是本申请某些实施方式的处理方法的场景示意图；

图6至图11是本申请实施方式的处理方法的流程示意图；

图12是本申请某些实施方式的处理方法的场景示意图。

具体实施方式

下面详细描述本申请的实施方式，所述实施方式的实施方式在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

请参阅图1，本申请实施方式的处理方法包括：

01：确定音频中的每一个声音与视频中的每一个对象的对应关系；

02：根据对应关系确定感兴趣对象对应的感兴趣声音；

03：增强感兴趣声音并减弱除感兴趣声音外的其他声音。

请参阅图2，本申请实施方式的处理装置100包括第一确定模块10、第二确定模块20和处理模块30。本申请的处理方法可以由本申请实施方式的处理装置100实现，其中，步骤01可以由第一确定模块10实现，步骤02可以由第二确定模块20实现，步骤03可以由处理模块30实现，也即是说，第一确定模块10用于确定音频中的每一个声音与视频中的每一个对象的对应关系。第二确定模块20用于根据对应关系确定感兴趣对象对应的感兴趣声音。处理模块30用于增强感兴趣声音并减弱除感兴趣声音外的其他声音。

请参阅图3，本申请实施方式的电子设备1000包括处理器200。本申请实施方式的处理方法可以由本申请实施方式的电子设备1000实现，其中，步骤01、步骤02、步骤03均可以由处理器200实现，也即是说，处理器200可用于：确定音频中的每一个声音与视频中的每一个对象的对应关系；根据对应关系确定感兴趣对象对应的感兴趣声音；增强感兴趣声音并减弱除感兴趣声音外的其他声音。

处理器200可以是指驱动板。驱动板可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在某些实施方式中，电子设备1000包括成像元件300和声电元件400。成像元件300用于录制视频，声电元件400用于录制音频。其中，成像元件300可以是电荷耦合器件(chargecoupleddevice，ccd)，电荷耦合器件可以将图像光信号变为电信号，电荷耦合器件可以利用少数载流子的注入、存储和转移等物理过程来完成几种电路功能，电荷耦合器件具有体积小、重量轻、功耗低、可靠性好以及光谱响应宽等优点。声电元件400可以是声音传感器，声音传感器内置一个对声音敏感的电容式驻极体话筒，声波使话筒内的驻极体薄膜振动导致电容发生变化，而产生与之对应变化的微小电压，经过模拟讯号转换为数字讯号后被数据采集器接收。声音传感器在电子设备1000中可以用于录制音频。在某些实施方式中，电子设备1000包括显示屏，显示屏用于显示成像元件300录制的视频画面。

本申请实施方式的电子设备1000可以是配置有处理器200、成像元件300和声电元件400的终端设备。例如，电子设备1000可以包括智能手机、摄像机、平板电脑或其他支持音频处理的终端设备。

在相关技术中，录制视频时通常也会录制音频。在场景比较复杂时，视频中的画面和音频中的声音都是多种多样的，因此，容易形成视频和对应的音频之间不匹配、不协调等问题。为了解决这些问题，本申请公开的处理方法、处理装置100、电子设备1000通过增强感兴趣对象对应的感兴趣声音并减弱除感兴趣声音外的其他声音，能够重点突出感兴趣声音，从而能够使得音频与视频相匹配。

本申请实施方式的处理方法可以由本申请实施方式的处理装置100实现，也可以由本申请实施方式的电子设备1000实现。视频中的对象可以是人物、动物、植物等可以拍摄到并通过显示屏显示出来画面的对象，视频中的对象还可以是不能通过显示屏显示出画面但能够对画面产生影响的对象，例如：画面中有树枝摆动则认为风和树枝都是视频中的对象；音频中声音可以是视频对象发出的声音，音频中声音还可以是风、雷声等未拍摄出画面但可以录制出音频的声音。如图4所示，在一个实施例中，视频中的对象为对象a、对象b和对象c，对象a和对象b可以是视频中的狮子a和狮子b，对象c可以是风。音频中的声音为声音a、声音b和声音c，其中，声音a可以是狮子a发出的吼叫声，声音b可以是狮子b发出的吼叫声，声音c可以是风产生的场景噪音。首先，确定音频中的每一个声音与视频中的每一个对象的对应关系，例如：确定音频中声音a与狮子a为对应关系；声音b与狮子b为对应关系；声音c与风为对应关系。其次，可以根据对应关系确定感兴趣对象对应的感兴趣声音，例如：可以确定感兴趣对象为狮子a和感兴趣对象狮子b，感兴趣声音为感兴趣声音a和感兴趣声音b。最后，可以增强感兴趣声音并减弱除感兴趣声音外的其他声音，如图5所示，可以增强感兴趣声音a和感兴趣声音b的音量并减弱声音c的音量。可以通过增强感兴趣对象狮子a对应的感兴趣声音a、增强感兴趣对象狮子b对应的感兴趣声音b，同时减弱感兴趣声音a和感兴趣声音b外的声音c来重点突出感兴趣声音a和感兴趣声音b，从而能够使得音频与视频相匹配。

在某些实施方式中，对象与声音之间存在预设关系，请参阅图6，步骤01包括步骤：

011：根据预设关系确定音频中的每一个声音与视频中的每一个对象的对应关系。

在某些实施方式中，对象与声音之间存在预设关系，步骤011可以由处理装置100的第一确定模块10实现，也即是说，第一确定模块10用于根据预设关系确定音频中的每一个声音与视频中的每一个对象的对应关系。对象与声音的预设关系可以存储在存储元件内，处理装置100可以读取存储元件内的对象与声音的预设关系，第一确定模块10可以根据预设关系确定音频中的每一个声音与视频中的每一个对象的对应关系。

请再次参阅图3，在某些实施方式中，电子设备1000可以包括存储元件，存储元件可以是存储器，存储元件用于存储对象与声音的预设关系，步骤011可以由处理器200实现，也即是说，处理器200可用于根据预设关系确定音频中的每一个声音与视频中的每一个对象的对应关系。

具体地，在某些实施方式中，对象与声音之间存在预设关系。也即是说，存储元件内的对象与声音相互对应，例如：对象可以是人，对应的画面可以是人像，对应的声音可以是人讲话的声音，则人与人讲话的声音之间存在预设关系；对象可以是汽车，对应的画面可以是汽车的画面，对应的声音可以是汽车鸣笛的声音，则汽车与汽车鸣笛的声音之间存在预设关系。

在某些实施方式中，根据预设关系确定音频中的每一个声音与视频中的每一个对象的对应关系可以由人工智能(artificialintelligence，ai)机器学习技术中的神经网络结构实现。神经网络结构可以模拟人的神经网络。对神经网络结构进行操控训练后，神经网络结构可以将对象、声音和画面关联起来，并形成预设关系，根据预设关系即可确定音频中的每一个声音与视频中的每一个对象的对应关系。其中，对象可以包括视频中的每一个对象，声音可以包括音频中的每一个声音。根据预设关系确定音频中的每一个声音与视频中的每一个对象的对应关系，具体可以为：确定音频中的每一个声音，根据视频中的画面确定每一个对象，根据预设关系确定每一个声音所对应的对象或根据预设关系确定每一个对象所对应的声音，从而确定音频中的每一个声音与视频中的每一个对象的对应关系，例如：根据人与人讲话的声音之间存在的预设关系确定音频中人讲话的声音与视频中的人为对应关系。

在某些实施方式中，存储元件可以设置在处理装置100或者电子设备1000内，也可设置在云端服务器内，此时，处理装置100或者电子设备1000能够与云端服务器进行通讯来获取得到存储元件所存储的对象与声音。存储元件可以包括：能够存储对象与声音的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、以及软件分发介质等。

在某些实施方式中，在一个声音对应多个对象时，请参阅图7，步骤01还包括：

013：在一个声音对应多个对象时，根据多个对象的动作状态确定对应关系。

在某些实施方式中，步骤013可以由处理装置100的第一确定模块10实现，也即是说，第一确定模块10用于在一个声音对应多个对象时，根据多个对象的动作状态确定对应关系。

在某些实施方式中，电子设备1000包括处理器200，步骤013可以由处理器200实现，也即是说，处理器200可用于在一个声音对应多个对象时，根据多个对象的动作状态确定对应关系。

具体地，在某些实施方式中，存在一个声音对应多个对象的情况，可以根据多个对象的动作状态确定对应关系。在一个实施例中，音频中的声音可以是风扇的转动声音，视频中的对象可以是多个对象，其中，一个对象是处于静止状态的风扇，另一个对象是处于转动状态的风扇，则可以确定风扇的转动声音和转动状态的风扇为对应关系。在某些实施方式中，动作状态可以是人讲话时嘴巴的张合、摆动的树枝、瀑布激起的水花、桌案上弹起的乒乓球等动作状态，此处不做限定。

在某些实施方式中，请参阅图8，步骤02还包括：

021：确定视频中的对焦对象；

023：确定对焦对象为感兴趣对象。

在某些实施方式中，第二确定模块20包括第一确定单元和第二确定单元，步骤021可以由第一确定单元实现，步骤023可以由第二确定单元实现，也即是说，第一确定单元用于确定视频中的对焦对象。第二确定单元用于确定对焦对象为感兴趣对象。

在某些实施方式中，电子设备1000包括处理器200，步骤021和步骤023均可以由处理器200实现，也即是说，处理器200用于确定视频中的对焦对象；确定对焦对象为感兴趣对象。

具体地，通过对视频中的对象进行对焦可以获得该对象更清晰的画面，例如：用户在拍摄弱光环境对象、拍摄近距离对象和拍摄运动的对象时，对视频中的对象进行对焦可以获得更清晰的画面。同时，可以认为视频中用户对焦的对象是用户想要拍摄的主体和重点，非对焦对象可以作为拍摄的辅助和陪衬。通过对视频中的对象进行对焦可以确定视频中对象的主体和重点，使视频内容具有主次分明的效果，对视频中的对象进行对焦也可以更好地表达用户的拍摄内容。确定视频中的对焦对象后确定对焦对象为感兴趣对象，根据对应关系确定感兴趣对象对应的感兴趣声音，通过增强感兴趣对象对应的感兴趣声音并减弱除感兴趣声音外的其他声音，能够重点突出感兴趣声音，从而能够使得音频与视频相匹配。

在某些实施方式中，请参阅图9，步骤021包括：

0211：确定视频在录制过程中的对焦位置所对应的对象为对焦对象。

在某些实施方式中，步骤0211可以由第一确定单元实现，也即是说，第一确定单元用于确定视频在录制过程中的对焦位置所对应的对象为对焦对象。在某些实施方式中，视频在录制过程中可以通过对焦系统对视频中的某个位置进行对焦，第一确定单元可以读取视频在录制过程中的对焦位置(即为焦点的坐标信息)并确定对焦位置所对应的对象为对焦对象。

在某些实施方式中，电子设备1000包括处理器200，步骤0211可以由处理器200实现，也即是说，处理器200用于确定视频在录制过程中的对焦位置所对应的对象为对焦对象。在某些实施方式中，电子设备1000还可以包括对焦系统，对焦系统可以将视频在录制过程中的对焦位置(即为焦点的坐标信息)发送给处理器200，处理器200可以确定视频在录制过程中的对焦位置所对应的对象为对焦对象。

在某些实施方式中，对焦对象可以是用户手动选择的，用户可以选择视频中的一个或多个对象为对焦对象；对焦对象也可以是对焦系统自动选择的，对焦系统可以根据视频中的一个或多个对象的距离的远近、色彩的明暗等选择视频中的一个或多个对象为对焦对象。

在某些实施方式中，请参阅图10，步骤021还包括：

0213：处理视频以获得每一个对象的对比度；

0215：确定对比度大于预设对比度的对象为对焦对象。

在某些实施方式中，第一确定单元包括处理子单元和确定子单元，步骤0213可以由处理子单元实现，步骤0215可以由确定子单元实现，也即是说，处理子单元用于处理视频以获得每一个对象的对比度。确定子单元用于确定对比度大于预设对比度的对象为对焦对象。

在某些实施方式中，电子设备1000包括处理器200，步骤0213和步骤0215均可以由处理器200实现，也即是说，处理器200用于处理视频以获得每一个对象的对比度；确定对比度大于预设对比度的对象为对焦对象。

在某些实施方式中，处理装置100和电子设备1000可以处理已经完成录制的视频及音频内容，处理装置100和电子设备1000可以通过处理视频以获得每一个对象的对比度，确定对比度大于预设对比度的对象为对焦对象，确定对焦对象为感兴趣对象，根据对应关系确定感兴趣对象对应的感兴趣声音，最后增强感兴趣声音并减弱除感兴趣声音外的其他声音。在一个实施例中，如图5所示，首先，处理视频以获得每一个对象的对比度，可以确定对比度大于预设对比度的对象a和对象b为对焦对象，确定对焦对象a和对焦对象b为感兴趣对象a和感兴趣对象b，根据对应关系确定感兴趣对象a和感兴趣对象b对应的感兴趣声音a和感兴趣声音b，最后，可以增强感兴趣声音a和感兴趣声音b的音量并减弱声音c的音量。

在某些实施方式中，请参阅图11，步骤03还包括：

031：在不存在感兴趣声音时，减弱音频中的所有声音。

在某些实施方式中，步骤031可以由处理模块30实现，也即是说，处理模块30用于在不存在感兴趣声音时，减弱音频中的所有声音。

在某些实施方式中，电子设备1000包括处理器200，步骤031可以由处理器200实现，也即是说，处理器200用于在不存在感兴趣声音时，减弱音频中的所有声音。

在一个实施例中，请参阅图12，视频中的对象包括对象a、对象b、对象c和对象d，其中，对象a、对象b和对象d可以是视频中的狮子a、狮子b和狮子d，对象c可以是风。音频中的声音包括声音a、声音b和声音c，其中，声音a可以是狮子a发出的吼叫声，声音b可以是狮子b发出的吼叫声，声音c可以是风产生的场景噪音。首先，处理视频以获得每一个对象的对比度，可以确定对比度大于预设对比度的对象d为对焦对象，确定对焦对象d为感兴趣对象，由于狮子d处于安详的状态，即此时狮子d是不发声的，音频中不存在感兴趣声音，因此可以减弱声音a、声音b和声音c。可以通过减弱音频中的所有声音来重点突出视频中对象d的状态，能够更好的欣赏视频内容。

在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。