HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

变声处理方法、装置、设备及可读存储介质与流程

2021-01-28 14:01:44|301|起点商标网
变声处理方法、装置、设备及可读存储介质与流程

本申请实施例涉及音频处理领域,特别涉及一种变声处理方法、装置、设备及可读存储介质。



背景技术:

变声功能是一种对语音音频进行变声处理,得到具有特定特点的变声音频的功能,如:用户a录制语音音频后,对语音音频进行变声处理后,得到与动漫人物b对应的变声音频,也即,将用户a的语音音频中的语音内容,变声为动漫人物b表述的内容。

相关技术中,当应用程序中需要实现变声功能时,需要为应用程序搭建服务器后端,并在服务器中设置变声模块,从而服务器接收终端应用程序发送的语音音频后,对语音音频进行变声处理。

然而,通过上述方式进行变声处理时,需要对后端进行开发,以及处理服务器的运维,耗费较多的人力资源和服务器资源,变声功能的实现效率较低。



技术实现要素:

本申请实施例提供了一种变声处理方法、装置、设备及可读存储介质,能够提高变声功能的实现效率。所述技术方案如下:

一方面,提供了一种变声处理方法,应用于云服务器中,所述方法包括:

接收语音音频和变声参数,所述语音音频为待进行变声处理的音频,所述变声参数用于指示所述语音音频的变声目标;

获取与所述语音音频对应的变声云函数,所述变声云函数为所述云服务器中存储的用于提供变声计算服务的函数,所述云服务器中包括至少两个云函数,且所述至少两个云函数在所述云服务器中并行处理,所述变声云函数与所述语音音频的上传通道对应;

将所述语音音频和所述变声参数代入所述变声云函数,通过所述变声云函数对所述语音音频进行变声处理,得到变声音频,所述变声音频的音频特征符合所述变声参数所对应的所述变声目标。

另一方面,提供了一种变声处理装置,所述装置包括:

接收模块,用于接收语音音频和变声参数,所述语音音频为待进行变声处理的音频,所述变声参数用于指示所述语音音频的变声目标;

获取模块,用于获取与所述语音音频对应的变声云函数,所述变声云函数为所述云服务器中存储的用于提供变声计算服务的函数,所述云服务器中包括至少两个云函数,且所述至少两个云函数在所述云服务器中并行处理,所述变声云函数与所述语音音频的上传通道对应;

处理模块,用于将所述语音音频和所述变声参数代入所述变声云函数,通过所述变声云函数对所述语音音频进行变声处理,得到变声音频,所述变声音频的音频特征符合所述变声参数所对应的所述变声目标。

另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的变声处理方法。

另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的变声处理方法。

另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的变声处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

在需要对语音音频进行变声处理时,将语音音频上传至云服务器中,由云服务器对语音音频进行变声处理,由于云服务器中存储的变声云函数为直接在云服务器中运行的,无状态的、短暂的、由事件触发的代码的函数,避免通过搭建物理服务器以及对服务器进行运维而导致变声处理效率较低的问题,提高了变声处理的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的应用场景的界面示意图;

图2是本申请一个示例性实施例提供的实施环境示意图;

图3是本申请一个示例性实施例提供的变声处理方法的流程图;

图4是基于图3示出的实施例提供的终端交互侧的语音音频上传过程流程图;

图5是基于图3示出的实施例提供的h5页面本地完成音频变声的过程示意图;

图6是本申请另一个示例性实施例提供的变声处理方法的流程图;

图7是基于图6示出的实施例提供的音频解码过程的示意图;

图8是基于图6示出的实施例提供的由云服务器实现音频变声处理的过程示意图;

图9是本申请另一个示例性实施例提供的变声处理方法的流程图;

图10是基于图9示出的实施例提供的变声处理过程的示意图;

图11是本申请一个示例性实施例提供的变声处理装置的结构框图;

图12是本申请另一个示例性实施例提供的变声处理装置的结构框图;

图13是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

首先,针对本申请实施例中涉及的名词进行简单介绍:

云技术(cloudtechnology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。技术网络系统的后台服务需要大量的计算、存储资源,示意性的,双录视频的质检过程中,需要对双录视频进行存储、对双录视频中的不同关键视频片段进行人工智能(artificialintelligence,ai)计算。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

云计算(cloudcomputing):是指互联网技术(internettechnology,it)基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是it和软件、互联网相关,也可是其他服务。云计算是网格计算(gridcomputing)、分布式计算(distributedcomputing)、并行计算(parallelcomputing)、效用计算(utilitycomputing)、网络存储(networkstoragetechnologies)、虚拟化(virtualization)、负载均衡(loadbalance)等传统计算机和网络技术发展融合的产物。

云函数:用于提供一种直接在云服务器中运行的,无状态的、短暂的、由事件触发的代码的能力。无服务器架构(serverless),又称为轻服务,其中包括函数及服务(functionasaservice,faas),其用于提供计算能力。原有计算能力,无论实现在容器中还是虚拟机上,都需要承载在操作系统之上,而faas将计算能力抽象化。云函数,就是faas模式的具体实现。

云函数具有如下特点:1、零运维,即不再需要管理底层资源的服务器;2、秒级部署,运行无状态,实现快速迭代;3、自动触发,也即完全由事件触发,空闲时无资源运行;4、聚焦代码逻辑,开发者只需要确定最核心的代码片段;5、无穷弹性计算能力,根据请求自动平行调整服务资源。

云开发:是指弱化后端和运维概念,无需搭建服务器,使用平台提供的应用程序接口(applicationprogramminginterface,api)进行核心业务开发,即可实现快速上线和迭代。

结合上述名词简介,对本申请实施例中涉及的应用场景进行介绍说明。

示意性的,请参考图1,在超文本标记语言(hypertextmarkuplanguage5,h5)页面100中显示有录音控件110,当接收到在录音控件110上的长按操作时,调用h5页面的麦克风进行语音音频的录制,并在录制过程中进行音频内容的识别,当识别的音频内容符合内容要求时,显示变声页面120,变声页面120中包括变声选项130,当接收到在变声选项130上的选择操作并点击确认控件140时,终端将语音音频发送至云服务器中,云服务器中包括变声云函数,通过该变声云函数对语音音频以及变声选项130对应的变声参数进行变声处理,并将处理得到的变声音频反馈至终端。

结合上述名词简介,对本申请实施例的实施环境进行说明。

示意性的,请参考图2,该实施环境中包括终端210、服务器220和通信网络230;

其中,终端210中安装有应用程序,能够打开h5页面;或,终端210中安装有宿主应用程序,且宿主应用程序中提供有子应用程序(如:小程序)。当用户h5页面或小程序中进行音频录制,得到语音音频时,终端210将语音音频上传至服务器220。

服务器220中提供有变声云函数,通过该变声云函数对语音音频进行处理后,得到变声音频,并将变声音频反馈至终端210进行播放。

值得注意的是,上述服务器是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdeliverynetwork,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

示意性的,以本申请实施例中提供的变声处理方法应用于云服务器中为例,云计算(cloudcomputing)是指互联网技术(internettechnology,it)基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是it和软件、互联网相关,也可是其他服务。云计算是网格计算(gridcomputing)、分布式计算(distributedcomputing)、并行计算(parallelcomputing)、效用计算(utilitycomputing)、网络存储(networkstoragetechnologies)、虚拟化(virtualization)、负载均衡(loadbalance)等传统计算机和网络技术发展融合的产物。

示意性的,本申请实施例中,不同变声处理的计算,通过并行计算方式进行并行处理,提高了变声处理的处理效率。

随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

结合上述名词简介和实施环境,对本申请实施例中提供的变声处理方法进行说明,图3是本申请一个示例性实施例提供的变声处理方法的流程图,以该方法应用于云服务器中为例进行说明,该方法包括:

步骤301,接收语音音频和变声参数。

语音音频为待进行变声处理的音频,变声参数用于指示语音音频的变声目标。

其中,语音音频的获取方式包括如下情况中的任意一种:

第一,终端界面中显示有录音控件,通过在录音控件上进行选择操作,进行语音音频的录制,并将录制得到的语音音频上传至云服务器中;

第二,终端界面中显示有第一选择控件,当接收到在第一选择控件上的选择操作时,显示终端本地的音频文件列表,接收在语音音频上的选择操作后,将被选择的语音音频上传至云服务器中;

第三,终端界面中显示有第二选择控件,当接收到在第二选择控件上的选择操作时,显示网页中提供的音频文件列表,接收在语音音频上的选择操作后,将被选择的语音音频上传至云服务器中。

变声参数的获取方式包括如下情况中的任意一种:

第一,终端界面中显示有变声选项,每个变声选项代表一种具有代表性的语音音色,如:女孩、男孩、壮汉等,接收在变声选项上的选择操作后,将被选择的变声选项对应的变声参数发送至云服务器;

第二,终端界面中显示有参数设置区域,参数设置区域中包括对各个变声参数进行设置的子区域,在每个子区域中对参数进行设置后,得到变声参数,仅将变声参数发送至云服务器。

可选地,云服务器接收终端通过h5页面上传的语音音频和变声参数;或,云服务器接收终端通过小程序界面上传的语音音频和变声参数。

其中,语音音频为终端在确定语音音频的音频内容符合要求内容时,向云服务器上传的音频。示意性的,要求内容为“和平精英,生日快乐”,则在录制得到语音音频后,对语音音频进行内容识别,并在识别得到的内容为“和平精英,生日快乐”时,将语音音频上传至云服务器。

步骤302,获取与语音音频对应的变声云函数,变声云函数为云服务器中存储的用于提供变声计算服务的函数。

云函数用于提供一种直接在云服务器中运行的,无状态的、短暂的、由事件触发的代码的能力。serverless中包括函数及服务faas,其用于提供计算能力。云函数,就是faas模式的具体实现。

云服务器中包括至少两个云函数,且至少两个云函数在云服务器中并行处理,变声云函数与语音音频的上传通道对应。

可选地,云服务器中包括多个并行计算的云函数,可以对应相同的功能,也可以对应不同的功能。示意性的,云服务器中包括n个并行计算的变声云函数,在一些实施例中,并行计算的变声云函数分别对应不同的上传通道,如:通过h5页面上传的语音音频对应变声云函数a,通过小程序界面上传的语音音频对应变声云函数b。在一些实施例中,不同上传通道的语音音频对应同一个变声云函数。

当并行计算的变声云函数分别对应不同的上传通道时,首先确定终端上传语音音频和变声参数的上传通道,并确定与上传通道对应的变声云函数。

示意性的,请参考图4,其示出了终端交互侧的语音音频上传过程流程图,如图4所示,该过程中包括:

步骤401,点击开始录音。也即接收在终端界面上对录音控件的选择操作,从而调用麦克风开启录音。步骤402,实时录音识别。对实时录音内容进行识别,确定语音音频的音频内容,如:将语音音频进行文本转换处理,得到语音音频对应的文本内容作为音频内容。步骤403,判断文本是否与要求内容一致。将识别得到的文本内容与要求内容进行匹配。步骤404,当文本内容与要求内容一致时,弹出变声弹窗。在终端界面中显示变声选项,变声选项对应目标变声效果对应的选项。示意性的,变声选项中包括:女孩选项、男孩选项、哆啦a梦选项等。步骤405,选择变声类型。在变声选项中选择需要变声的变声类型,也即目标变声效果。步骤406,生成变声收听。即向云服务器发送语音音频以及变声参数后,接收云服务器反馈的变声音频,并播放该变声音频。步骤407,分享变声后声音页面。也即,将变声音频以声音页面的形式作为用户原创内容(usergeneratedcontent,ugc)分享至聊天对话中;或,内容分享平台中。步骤408,当文本内容与要求内容不一致时,重新录音得到语音音频。

步骤303,将语音音频和变声参数代入变声云函数,通过变声云函数对语音音频进行变声处理,得到变声音频。

可选地,在通过变声云函数对语音音频进行变声处理时,首先需要通过变声云函数确定与变声参数对应的失真代码曲线,该失真代码曲线对应变声参数的失真效果,向语音音频中加入失真代码曲线,从而得到变声音频。变声音频的音频特征符合变声参数所对应的变声目标。

可选地,云函数将语音音频存档转换成二进制数据,通过波形识别、特征识别等判断语音音频的性别、粗犷度等。通常,男性的基音频率约为50hz~250hz,女性的基音频率约为:100hz~500hz,通过计算语音音频的基音值判断录制语音音频的用户的性别。云函数识别得到语音音频对应的用户性别后,基于用户性别进行变声处理;和/或,将识别得到的用户性别反馈至终端进行展示。

可选地,基于语音音频的基音值以及变声参数对语音音频进行变声处理。

值得注意的是,上述实施例中,以h5页面和小程序界面将语音音频发送至云服务器进行变声处理为例进行说明,在一些实施例中,当h5页面本身支持变声功能时,h5页面也能够在本地实现变声处理。

示意性的,请参考图5,其示出了本申请一个示例性实施例提供的h5页面本地实现变声的过程示意图,如图5所示,该过程中包括:

步骤501,浏览器提示麦克风输入。

用户在h5页面上选择录音控件进行语音音频的录制,从而浏览器需要获取麦克风权限。

步骤502,判断用户是否开启麦克风权限。

该麦克风权限即用于在h5界面上调用麦克风进行语音音频的录制。

步骤503,当用户开启麦克风权限时,创建audiocontext对象。

即根据用户录制的语音音频创建对应的audiocontext对象,该audiocontext对象用于指示用户录制的语音音频。

步骤504,将麦克风获取的mediasteam流连接到音频源。

也即,获取语音音频流。

步骤505,创建和连接javascript运行环境。

步骤506,监听音频录制事件。

也即,实时获取音频录制事件对应的音频流。

步骤507,获取并保存麦克风音频流至缓存区。

步骤508,结束录制。

步骤509,将保存的缓存区文件编码成wav格式的音频文件。

步骤510,读取wav格式文件。

步骤511,根据变声参数进行音频变声。

步骤512,获取变声后的音频文件。

综上所述,本申请实施例提供的变声处理方法,在需要对语音音频进行变声处理时,将语音音频上传至云服务器中,由云服务器对语音音频进行变声处理,由于云服务器中存储的变声云函数为直接在云服务器中运行的,无状态的、短暂的、由事件触发的代码的函数,避免通过搭建物理服务器以及对服务器进行运维而导致变声处理效率较低的问题,提高了变声处理的效率。

本实施例提供的方法,通过h5页面或小程序界面上传语音音频和变声参数,也即,将语音变声处理应用于h5页面或小程序中,基于h5页面和小程序的适应性,语音变声处理功能在多种平台中都能够运行,页面传播量大,推广效果较为显著。示意性的,h5页面在浏览器应用程序、即时通讯应用程序、游戏应用程序等多种支持浏览器调用的应用程序中皆能够打开并应用,提高了语音变声处理功能的应用广泛程度。

在一个可选的实施例中,对语音音频进行解码后,向其加入失真代码曲线,图6是本申请另一个示例性实施例提供的变声处理方法的流程图,以该方法应用于云服务器中为例进行说明,如图6所示,该方法包括:

步骤601,接收语音音频和变声参数。

语音音频为待进行变声处理的音频,变声参数用于指示语音音频的变声目标。

可选地,云服务器接收终端通过h5页面上传的语音音频和变声参数;或,云服务器接收终端通过小程序界面上传的语音音频和变声参数。

其中,语音音频为终端在确定语音音频的音频内容符合要求内容时,向云服务器上传的音频。

步骤602,获取与语音音频对应的变声云函数,变声云函数为云服务器中存储的用于提供变声计算服务的函数。

可选地,云服务器中包括多个并行计算的云函数,可以对应相同的功能,也可以对应不同的功能。示意性的,云服务器中包括n个并行计算的变声云函数,在一些实施例中,并行计算的变声云函数分别对应不同的上传通道;在另一些实施例中,不同上传通道的语音音频对应同一个变声云函数。

当并行计算的变声云函数分别对应不同的上传通道时,首先确定终端上传语音音频和变声参数的上传通道,并确定与上传通道对应的变声云函数。

步骤603,对语音音频进行音频解码,得到音频源文件。

可选地,首先将音频源文件转换为二进制数据。

可选地,在对音频解码时,请参考如图7所示的过程,该过程中包括:

步骤701,云函数中下载音频内容。也即,云函数从缓存区中下载语音音频。步骤702,采用解码脚本文件对语音音频进行解码。步骤703,解码后获取声道数目和采样率。其中,声道数目表示声音的通道的数目,采样率表示每秒钟取得声音样本的次数。步骤704,将解码的二维数组数据拼接为一维数据。步骤705,将一维数据拼接得到audiobuffer格式。

步骤604,通过变声云函数确定与变声参数对应的失真代码曲线。

可选地,通过变声云函数,根据变声参数以及语音音频本身的基因值,确定失真代码曲线。

步骤605,向音频源文件加入失真代码曲线,得到变声音频。

可选地,将音频源文件转换为二进制数据后,将二进制数据转换为波形曲线,并加入失真代码曲线,得到变声音频。变声音频的音频特征符合变声参数所对应的变声目标。

示意性的,本申请实施例中,h5页面和小程序界面都通过将语音音频上传至云服务器中,由云服务器实现音频变声处理的过程,请参考图8,该过程中包括:

步骤801,点击麦克风按钮。

用户在用户界面上点击麦克风按钮,以触发通过麦克风进行语音音频的录制。示意性的,用户在h5页面上选择录音控件进行语音音频的录制。

步骤802,判断用户是否开启麦克风权限。

该麦克风权限即用于在界面上调用麦克风进行语音音频的录制。可选地,当浏览器或应用程序需要调用终端麦克风进行语音录制时,首先需要获取调用麦克风的权限。

步骤803,当用户开启麦克风权限时,确定录音过程识别文本正确。

也即,判断识别得到的文本内容是否符合文本要求。示意性的,要求文本格式为“名字a,生日快乐”,其中,名字a为任意填充的内容,也即,当文本内容中包括如“朋友,生日快乐”的内容,即符合文本要求。

步骤804,监听录音事件。

也即,对终端麦克风的对语音音频的录制过程进行监听,实时获取录制得到的音频流。

步骤805,获得录音文件。

可选地,当音频录制过程结束,且录音内容符合要求内容时,获取录制得到的语音音频文件。

步骤806,将语音音频上传至云服务器中进行存储。

将语音音频文件上传至云服务器中的缓存区中进行缓存。

步骤807,将语音音频输入云函数中进行变声处理。

可选地,云函数用于提供一种直接在云服务器中运行的,无状态的、短暂的、由事件触发的代码的能力。将语音音频和变声参数输入云函数后,通过云函数对语音音频进行变声处理。

步骤808,将语音音频的mp3文件进行解码。

可选地,该解码过程请参考如图7所示的过程。

步骤809,根据变声参数进行音频变声。

步骤810,获取变声后的音频文件。

可选地,变声后的音频文件存储格式包括如下情况中的任意一种:

第一,变声后的音频文件使用wav格式存储,即不进行mp3编码存储,云函数运行时间在800ms-1500ms之间,存储的wav文件在200kb到400kb,音频文件在60万条的情况下,存储消耗在171g左右;

第二,变声后的音频文件使用mp3编码存储:云函数运行时间在1500ms-2500ms之间,存储的mp3文件在20kb到40kb,音频文件在60万条的情况下,存储消耗在17g左右。

综上所述,本申请实施例提供的变声处理方法,在需要对语音音频进行变声处理时,将语音音频上传至云服务器中,由云服务器对语音音频进行变声处理,由于云服务器中存储的变声云函数为直接在云服务器中运行的,无状态的、短暂的、由事件触发的代码的函数,避免通过搭建物理服务器以及对服务器进行运维而导致变声处理效率较低的问题,提高了变声处理的效率。

本实施例提供的方法,通过失真代码曲线将变声效果增加至语音音频中,从而实现对语音音频的变声处理,提高了语音音频的变声处理效率以及变声处理准确率。

在一个可选的实施例中,在音频源文件需要进行滤波器进行滤波,图9是本申请另一个示例性实施例提供的变声处理方法的流程图,以该方法应用于云服务器中为例进行说明,如图9所示,该方法包括:

步骤901,接收语音音频和变声参数。

语音音频为待进行变声处理的音频,变声参数用于指示语音音频的变声目标。

可选地,云服务器接收终端通过h5页面上传的语音音频和变声参数;或,云服务器接收终端通过小程序界面上传的语音音频和变声参数。

其中,语音音频为终端在确定语音音频的音频内容符合要求内容时,向云服务器上传的音频。

步骤902,获取与语音音频对应的变声云函数,变声云函数为云服务器中存储的用于提供变声计算服务的函数。

可选地,云服务器中包括多个并行计算的云函数,可以对应相同的功能,也可以对应不同的功能。示意性的,云服务器中包括n个并行计算的变声云函数,在一些实施例中,并行计算的变声云函数分别对应不同的上传通道;在另一些实施例中,不同上传通道的语音音频对应同一个变声云函数。

当并行计算的变声云函数分别对应不同的上传通道时,首先确定终端上传语音音频和变声参数的上传通道,并确定与上传通道对应的变声云函数。

步骤903,对语音音频进行音频解码,得到音频源文件。

可选地,首先将音频源文件转换为二进制数据。

将解码得到的二维数组数据,拼接得到一维数据后,将一维数据拼接成audiobuffer格式。

步骤904,通过变声云函数确定与变声参数对应的失真代码曲线。

可选地,通过变声云函数,根据变声参数以及语音音频本身的基因值,确定失真代码曲线。

步骤905,将音频源文件连接低通滤波器。

低通滤波器用于过滤第一频率范围内的高频。可选地,音频源文件连接单个低通滤波器进行滤波;或,音频源文件连接多个低通滤波器进行滤波。

步骤906,通过低通滤波器过滤音频源文件中第一频率范围内的音频。

示意性的,以音频源文件连接单个低通滤波器进行滤波为例进行说明,将音频源文件连接低通概率器,阻隔减弱1300以上的高频。也即第一频率范围为1300以上。

步骤907,向音频源文件加入失真代码曲线,得到变声音频。

步骤908,将变声音频连接滤波器。

可选地,变声音频连接的滤波器包括高通滤波器和低通滤波器中的至少一种。本申请实施例中,以变声音频连接高通滤波器和低通滤波器为例进行或说明。其中,变声音频所连接的高通滤波器可以是单个,也可以是多个,当变声音频连接多个高通滤波器时,多个高通滤波器的滤波频率相同或不同;变声音频所连接的低通滤波器可以是单个,也可以是多个,当变声音频连接多个低通滤波器时,多个低通滤波器的滤波频率相同或不同。

步骤909,通过低通滤波器过滤变声音频中第二频率范围内的音频。

示意性的,以变声音频依次经过低通滤波器、低通滤波器、高通滤波器、高通滤波器进行滤波为例进行说明,两个低通滤波器的滤波频率相同,两个高通滤波器的滤波频率相同。示意性的,变声音频首先连接低通滤波器,阻隔减弱2000以上的高频,再通过低通滤波器,再次进行阻隔减弱2000以上的高频;从而连接高通滤波器,阻隔减弱500以下的低频,在通过高通滤波器,再次阻隔减弱500以下的低频。

示意性的,请参考图10,在音频变声的过程中包括如下过程:

步骤1001,对语音音频进行解码,存储在缓存区中。

步骤1002,创建audiocontext对象。

即根据用户录制的语音音频创建对应的audiocontext对象,该audiocontext对象用于指示用户录制的语音音频。

步骤1003,获取音频源文件。

可选地,对语音音频进行解码后,得到音频源文件,在进行变声处理时,基于音频源文件进行处理。

步骤1004,连接低通滤波器,阻隔减弱1300以上的高频。

本实施例中,以连接单个低通滤波器对音频源文件进行滤波为例进行说明。

步骤1005,加入失真代码曲线增加失真效果。

可选地,该失真效果为与变声参数对应的效果。

步骤1006,连接低通滤波器,阻隔减弱2000以上的高频。

步骤1007,连接低通滤波器,阻隔减弱2000以上的高频。

值得注意的是,上述步骤1006和步骤1007中,通过两次低通滤波器阻隔减弱2000以上的高频,该高频取值为预先设定的。且本实施例中,以两次低通滤波器的滤波频率一致为例进行说明,在一些实施例中,两次低通滤波器的滤波频率不同。

步骤1008,连接高通滤波器,阻隔减弱500以下的低频。

步骤1009,连接高通滤波器,阻隔减弱500以下的低频。

值得注意的是,上述步骤1008和步骤1009中,通过两次高通滤波器阻隔减弱500以下的低频,该低频取值为预先设定的。且本实施例中,以两次高通滤波器的滤波频率一致为例进行说明,在一些实施例中,两次高通滤波器的滤波频率不同。

步骤1010,压缩应用的音频信号。

也即,对变声音频进行压缩编码。

步骤1011,变声音频播放。

综上所述,本申请实施例提供的变声处理方法,在需要对语音音频进行变声处理时,将语音音频上传至云服务器中,由云服务器对语音音频进行变声处理,由于云服务器中存储的变声云函数为直接在云服务器中运行的,无状态的、短暂的、由事件触发的代码的函数,避免通过搭建物理服务器以及对服务器进行运维而导致变声处理效率较低的问题,提高了变声处理的效率。

本实施例提供的方法,通过低通滤波器对音频源文件进行滤波处理,以及通过高通滤波器对变声音频进行滤波处理,提高了音频文件的变声质量,避免变声音频中存在较多杂音。

图11是本申请一个示例性实施例提供的变声处理装置的结构框图。如图11所示,该装置包括:

接收模块1110,用于接收语音音频和变声参数,所述语音音频为待进行变声处理的音频,所述变声参数用于指示所述语音音频的变声目标;

获取模块1120,用于获取与所述语音音频对应的变声云函数,所述变声云函数为所述云服务器中存储的用于提供变声计算服务的函数,所述云服务器中包括至少两个云函数,且所述至少两个云函数在所述云服务器中并行处理,所述变声云函数与所述语音音频的上传通道对应;

处理模块1130,用于将所述语音音频和所述变声参数代入所述变声云函数,通过所述变声云函数对所述语音音频进行变声处理,得到变声音频,所述变声音频的音频特征符合所述变声参数所对应的所述变声目标。

在一个可选的实施例中,如图12所示,所述处理模块1130,包括:

确定单元1131,用于通过所述变声云函数确定与所述变声参数对应的失真代码曲线,所述失真代码曲线对应所述变声参数对应的失真效果;

处理单元1132,用于向所述语音音频加入所述失真代码曲线,得到所述变声音频。

在一个可选的实施例中,所述处理单元1132,还用于对所述语音音频进行音频解码,得到音频源文件;向所述音频源文件加入所述失真代码曲线,得到所述变声音频。

在一个可选的实施例中,所述处理单元1132,还用于将所述音频源文件转换为二进制数据;将所述二进制数据转换为波形曲线,并加入所述失真代码曲线,得到所述变声音频。

在一个可选的实施例中,所述处理单元1132,还用于将所述音频源文件连接低通滤波器;通过所述低通滤波器过滤所述音频源文件中第一频率范围内的音频。

在一个可选的实施例中,所述处理单元1132,还用于将所述变声音频连接滤波器;通过所述滤波器过滤所述变声音频中第二频率范围内的音频。

在一个可选的实施例中,所述接收模块1110,还用于接收终端通过h5页面上传的所述语音音频和所述变声参数;

或,

所述接收模块1110,还用于接收终端通过小程序界面上传的所述语音音频和所述变声参数。

在一个可选的实施例中,所述云服务器中包括n个并行计算的所述变声云函数,n为正整数;

所述获取模块1120,还用于确定所述终端上传所述语音音频和所述变声参数的上传通道;确定与所述上传通道对应的所述变声云函数。

在一个可选的实施例中,所述语音音频为所述终端在确定所述语音音频的音频内容符合要求内容时,向所述云服务器上传的音频。

综上所述,本申请实施例提供的变声处理装置,在需要对语音音频进行变声处理时,将语音音频上传至云服务器中,由云服务器对语音音频进行变声处理,由于云服务器中存储的变声云函数为直接在云服务器中运行的,无状态的、短暂的、由事件触发的代码的函数,避免通过搭建物理服务器以及对服务器进行运维而导致变声处理效率较低的问题,提高了变声处理的效率。

需要说明的是:上述实施例提供的变声处理装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的变声处理装置与变声处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图13示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲:

服务器1300包括中央处理单元(centralprocessingunit,cpu)1301、包括随机存取存储器(randomaccessmemory,ram)1302和只读存储器(readonlymemory,rom)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。服务器1300还包括用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1306。

大容量存储设备1306通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。大容量存储设备1306及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说,大容量存储设备1306可以包括诸如硬盘或者紧凑型光盘只读存储器(compactdiscreadonlymemory,cd-rom)驱动器之类的计算机可读介质(未示出)。

不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、带电可擦可编程只读存储器(electricallyerasableprogrammablereadonlymemory,eeprom)、闪存或其他固态存储其技术,cd-rom、数字通用光盘(digitalversatiledisc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1306可以统称为存储器。

根据本申请的各种实施例,服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由cpu执行。

本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的内容推荐方法。可选地,该计算机设备可以是终端,也可以是服务器。

本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的内容推荐方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的变声处理方法。

可选地,该计算机可读存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、固态硬盘(ssd,solidstatedrives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistancerandomaccessmemory)和动态随机存取存储器(dram,dynamicrandomaccessmemory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips