歌曲合成方法、装置、设备及存储介质与流程
2021-01-28 17:01:07|352|起点商标网
本发明涉及语音信号处理领域,尤其涉及一种歌曲合成方法、装置、设备及存储介质。
背景技术:
::近几十年来,歌唱合成技术逐渐受到业界的重视。受语音合成技术的启发,逐渐出现了基于波形拼接和参数合成的歌唱合成技术,但相关的技术研究大都集中于文本合成歌唱或者歌词合成歌唱的方向,也就是将文本信息转化为歌唱音频,而不是直接将语音音频转化为歌唱音频。业界也曾有人研发一种自动区分说话与歌唱的算法,但并未进一步将该技术应用于朗诵合成歌唱这个方向上,朗诵合成歌唱就是直接将自然讲话的声音赋予曲调,转化为歌声。传统变速变调算法基于波形层面的叠加操作,存在波形断裂和过渡不自然的问题。技术实现要素:本发明的主要目的在于解决了传统变速变调算法基于波形层面的叠加操作,存在波形断裂和过渡不自然的技术问题。为实现上述目的,本发明第一方面提供了一种歌曲合成方法,包括:获取目标歌曲的歌词朗诵音频和乐谱信息,所述乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注,得到所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;通过预置声码器对所述歌词朗诵音频进行分析,得到所述音素对应的初始声学参数,所述初始声学参数包括基频、频谱包络与非周期序列;根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长,所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;对所述变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理,得到矫正后的基频;通过所述预置声码器对所述变速后的非周期序列、所述增强后的频谱包络和所述矫正后的基频进行歌曲合成处理,得到合成歌曲。可选的,在本发明第一方面的第一种实现方式中,所述通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注,得到所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长,包括:对所述乐谱信息进行解析,并从解析后的乐谱信息中读取所述歌词拼音文本;将所述歌词朗诵音频与所述歌词拼音文本输入到预置语音识别模型中,并通过所述预置语音识别模型对所述歌词朗诵音频进行语音解析;通过预置语音识别模型对语音解析后的歌词朗诵音频中的音素按照所述歌词拼音文本进行标注,得到所述音素的时间戳和持续时长,所述音素包括声母和韵母;根据所述音素的时间戳和持续时长确定所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。可选的,在本发明第一方面的第二种实现方式中,所述根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长,所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长,包括:根据所述节奏信息和所述节拍信息从所述歌词拼音文本中提取每个文字的歌唱时长t;根据所述每个文字的歌唱时长t从预置声母变速词典中查询得到所述每个文字的声母歌唱时长t1;对所述每个文字的歌唱时长t和所述每个文字的声母歌唱时长t1进行差运算,得到所述每个文字的韵母歌唱时长t2,其中,t2=t-t1;将所述每个文字的声母歌唱时长和所述每个文字的韵母歌唱时长设置为所述每个文字对应的音素的歌唱时长。可选的,在本发明第一方面的第三种实现方式中,所述根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列,包括:根据所述声母朗诵时长、所述韵母朗诵时长、所述声母歌唱时长和所述韵母歌唱时长计算所述音素的变速速率r,且所述r>0;通过预置变速算法按照所述变速倍率r对所述初始声学参数进行变速处理,得到变速后的声学参数;将所述变速后的声学参数进行串联拼接,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。可选的,在本发明第一方面的第四种实现方式中,所述通过预置变速算法按照所述变速倍率r对所述初始声学参数进行变速处理,得到变速后的声学参数,包括:当所述r等于1时,确定所述初始声学参数为变速后的声学参数;当所述r等于2时,对所述初始声学参数进行延长两倍处理,得到变速后的声学参数;当所述r小于2,且所述r不等于1时,采用预置等比加减帧算法对所述初始声学参数进行变速处理,得到变速后的声学参数;当所述r大于2时,将所述初始声学参数延长两倍以上,得到变速后的声学参数。可选的,在本发明第一方面的第五种实现方式中,所述对所述变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络,包括:从所述变速后的频谱包络中查询3千赫兹左右频率段内共振峰,并记录所述共振峰的中心频率和幅值;根据所述共振峰的中心频率和幅值确定提升滤波器的强度系数和待增强的中心频率;根据所述提升滤波器的强度系数和所述待增强的中心频率进行共振峰增强,得到共振峰增强谱;对所述共振峰增强谱进行滤波处理,得到增强后的频谱包络。可选的,在本发明第一方面的第六种实现方式中,合成的歌曲存储于区块链中,所述基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理,得到矫正后的基频,包括:基于所述音高信息、所述歌唱时长和所述变速后的基频生成歌曲的基频;将所述初始声学参数中的基频进行叠加并计算平均值,得到平均基频;基于所述平均基频对所述歌曲的基频进行升调或者降调处理,得到初始基频序列,所述初始基频序列包括音高和音符;当检测到所述初始基频序列中存在同一个文字对应不同的音高时,对相同的音高对应的音符进行平滑处理;;当检测到所述初始基频序列中相邻的音符之间存在所述音高的变化时,通过预置公式对所述相邻的音符之间进行准备和过冲处理,所述预置公式为其中,所述s为所述初始基频序列,所述ω为固有频率,所述ξ为阻尼系数,所述k为比例增益;当检测到所述初始基频序列中所述音符的预置时长大于预置阈值时,对所述音符对应的初始基频序列加入颤音;当检测到所述初始基频序列中所述音符存在过度平滑时,对所述初始基频序列加入白噪声,得到矫正后的基频。本发明第二方面提供了一种歌曲合成装置,包括:获取模块,用于获取目标歌曲的歌词朗诵音频和乐谱信息,所述乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;标注模块,用于通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注,得到所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;分析模块,用于通过预置声码器对所述歌词朗诵音频进行分析,得到所述音素对应的初始声学参数,所述初始声学参数包括基频、频谱包络与非周期序列;提取模块,用于根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长,所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;变速模块,用于根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;增强模块,用于对所述变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;矫正模块,用于基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理,得到矫正后的基频;合成模块,用于通过所述预置声码器对所述变速后的非周期序列、所述增强后的频谱包络和所述矫正后的基频进行歌曲合成处理,得到合成歌曲。可选的,在本发明第二方面的第一种实现方式中,所述标注模块具体用于:对所述乐谱信息进行解析,并从解析后的乐谱信息中读取所述歌词拼音文本;将所述歌词朗诵音频与所述歌词拼音文本输入到预置语音识别模型中,并通过所述预置语音识别模型对所述歌词朗诵音频进行语音解析;通过预置语音识别模型对语音解析后的歌词朗诵音频中的音素按照所述歌词拼音文本进行标注,得到所述音素的时间戳和持续时长,所述音素包括声母和韵母;根据所述音素的时间戳和所述持续时长确定所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。可选的,在本发明第二方面的第二种实现方式中,所述提取模块具体用于:根据所述节奏信息和所述节拍信息从所述歌词拼音文本中提取每个文字的歌唱时长t;根据所述每个文字的歌唱时长t从预置声母变速词典中查询得到所述每个文字的声母歌唱时长t1;对所述每个文字的歌唱时长t和所述每个文字的声母歌唱时长t1进行差运算,得到所述每个文字的韵母歌唱时长t2,其中,t2=t-t1;将所述每个文字的声母歌唱时长和所述每个文字的韵母歌唱时长设置为所述每个文字对应的音素的歌唱时长。可选的,在本发明第二方面的第三种实现方式中,所述变速模块包括:计算单元,用于根据所述声母朗诵时长、所述韵母朗诵时长、所述声母歌唱时长和所述韵母歌唱时长计算所述音素的变速速率r,且所述r>0;变速单元,用于通过预置变速算法按照所述变速倍率r对所述初始声学参数进行变速处理,得到变速后的声学参数;拼接单元,用于将所述变速后的声学参数进行串联拼接,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。可选的,在本发明第二方面的第四种实现方式中,所述变速单元具体用于:当所述r等于1时,确定所述初始声学参数为变速后的声学参数;当所述r等于2时,对所述初始声学参数进行延长两倍处理,得到变速后的声学参数;当所述r小于2,且所述r不等于1时,采用预置等比加减帧算法对所述初始声学参数进行变速处理,得到变速后的声学参数;当所述r大于2时,将所述初始声学参数延长两倍以上,得到变速后的声学参数。可选的,在本发明第二方面的第五种实现方式中,所述增强模块具体用于:从所述变速后的频谱包络中查询3千赫兹左右频率段内共振峰,并记录所述共振峰的中心频率和幅值;根据所述共振峰的中心频率和幅值确定提升滤波器的强度系数和待增强的中心频率;根据所述提升滤波器的强度系数和所述待增强的中心频率进行共振峰增强,得到共振峰增强谱;对所述共振峰增强谱进行滤波处理,得到增强后的频谱包络。可选的,在本发明第二方面的第六种实现方式中,合成的歌曲存储于区块链中,所述矫正模块具体用于:基于所述音高信息、所述歌唱时长和所述变速后的基频生成歌曲的基频;将所述初始声学参数中的基频进行叠加并计算平均值,得到平均基频;基于所述平均基频对所述歌曲的基频进行升调或者降调处理,得到初始基频序列,所述初始基频序列包括音高和音符;当检测到所述初始基频序列中存在同一个文字对应不同的音高时,对相同的音高对应的音符进行平滑处理;当检测到所述初始基频序列中相邻的音符之间存在所述音高的变化时,通过预置公式对所述相邻的音符之间进行准备和过冲处理,所述预置公式为其中,所述s为所述初始基频序列,所述ω为固有频率,所述ξ为阻尼系数,所述k为比例增益;当检测到所述初始基频序列中所述音符的预置时长大于预置阈值时,对所述音符对应的初始基频序列加入颤音;当检测到所述初始基频序列中所述音符存在过度平滑时,对所述初始基频序列加入白噪声,得到矫正后的基频。本发明第三方面提供了一种歌曲合成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述歌曲合成设备执行上述的歌曲合成方法。本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的歌曲合成方法。本发明提供的技术方案中,获取目标歌曲的歌词朗诵音频和乐谱信息,所述乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注,得到所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;通过预置声码器对所述歌词朗诵音频进行分析,得到所述音素对应的初始声学参数,所述初始声学参数包括基频、频谱包络与非周期序列;根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长,所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;对所述变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理,得到矫正后的基频;通过所述预置声码器对所述变速后的非周期序列、所述增强后的频谱包络和所述矫正后的基频进行歌曲合成处理,得到合成歌曲。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。附图说明图1为本发明实施例中歌曲合成方法的一个实施例示意图;图2为本发明实施例中歌曲合成方法的另一个实施例示意图;图3为本发明实施例中歌曲合成装置的一个实施例示意图;图4为本发明实施例中歌曲合成装置的另一个实施例示意图;图5为本发明实施例中歌曲合成设备的一个实施例示意图。具体实施方式本发明实施例提供了一种歌曲合成方法、装置、设备及存储介质,用于从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中歌曲合成方法的一个实施例包括:101、获取目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息。可以理解的是,本发明的执行主体可以为歌曲合成装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。目标歌曲的歌词朗诵音频和乐谱信息预先存储在预置数据表中,并通过唯一标识进行关联,而歌词在乐谱信息中按照拼音形式进行记录。具体的,服务器获取目标歌曲的唯一标识;服务器根据结构化查询语言语法规则和唯一标识生成查询语句;服务器执行查询语句,得到目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息。例如,采用wodezuguo表示我的祖国,并作为歌词拼音文本;节拍信息是指在乐谱中每一小节的音符总长度,包括四分之一拍和八分之六拍;节奏信息用于指示音符的长短和强弱信息;音高信息用于指示在歌唱目标歌曲时声音的高低信息。102、通过预置语音识别模型和歌词拼音文本对歌词朗诵音频中的音素进行时长标注,得到音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。歌词朗诵音频中对应歌词的每个文字采用拼音进行表示,拼音对应至少一个音素,音素包括声母和韵母,因此,服务器通过预置语音识别模型对歌词朗诵音频进行语音解析后,并对歌词朗诵音频中的音素进行时长标注。可以理解的是,一个拼音将被分解为声母和韵母两个音素,例如,“xiang”分解为“x”与“iang”两个音素,预置语音识别模型将输出朗诵音频中这两个音素的朗诵时长,也就是声母朗诵时长和韵母朗诵时长。103、通过预置声码器对歌词朗诵音频进行分析,得到音素对应的初始声学参数,初始声学参数包括基频、频谱包络与非周期序列。其中,预置声码器包括声码器world,进一步地,服务器通过预置声码器对歌词朗诵音频中音素的时长信息进行数据处理,得到音素对应的初始声学参数,数据处理包括滤波、标准差计算、平滑处理。其中,歌词朗诵音频为正弦波组成的信号,基频f0就是对于一个由振动而发出的声音信号,这组信号可以是由许多组频率不同的正弦波组成,其中频率最低的正弦波即为基频,其他的为谐波,也就是泛音;频谱包络sp是指将不同频率的振幅最高点通过平滑的曲线连接起来得到的包络线;非周期序列ap对应混合激励部分的非周期脉冲序列,其中的混合激励是指通过多种参数控制周期激励、噪声与非周期信号。104、根据预置声母变速字典、节奏信息和节拍信息从歌词拼音文本中提取音素的歌唱时长,音素的歌唱时长包括声母歌唱时长和韵母歌唱时长。服务器在预先统计不同的节奏和不同的发音时长下,得到每个声母的发音时长规律,并根据每个声母的发音时长规律预先制定了声母变速字典,也就是预置声母变速字典。具体的,服务器从预置声母变速字典中查询得到音素的声母歌唱时长,并根据音素的歌唱时长与音素的声母歌唱时长进行运算,得到音素的韵母歌唱时长,其中,音素的歌唱时长为声母歌唱时长和韵母歌唱时长的总和。105、根据预置变速算法、朗诵时长和歌唱时长对初始声学参数进行变速处理,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。因为朗诵时音素的持续时长与歌唱时音素的持续时长存在不同,因此,可以根据歌唱时长将朗诵语音中音素的持续时长延长或者缩短。由于同一个文字在不同发音时长下,声韵母的时长和占比均不同,需要对分别对声母和韵母分别进行时长调整,进一步地,服务器对初始声学参数进行时长调整,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。可以理解的是,上述方案不仅原理简洁易于实现,而且避免了波形层面的叠加操作,并进而避免了因波形受损而导致声学参数提取准确率低的问题,使得变速算法的应用对象从波形变为了声学参数,与后续变调算法形成了统一,有效的提升了系统的可控性。106、对变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络。共振峰是指声音的自然频谱峰值,与讲话相比,歌唱音频的频谱包络在3千赫兹左右的频率段内有明显的尖峰,这个尖峰是歌唱独有的,因此称之为“歌唱共振峰”。为使转换后的音频更加自然,为音频的频谱包络加入“歌唱共振峰”,也就是增强在3千赫兹左右频率段内变速后的频谱包络的振幅,得到增强后的频谱包络。107、基于音高信息、歌唱时长和变速后的基频进行矫正处理,得到矫正后的基频。为使合成后的歌曲尽量符合朗诵时的音域,减少因变调而导致的音色失真,服务器根据音高信息和歌唱时长生成歌曲的基频;服务器根据变速后的基频对歌曲的基频整体进行变调处理,使歌曲的基频对应的平均基频尽量接近语音对应的平均基频。需要说明的是,若对合成的歌唱配上伴奏,则伴奏也需要进行对应的变调处理。其中,变调处理包括升调处理或者降调处理。108、通过预置声码器对变速后的非周期序列、增强后的频谱包络和矫正后的基频进行歌曲合成处理,得到合成歌曲。也就是说,服务器最终将三种声学特征:矫正后的基频、增强后的频谱包络和变速后的非周期序列输入到预置声码器中,通过预置声码器合成输出得到合成歌曲,合成歌曲为波形信号,合成歌曲与歌词朗诵音频中的音色和音域一致,歌声更为自然。需要强调的是,为进一步保证上述合成的歌曲的私密和安全性,上述合成的歌曲还可以存储于一区块链的节点中。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。请参阅图2,本发明实施例中歌曲合成方法的另一个实施例包括:201、获取目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息。具体的,服务器获取目标歌曲的唯一标识,唯一标识用于关联歌词朗诵音频和乐谱信息,例如,唯一标识为s_1,目标歌曲为a,s_1与a之间为一一对应关系;服务器根据结构化查询语言语法规则和唯一标识生成查询语句,例如,查询语句为select*fromsongs_tablewhereid=`s_1`;服务器执行查询语句,得到目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息、音高、音节歌唱时长,其中,歌词在乐谱信息中按照拼音形式进行记录。202、通过预置语音识别模型和歌词拼音文本对歌词朗诵音频中的音素进行时长标注,得到音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。具体的,服务器对乐谱信息进行解析,并从解析后的乐谱信息中读取歌词拼音文本;服务器将歌词朗诵音频与歌词拼音文本输入到预置语音识别模型中,并通过预置语音识别模型对歌词朗诵音频进行语音解析;服务器通过预置语音识别模型对语音解析后的歌词朗诵音频中的音素按照歌词拼音文本进行标注,得到音素的时间戳和持续时长,音素包括声母和韵母;服务器根据音素的时间戳和持续时长确定歌词朗诵音频中音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。可以理解的是,时间戳的作用是用于精确标记歌词朗诵音频中音素的相对位置,结合音素的持续时长便可以确定声母朗诵时长和韵母朗诵时长。203、通过预置声码器对歌词朗诵音频进行分析,得到音素对应的初始声学参数,初始声学参数包括基频、频谱包络与非周期序列。其中,预置声码器包括声码器world,进一步地,服务器通过预置声码器对歌词朗诵音频中音素的时长信息进行数据处理,得到音素对应的初始声学参数,数据处理包括滤波、标准差计算和平滑处理。其中,歌词朗诵音频为正弦波组成的信号,基频f0就是对于一个由振动而发出的声音信号,这组信号可以是由许多组频率不同的正弦波组成,其中频率最低的正弦波即为基频,其他的为谐波,也就是泛音;频谱包络sp是指将不同频率的振幅最高点通过平滑的曲线连接起来得到的包络线;非周期序列ap对应混合激励部分的非周期脉冲序列,其中的混合激励是指通过多种参数控制周期激励、噪声与非周期信号。204、根据预置声母变速字典、节奏信息和节拍信息从歌词拼音文本中提取音素的歌唱时长,音素的歌唱时长包括声母歌唱时长和韵母歌唱时长。具体的,服务器根据节奏信息和节拍信息从歌词拼音文本中提取每个文字的歌唱时长t;服务器根据每个文字的歌唱时长t从预置声母变速词典中查询得到每个文字的声母歌唱时长t1;服务器对每个文字的歌唱时长t和每个文字的声母歌唱时长t1进行差运算,得到每个文字的韵母歌唱时长,其中,t2=t-t1;服务器将每个文字的声母歌唱时长和每个文字的韵母歌唱时长设置为音素的歌唱时长。例如,对于文字“香”,对应的音素为“xiang”,可以分解为“x”与“iang”,服务器确定“xiang”的歌唱时长时长为1秒,“x”为0.3秒,那么“iang”为0.7秒。205、根据声母朗诵时长、韵母朗诵时长、声母歌唱时长和韵母歌唱时长计算音素的变速速率r,且r>0。进一步地,服务器根据韵母朗诵时长和韵母歌唱时长进行计算,得到变速倍率r,r=韵母歌唱时长/韵母朗诵时长,且r>0;或者,服务器根据声母朗诵时长和声母歌唱时长进行计算,得到变速倍率r,r=声母歌唱时长/声母朗诵时长,且r>0。206、通过预置变速算法按照变速倍率r对初始声学参数进行变速处理,得到变速后的声学参数。首先,当r等于1时,服务器确定当前的音素对应的初始声学参数为变速后的声学参数;其次,当r等于2时,服务器对当前的音素对应的初始声学参数进行延长两倍处理,得到变速后的声学参数,进一步地,服务器采用预置平均加帧算法对初始声学参数进行延长两倍处理,也就是在每两帧相邻的初始声学参数之间都加入一帧新的数据,其中,加入一帧新的数据对应的数值为被加帧的相邻两帧数据的平均值。然后,当r小于2且r不等于1时,服务器采用预置等比加减帧算法对当前的音素对应的初始声学参数进行变速处理,得到变速后的声学参数。进一步地,假设变速前,初始声学参数对应的序列长度为l,那么变速后的声学参数对应的序列长度为l*r。具体的,服务器获取0至l*r的整数序列,并对这一证书序列中的数值整体缩小r倍后取整,服务器将得到的取整数列作为索引,从初始声学参数对应的序列中取值,得到的新的长度为l*r的序列,也就是变速后的声学参数。最后,当r大于2时,服务器将当前音素对应的初始声学参数延长两倍以上,得到变速后的声学参数。具体的,服务器首先执行r等于2的步骤,得到变速数据,然后服务器将得到的变速数据与新的变速倍率r/2一起,重复执行整个变速处理的r等于2对应的步骤。207、将变速后的声学参数进行串联拼接,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。需要说明的是,传统的语音变速算法,例如,音频变时不变调处理wsola和相位声码,其基本思路都是对波形进行分帧,进行调整帧移后再重新进行重叠拼接。但都存在叠加处的波形过度不自然的问题,导致后续变调时,声学参数无法正常提取。因此,将变速后的声学参数进行串联拼接,避免了波形层面的叠加操作,并进而避免了因波形受损而导致声学参数提取准确率低的问题,使得变速算法的应用对象为声学参数。208、对变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络。具体的,服务器从变速后的频谱包络中查询3千赫兹左右频率段内共振峰,并记录共振峰的中心频率和幅值;服务器根据共振峰的中心频率和幅值确定提升滤波器的强度系数和待增强的中心频率;服务器根据提升滤波器的强度系数和待增强的中心频率进行共振峰增强,得到共振峰增强谱;服务器对共振峰增强谱进行滤波处理,得到增强后的频谱包络。可以理解的是,频谱包络是将不同频率的振幅最高点连结起来形成的曲线,也就是频谱包络线。频谱是许多不同频率的集合,形成一个很宽的频率范围,不同的频率其振幅可能不同。209、基于音高信息、歌唱时长和变速后的基频进行矫正处理,得到矫正后的基频。具体的,服务器基于音高信息、歌唱时长和变速后的基频生成歌曲的基频;服务器将初始声学参数中的基频进行叠加并计算平均值,得到平均基频;服务器基于平均基频对歌曲的基频进行升调或者降调处理,得到初始基频序列,初始基频序列包括音高和音符,需要说明的是,在普通话中,可以利用发声时声带是否震动将声母分为清音和浊音两类。而声带震动的频率则与发音时的基频有着直接的关联,声带不震动表示无基频,也就是基频为0。因此,在生成新的基频序列时,需将清音声母的基频设置为0;当检测到初始基频序列中存在同一个文字对应不同的音高时,服务器对相同的音高对应的音符进行平滑处理;当检测到初始基频序列中相邻的音符之间存在音高的变化时,服务器通过预置公式对相邻的音符之间进行准备和过冲处理,预置公式为其中,s为初始基频序列,ω为固有频率,ξ为阻尼系数,k为比例增益;当检测到初始基频序列中音符的预置时长大于预置阈值时,服务器对音符对应的初始基频序列加入颤音;当检测到初始基频序列中存在过度平滑时,服务器对初始基频序列加入白噪声,得到矫正后的基频序列。需要说明的是,歌曲中时常会出现一个文字对应多个音高不相同的音符的情况,针对这一情况,服务器在两个音符之间加入了平滑,使其更符合真人演唱时的习惯,提升听感自然度。例如《我的祖国》的部分歌词,以“浪”这个文字为例,这个文字对应了4个不同的音高,平滑前的音高过度显得比较生硬突兀,而平滑处理后的音高过渡则更加平滑,更符合真人演唱。可以理解的是,颤音是一种常见的歌唱技巧,主要出现在延音上,表现为基频上类似正弦波的小幅震颤。若一个音符的时长超过预置阈值x,将在这个音符的初始基频序列上加入颤音。进一步地,当加入颤音时,考虑三个参数:颤音加入点a,a为0到1之间,表示从该音符的哪一个时刻开始加入颤音;颤音的振幅extent和颤音的频率rate。不同的演唱形式中,x、a、extent和rate的值都会有所变化。举例来说,相比美声唱法,流行唱法中x和a值更大,而extent和rate值更小。例如,对《我的祖国》的歌词中“宽”字添加颤音后,体现了流行唱法中颤音加入方式。210、通过预置声码器对变速后的非周期序列、增强后的频谱包络和矫正后的基频进行歌曲合成处理,得到合成歌曲。也就是说,服务器最终将三种声学特征:矫正后的基频、调整后的频谱包络和变速后的非周期序列输入到通过world中,通过world合成输出得到合成歌曲,其中,合成歌曲为波形信号。需要说明的是,声码器world基于人类发音频谱将文字转化为与人类发音相似的声音,也就是world会把每个拼音看作为一个序列,根据变速后的非周期序列、增强后的频谱包络和矫正后的基频预测每段需要合成语音的序列,再将预测出的声谱转换为歌唱的声音波形。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌曲数据就能实现歌曲合成,降低歌曲合成的数据收集成本。上面对本发明实施例中歌曲合成方法进行了描述,下面对本发明实施例中歌曲合成装置进行描述,请参阅图3,本发明实施例中歌曲合成装置的一个实施例包括:获取模块301,用于获取目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;标注模块302,用于通过预置语音识别模型和歌词拼音文本对歌词朗诵音频中的音素进行时长标注,得到音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;分析模块303,用于通过预置声码器对歌词朗诵音频进行分析,得到音素对应的初始声学参数,初始声学参数包括基频、频谱包络与非周期序列;提取模块304,用于根据预置声母变速字典、节奏信息和节拍信息从歌词拼音文本中提取音素的歌唱时长,音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;变速模块305,用于根据预置变速算法、朗诵时长和歌唱时长对初始声学参数进行变速处理,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;增强模块306,用于对变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;矫正模块307,用于基于音高信息、歌唱时长和变速后的基频进行矫正处理,得到矫正后的基频;合成模块308,用于通过预置声码器对变速后的非周期序列、增强后的频谱包络和矫正后的基频进行歌曲合成处理,得到合成歌曲。需要强调的是,为进一步保证上述合成的歌曲的私密和安全性,上述合成的歌曲还可以存储于一区块链的节点中。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。请参阅图4,本发明实施例中歌曲合成装置的另一个实施例包括:获取模块301,用于获取目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;标注模块302,用于通过预置语音识别模型和歌词拼音文本对歌词朗诵音频中的音素进行时长标注,得到音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;分析模块303,用于通过预置声码器对歌词朗诵音频进行分析,得到音素对应的初始声学参数,初始声学参数包括基频、频谱包络与非周期序列;提取模块304,用于根据预置声母变速字典、节奏信息和节拍信息从歌词拼音文本中提取音素的歌唱时长,音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;变速模块305,用于根据预置变速算法、朗诵时长和歌唱时长对初始声学参数进行变速处理,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;增强模块306,用于对变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;矫正模块307,用于基于音高信息、歌唱时长和变速后的基频进行矫正处理,得到矫正后的基频;合成模块308,用于通过预置声码器对变速后的非周期序列、增强后的频谱包络和矫正后的基频进行歌曲合成处理,得到合成歌曲。可选的,标注模块302还可以具体用于:对乐谱信息进行解析,并从解析后的乐谱信息中读取歌词拼音文本;将歌词朗诵音频与歌词拼音文本输入到预置语音识别模型中,并通过预置语音识别模型对歌词朗诵音频进行语音解析;通过预置语音识别模型对语音解析后的歌词朗诵音频中的音素按照歌词拼音文本进行标注,得到音素的时间戳和持续时长,音素包括声母和韵母;根据音素的时间戳和持续时长确定音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。可选的,提取模块304还可以具体用于:根据节奏信息和节拍信息从歌词拼音文本中提取每个文字的歌唱时长t;根据每个文字的歌唱时长t从预置声母变速词典中查询得到每个文字的声母歌唱时长t1;对每个文字的歌唱时长t和每个文字的声母歌唱时长t1进行差运算,得到每个文字的韵母歌唱时长t2,其中,t2=t-t1;将每个文字的声母歌唱时长和每个文字的韵母歌唱时长设置为每个文字对应的音素的歌唱时长。可选的,变速模块305包括:计算单元3051,用于根据声母朗诵时长、韵母朗诵时长、声母歌唱时长和韵母歌唱时长计算音素的变速速率r,且r>0;变速单元3052,用于通过预置变速算法按照变速倍率r对初始声学参数进行变速处理,得到变速后的声学参数;拼接单元3053,用于将变速后的声学参数进行串联拼接,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。可选的,变速单元3052还可以具体用于:当r等于1时,确定初始声学参数为变速后的声学参数;当r等于2时,对初始声学参数进行延长两倍处理,得到变速后的声学参数;当r小于2,且r不等于1时,采用预置等比加减帧算法对初始声学参数进行变速处理,得到变速后的声学参数;当r大于2时,将初始声学参数延长两倍以上,得到变速后的声学参数。可选的,增强模块306还可以具体用于:从变速后的频谱包络中查询3千赫兹左右频率段内共振峰,并记录共振峰的中心频率和幅值;根据共振峰的中心频率和幅值确定提升滤波器的强度系数和待增强的中心频率;根据提升滤波器的强度系数和待增强的中心频率进行共振峰增强,得到共振峰增强谱;对共振峰增强谱进行滤波处理,得到增强后的频谱包络。可选的,矫正模块307还可以具体用于:基于音高信息、歌唱时长和变速后的基频生成歌曲的基频;将初始声学参数中的基频进行叠加并计算平均值,得到平均基频;基于平均基频对歌曲的基频进行升调或者降调处理,得到初始基频序列,初始基频序列包括音高和音符;当检测到初始基频序列中存在同一个文字对应不同的音高时,对相同的音高对应的音符进行平滑处理;当检测到初始基频序列中相邻的音符之间存在音高的变化时,通过预置公式对初始基频序列中相邻的音符之间进行准备和过冲处理,预置公式为其中,s为初始基频序列,ω为固有频率,ξ为阻尼系数,k为比例增益;当检测到初始基频序列中音符的预置时长大于预置阈值时,对音符对应的初始基频序列加入颤音;当检测到初始基频序列中音符存在过度平滑时,对初始基频序列加入白噪声,得到矫正后的基频序列。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。上面图3和图4从模块化功能实体的角度对本发明实施例中的歌曲合成装置进行详细描述,下面从硬件处理的角度对本发明实施例中歌曲合成设备进行详细描述。图5是本发明实施例提供的一种歌曲合成设备的结构示意图,该歌曲合成设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对歌曲合成设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在歌曲合成设备500上执行存储介质530中的一系列指令操作。基于歌曲合成设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的歌曲合成设备结构并不构成对基于歌曲合成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述歌曲合成方法的步骤。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页1 2 3 当前第1页1 2 3 
背景技术:
::近几十年来,歌唱合成技术逐渐受到业界的重视。受语音合成技术的启发,逐渐出现了基于波形拼接和参数合成的歌唱合成技术,但相关的技术研究大都集中于文本合成歌唱或者歌词合成歌唱的方向,也就是将文本信息转化为歌唱音频,而不是直接将语音音频转化为歌唱音频。业界也曾有人研发一种自动区分说话与歌唱的算法,但并未进一步将该技术应用于朗诵合成歌唱这个方向上,朗诵合成歌唱就是直接将自然讲话的声音赋予曲调,转化为歌声。传统变速变调算法基于波形层面的叠加操作,存在波形断裂和过渡不自然的问题。技术实现要素:本发明的主要目的在于解决了传统变速变调算法基于波形层面的叠加操作,存在波形断裂和过渡不自然的技术问题。为实现上述目的,本发明第一方面提供了一种歌曲合成方法,包括:获取目标歌曲的歌词朗诵音频和乐谱信息,所述乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注,得到所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;通过预置声码器对所述歌词朗诵音频进行分析,得到所述音素对应的初始声学参数,所述初始声学参数包括基频、频谱包络与非周期序列;根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长,所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;对所述变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理,得到矫正后的基频;通过所述预置声码器对所述变速后的非周期序列、所述增强后的频谱包络和所述矫正后的基频进行歌曲合成处理,得到合成歌曲。可选的,在本发明第一方面的第一种实现方式中,所述通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注,得到所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长,包括:对所述乐谱信息进行解析,并从解析后的乐谱信息中读取所述歌词拼音文本;将所述歌词朗诵音频与所述歌词拼音文本输入到预置语音识别模型中,并通过所述预置语音识别模型对所述歌词朗诵音频进行语音解析;通过预置语音识别模型对语音解析后的歌词朗诵音频中的音素按照所述歌词拼音文本进行标注,得到所述音素的时间戳和持续时长,所述音素包括声母和韵母;根据所述音素的时间戳和持续时长确定所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。可选的,在本发明第一方面的第二种实现方式中,所述根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长,所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长,包括:根据所述节奏信息和所述节拍信息从所述歌词拼音文本中提取每个文字的歌唱时长t;根据所述每个文字的歌唱时长t从预置声母变速词典中查询得到所述每个文字的声母歌唱时长t1;对所述每个文字的歌唱时长t和所述每个文字的声母歌唱时长t1进行差运算,得到所述每个文字的韵母歌唱时长t2,其中,t2=t-t1;将所述每个文字的声母歌唱时长和所述每个文字的韵母歌唱时长设置为所述每个文字对应的音素的歌唱时长。可选的,在本发明第一方面的第三种实现方式中,所述根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列,包括:根据所述声母朗诵时长、所述韵母朗诵时长、所述声母歌唱时长和所述韵母歌唱时长计算所述音素的变速速率r,且所述r>0;通过预置变速算法按照所述变速倍率r对所述初始声学参数进行变速处理,得到变速后的声学参数;将所述变速后的声学参数进行串联拼接,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。可选的,在本发明第一方面的第四种实现方式中,所述通过预置变速算法按照所述变速倍率r对所述初始声学参数进行变速处理,得到变速后的声学参数,包括:当所述r等于1时,确定所述初始声学参数为变速后的声学参数;当所述r等于2时,对所述初始声学参数进行延长两倍处理,得到变速后的声学参数;当所述r小于2,且所述r不等于1时,采用预置等比加减帧算法对所述初始声学参数进行变速处理,得到变速后的声学参数;当所述r大于2时,将所述初始声学参数延长两倍以上,得到变速后的声学参数。可选的,在本发明第一方面的第五种实现方式中,所述对所述变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络,包括:从所述变速后的频谱包络中查询3千赫兹左右频率段内共振峰,并记录所述共振峰的中心频率和幅值;根据所述共振峰的中心频率和幅值确定提升滤波器的强度系数和待增强的中心频率;根据所述提升滤波器的强度系数和所述待增强的中心频率进行共振峰增强,得到共振峰增强谱;对所述共振峰增强谱进行滤波处理,得到增强后的频谱包络。可选的,在本发明第一方面的第六种实现方式中,合成的歌曲存储于区块链中,所述基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理,得到矫正后的基频,包括:基于所述音高信息、所述歌唱时长和所述变速后的基频生成歌曲的基频;将所述初始声学参数中的基频进行叠加并计算平均值,得到平均基频;基于所述平均基频对所述歌曲的基频进行升调或者降调处理,得到初始基频序列,所述初始基频序列包括音高和音符;当检测到所述初始基频序列中存在同一个文字对应不同的音高时,对相同的音高对应的音符进行平滑处理;;当检测到所述初始基频序列中相邻的音符之间存在所述音高的变化时,通过预置公式对所述相邻的音符之间进行准备和过冲处理,所述预置公式为其中,所述s为所述初始基频序列,所述ω为固有频率,所述ξ为阻尼系数,所述k为比例增益;当检测到所述初始基频序列中所述音符的预置时长大于预置阈值时,对所述音符对应的初始基频序列加入颤音;当检测到所述初始基频序列中所述音符存在过度平滑时,对所述初始基频序列加入白噪声,得到矫正后的基频。本发明第二方面提供了一种歌曲合成装置,包括:获取模块,用于获取目标歌曲的歌词朗诵音频和乐谱信息,所述乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;标注模块,用于通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注,得到所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;分析模块,用于通过预置声码器对所述歌词朗诵音频进行分析,得到所述音素对应的初始声学参数,所述初始声学参数包括基频、频谱包络与非周期序列;提取模块,用于根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长,所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;变速模块,用于根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;增强模块,用于对所述变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;矫正模块,用于基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理,得到矫正后的基频;合成模块,用于通过所述预置声码器对所述变速后的非周期序列、所述增强后的频谱包络和所述矫正后的基频进行歌曲合成处理,得到合成歌曲。可选的,在本发明第二方面的第一种实现方式中,所述标注模块具体用于:对所述乐谱信息进行解析,并从解析后的乐谱信息中读取所述歌词拼音文本;将所述歌词朗诵音频与所述歌词拼音文本输入到预置语音识别模型中,并通过所述预置语音识别模型对所述歌词朗诵音频进行语音解析;通过预置语音识别模型对语音解析后的歌词朗诵音频中的音素按照所述歌词拼音文本进行标注,得到所述音素的时间戳和持续时长,所述音素包括声母和韵母;根据所述音素的时间戳和所述持续时长确定所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。可选的,在本发明第二方面的第二种实现方式中,所述提取模块具体用于:根据所述节奏信息和所述节拍信息从所述歌词拼音文本中提取每个文字的歌唱时长t;根据所述每个文字的歌唱时长t从预置声母变速词典中查询得到所述每个文字的声母歌唱时长t1;对所述每个文字的歌唱时长t和所述每个文字的声母歌唱时长t1进行差运算,得到所述每个文字的韵母歌唱时长t2,其中,t2=t-t1;将所述每个文字的声母歌唱时长和所述每个文字的韵母歌唱时长设置为所述每个文字对应的音素的歌唱时长。可选的,在本发明第二方面的第三种实现方式中,所述变速模块包括:计算单元,用于根据所述声母朗诵时长、所述韵母朗诵时长、所述声母歌唱时长和所述韵母歌唱时长计算所述音素的变速速率r,且所述r>0;变速单元,用于通过预置变速算法按照所述变速倍率r对所述初始声学参数进行变速处理,得到变速后的声学参数;拼接单元,用于将所述变速后的声学参数进行串联拼接,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。可选的,在本发明第二方面的第四种实现方式中,所述变速单元具体用于:当所述r等于1时,确定所述初始声学参数为变速后的声学参数;当所述r等于2时,对所述初始声学参数进行延长两倍处理,得到变速后的声学参数;当所述r小于2,且所述r不等于1时,采用预置等比加减帧算法对所述初始声学参数进行变速处理,得到变速后的声学参数;当所述r大于2时,将所述初始声学参数延长两倍以上,得到变速后的声学参数。可选的,在本发明第二方面的第五种实现方式中,所述增强模块具体用于:从所述变速后的频谱包络中查询3千赫兹左右频率段内共振峰,并记录所述共振峰的中心频率和幅值;根据所述共振峰的中心频率和幅值确定提升滤波器的强度系数和待增强的中心频率;根据所述提升滤波器的强度系数和所述待增强的中心频率进行共振峰增强,得到共振峰增强谱;对所述共振峰增强谱进行滤波处理,得到增强后的频谱包络。可选的,在本发明第二方面的第六种实现方式中,合成的歌曲存储于区块链中,所述矫正模块具体用于:基于所述音高信息、所述歌唱时长和所述变速后的基频生成歌曲的基频;将所述初始声学参数中的基频进行叠加并计算平均值,得到平均基频;基于所述平均基频对所述歌曲的基频进行升调或者降调处理,得到初始基频序列,所述初始基频序列包括音高和音符;当检测到所述初始基频序列中存在同一个文字对应不同的音高时,对相同的音高对应的音符进行平滑处理;当检测到所述初始基频序列中相邻的音符之间存在所述音高的变化时,通过预置公式对所述相邻的音符之间进行准备和过冲处理,所述预置公式为其中,所述s为所述初始基频序列,所述ω为固有频率,所述ξ为阻尼系数,所述k为比例增益;当检测到所述初始基频序列中所述音符的预置时长大于预置阈值时,对所述音符对应的初始基频序列加入颤音;当检测到所述初始基频序列中所述音符存在过度平滑时,对所述初始基频序列加入白噪声,得到矫正后的基频。本发明第三方面提供了一种歌曲合成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述歌曲合成设备执行上述的歌曲合成方法。本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的歌曲合成方法。本发明提供的技术方案中,获取目标歌曲的歌词朗诵音频和乐谱信息,所述乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注,得到所述音素的朗诵时长,所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;通过预置声码器对所述歌词朗诵音频进行分析,得到所述音素对应的初始声学参数,所述初始声学参数包括基频、频谱包络与非周期序列;根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长,所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理,得到目标声学参数,所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;对所述变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理,得到矫正后的基频;通过所述预置声码器对所述变速后的非周期序列、所述增强后的频谱包络和所述矫正后的基频进行歌曲合成处理,得到合成歌曲。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。附图说明图1为本发明实施例中歌曲合成方法的一个实施例示意图;图2为本发明实施例中歌曲合成方法的另一个实施例示意图;图3为本发明实施例中歌曲合成装置的一个实施例示意图;图4为本发明实施例中歌曲合成装置的另一个实施例示意图;图5为本发明实施例中歌曲合成设备的一个实施例示意图。具体实施方式本发明实施例提供了一种歌曲合成方法、装置、设备及存储介质,用于从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中歌曲合成方法的一个实施例包括:101、获取目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息。可以理解的是,本发明的执行主体可以为歌曲合成装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。目标歌曲的歌词朗诵音频和乐谱信息预先存储在预置数据表中,并通过唯一标识进行关联,而歌词在乐谱信息中按照拼音形式进行记录。具体的,服务器获取目标歌曲的唯一标识;服务器根据结构化查询语言语法规则和唯一标识生成查询语句;服务器执行查询语句,得到目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息。例如,采用wodezuguo表示我的祖国,并作为歌词拼音文本;节拍信息是指在乐谱中每一小节的音符总长度,包括四分之一拍和八分之六拍;节奏信息用于指示音符的长短和强弱信息;音高信息用于指示在歌唱目标歌曲时声音的高低信息。102、通过预置语音识别模型和歌词拼音文本对歌词朗诵音频中的音素进行时长标注,得到音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。歌词朗诵音频中对应歌词的每个文字采用拼音进行表示,拼音对应至少一个音素,音素包括声母和韵母,因此,服务器通过预置语音识别模型对歌词朗诵音频进行语音解析后,并对歌词朗诵音频中的音素进行时长标注。可以理解的是,一个拼音将被分解为声母和韵母两个音素,例如,“xiang”分解为“x”与“iang”两个音素,预置语音识别模型将输出朗诵音频中这两个音素的朗诵时长,也就是声母朗诵时长和韵母朗诵时长。103、通过预置声码器对歌词朗诵音频进行分析,得到音素对应的初始声学参数,初始声学参数包括基频、频谱包络与非周期序列。其中,预置声码器包括声码器world,进一步地,服务器通过预置声码器对歌词朗诵音频中音素的时长信息进行数据处理,得到音素对应的初始声学参数,数据处理包括滤波、标准差计算、平滑处理。其中,歌词朗诵音频为正弦波组成的信号,基频f0就是对于一个由振动而发出的声音信号,这组信号可以是由许多组频率不同的正弦波组成,其中频率最低的正弦波即为基频,其他的为谐波,也就是泛音;频谱包络sp是指将不同频率的振幅最高点通过平滑的曲线连接起来得到的包络线;非周期序列ap对应混合激励部分的非周期脉冲序列,其中的混合激励是指通过多种参数控制周期激励、噪声与非周期信号。104、根据预置声母变速字典、节奏信息和节拍信息从歌词拼音文本中提取音素的歌唱时长,音素的歌唱时长包括声母歌唱时长和韵母歌唱时长。服务器在预先统计不同的节奏和不同的发音时长下,得到每个声母的发音时长规律,并根据每个声母的发音时长规律预先制定了声母变速字典,也就是预置声母变速字典。具体的,服务器从预置声母变速字典中查询得到音素的声母歌唱时长,并根据音素的歌唱时长与音素的声母歌唱时长进行运算,得到音素的韵母歌唱时长,其中,音素的歌唱时长为声母歌唱时长和韵母歌唱时长的总和。105、根据预置变速算法、朗诵时长和歌唱时长对初始声学参数进行变速处理,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。因为朗诵时音素的持续时长与歌唱时音素的持续时长存在不同,因此,可以根据歌唱时长将朗诵语音中音素的持续时长延长或者缩短。由于同一个文字在不同发音时长下,声韵母的时长和占比均不同,需要对分别对声母和韵母分别进行时长调整,进一步地,服务器对初始声学参数进行时长调整,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。可以理解的是,上述方案不仅原理简洁易于实现,而且避免了波形层面的叠加操作,并进而避免了因波形受损而导致声学参数提取准确率低的问题,使得变速算法的应用对象从波形变为了声学参数,与后续变调算法形成了统一,有效的提升了系统的可控性。106、对变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络。共振峰是指声音的自然频谱峰值,与讲话相比,歌唱音频的频谱包络在3千赫兹左右的频率段内有明显的尖峰,这个尖峰是歌唱独有的,因此称之为“歌唱共振峰”。为使转换后的音频更加自然,为音频的频谱包络加入“歌唱共振峰”,也就是增强在3千赫兹左右频率段内变速后的频谱包络的振幅,得到增强后的频谱包络。107、基于音高信息、歌唱时长和变速后的基频进行矫正处理,得到矫正后的基频。为使合成后的歌曲尽量符合朗诵时的音域,减少因变调而导致的音色失真,服务器根据音高信息和歌唱时长生成歌曲的基频;服务器根据变速后的基频对歌曲的基频整体进行变调处理,使歌曲的基频对应的平均基频尽量接近语音对应的平均基频。需要说明的是,若对合成的歌唱配上伴奏,则伴奏也需要进行对应的变调处理。其中,变调处理包括升调处理或者降调处理。108、通过预置声码器对变速后的非周期序列、增强后的频谱包络和矫正后的基频进行歌曲合成处理,得到合成歌曲。也就是说,服务器最终将三种声学特征:矫正后的基频、增强后的频谱包络和变速后的非周期序列输入到预置声码器中,通过预置声码器合成输出得到合成歌曲,合成歌曲为波形信号,合成歌曲与歌词朗诵音频中的音色和音域一致,歌声更为自然。需要强调的是,为进一步保证上述合成的歌曲的私密和安全性,上述合成的歌曲还可以存储于一区块链的节点中。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。请参阅图2,本发明实施例中歌曲合成方法的另一个实施例包括:201、获取目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息。具体的,服务器获取目标歌曲的唯一标识,唯一标识用于关联歌词朗诵音频和乐谱信息,例如,唯一标识为s_1,目标歌曲为a,s_1与a之间为一一对应关系;服务器根据结构化查询语言语法规则和唯一标识生成查询语句,例如,查询语句为select*fromsongs_tablewhereid=`s_1`;服务器执行查询语句,得到目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息、音高、音节歌唱时长,其中,歌词在乐谱信息中按照拼音形式进行记录。202、通过预置语音识别模型和歌词拼音文本对歌词朗诵音频中的音素进行时长标注,得到音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。具体的,服务器对乐谱信息进行解析,并从解析后的乐谱信息中读取歌词拼音文本;服务器将歌词朗诵音频与歌词拼音文本输入到预置语音识别模型中,并通过预置语音识别模型对歌词朗诵音频进行语音解析;服务器通过预置语音识别模型对语音解析后的歌词朗诵音频中的音素按照歌词拼音文本进行标注,得到音素的时间戳和持续时长,音素包括声母和韵母;服务器根据音素的时间戳和持续时长确定歌词朗诵音频中音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。可以理解的是,时间戳的作用是用于精确标记歌词朗诵音频中音素的相对位置,结合音素的持续时长便可以确定声母朗诵时长和韵母朗诵时长。203、通过预置声码器对歌词朗诵音频进行分析,得到音素对应的初始声学参数,初始声学参数包括基频、频谱包络与非周期序列。其中,预置声码器包括声码器world,进一步地,服务器通过预置声码器对歌词朗诵音频中音素的时长信息进行数据处理,得到音素对应的初始声学参数,数据处理包括滤波、标准差计算和平滑处理。其中,歌词朗诵音频为正弦波组成的信号,基频f0就是对于一个由振动而发出的声音信号,这组信号可以是由许多组频率不同的正弦波组成,其中频率最低的正弦波即为基频,其他的为谐波,也就是泛音;频谱包络sp是指将不同频率的振幅最高点通过平滑的曲线连接起来得到的包络线;非周期序列ap对应混合激励部分的非周期脉冲序列,其中的混合激励是指通过多种参数控制周期激励、噪声与非周期信号。204、根据预置声母变速字典、节奏信息和节拍信息从歌词拼音文本中提取音素的歌唱时长,音素的歌唱时长包括声母歌唱时长和韵母歌唱时长。具体的,服务器根据节奏信息和节拍信息从歌词拼音文本中提取每个文字的歌唱时长t;服务器根据每个文字的歌唱时长t从预置声母变速词典中查询得到每个文字的声母歌唱时长t1;服务器对每个文字的歌唱时长t和每个文字的声母歌唱时长t1进行差运算,得到每个文字的韵母歌唱时长,其中,t2=t-t1;服务器将每个文字的声母歌唱时长和每个文字的韵母歌唱时长设置为音素的歌唱时长。例如,对于文字“香”,对应的音素为“xiang”,可以分解为“x”与“iang”,服务器确定“xiang”的歌唱时长时长为1秒,“x”为0.3秒,那么“iang”为0.7秒。205、根据声母朗诵时长、韵母朗诵时长、声母歌唱时长和韵母歌唱时长计算音素的变速速率r,且r>0。进一步地,服务器根据韵母朗诵时长和韵母歌唱时长进行计算,得到变速倍率r,r=韵母歌唱时长/韵母朗诵时长,且r>0;或者,服务器根据声母朗诵时长和声母歌唱时长进行计算,得到变速倍率r,r=声母歌唱时长/声母朗诵时长,且r>0。206、通过预置变速算法按照变速倍率r对初始声学参数进行变速处理,得到变速后的声学参数。首先,当r等于1时,服务器确定当前的音素对应的初始声学参数为变速后的声学参数;其次,当r等于2时,服务器对当前的音素对应的初始声学参数进行延长两倍处理,得到变速后的声学参数,进一步地,服务器采用预置平均加帧算法对初始声学参数进行延长两倍处理,也就是在每两帧相邻的初始声学参数之间都加入一帧新的数据,其中,加入一帧新的数据对应的数值为被加帧的相邻两帧数据的平均值。然后,当r小于2且r不等于1时,服务器采用预置等比加减帧算法对当前的音素对应的初始声学参数进行变速处理,得到变速后的声学参数。进一步地,假设变速前,初始声学参数对应的序列长度为l,那么变速后的声学参数对应的序列长度为l*r。具体的,服务器获取0至l*r的整数序列,并对这一证书序列中的数值整体缩小r倍后取整,服务器将得到的取整数列作为索引,从初始声学参数对应的序列中取值,得到的新的长度为l*r的序列,也就是变速后的声学参数。最后,当r大于2时,服务器将当前音素对应的初始声学参数延长两倍以上,得到变速后的声学参数。具体的,服务器首先执行r等于2的步骤,得到变速数据,然后服务器将得到的变速数据与新的变速倍率r/2一起,重复执行整个变速处理的r等于2对应的步骤。207、将变速后的声学参数进行串联拼接,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。需要说明的是,传统的语音变速算法,例如,音频变时不变调处理wsola和相位声码,其基本思路都是对波形进行分帧,进行调整帧移后再重新进行重叠拼接。但都存在叠加处的波形过度不自然的问题,导致后续变调时,声学参数无法正常提取。因此,将变速后的声学参数进行串联拼接,避免了波形层面的叠加操作,并进而避免了因波形受损而导致声学参数提取准确率低的问题,使得变速算法的应用对象为声学参数。208、对变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络。具体的,服务器从变速后的频谱包络中查询3千赫兹左右频率段内共振峰,并记录共振峰的中心频率和幅值;服务器根据共振峰的中心频率和幅值确定提升滤波器的强度系数和待增强的中心频率;服务器根据提升滤波器的强度系数和待增强的中心频率进行共振峰增强,得到共振峰增强谱;服务器对共振峰增强谱进行滤波处理,得到增强后的频谱包络。可以理解的是,频谱包络是将不同频率的振幅最高点连结起来形成的曲线,也就是频谱包络线。频谱是许多不同频率的集合,形成一个很宽的频率范围,不同的频率其振幅可能不同。209、基于音高信息、歌唱时长和变速后的基频进行矫正处理,得到矫正后的基频。具体的,服务器基于音高信息、歌唱时长和变速后的基频生成歌曲的基频;服务器将初始声学参数中的基频进行叠加并计算平均值,得到平均基频;服务器基于平均基频对歌曲的基频进行升调或者降调处理,得到初始基频序列,初始基频序列包括音高和音符,需要说明的是,在普通话中,可以利用发声时声带是否震动将声母分为清音和浊音两类。而声带震动的频率则与发音时的基频有着直接的关联,声带不震动表示无基频,也就是基频为0。因此,在生成新的基频序列时,需将清音声母的基频设置为0;当检测到初始基频序列中存在同一个文字对应不同的音高时,服务器对相同的音高对应的音符进行平滑处理;当检测到初始基频序列中相邻的音符之间存在音高的变化时,服务器通过预置公式对相邻的音符之间进行准备和过冲处理,预置公式为其中,s为初始基频序列,ω为固有频率,ξ为阻尼系数,k为比例增益;当检测到初始基频序列中音符的预置时长大于预置阈值时,服务器对音符对应的初始基频序列加入颤音;当检测到初始基频序列中存在过度平滑时,服务器对初始基频序列加入白噪声,得到矫正后的基频序列。需要说明的是,歌曲中时常会出现一个文字对应多个音高不相同的音符的情况,针对这一情况,服务器在两个音符之间加入了平滑,使其更符合真人演唱时的习惯,提升听感自然度。例如《我的祖国》的部分歌词,以“浪”这个文字为例,这个文字对应了4个不同的音高,平滑前的音高过度显得比较生硬突兀,而平滑处理后的音高过渡则更加平滑,更符合真人演唱。可以理解的是,颤音是一种常见的歌唱技巧,主要出现在延音上,表现为基频上类似正弦波的小幅震颤。若一个音符的时长超过预置阈值x,将在这个音符的初始基频序列上加入颤音。进一步地,当加入颤音时,考虑三个参数:颤音加入点a,a为0到1之间,表示从该音符的哪一个时刻开始加入颤音;颤音的振幅extent和颤音的频率rate。不同的演唱形式中,x、a、extent和rate的值都会有所变化。举例来说,相比美声唱法,流行唱法中x和a值更大,而extent和rate值更小。例如,对《我的祖国》的歌词中“宽”字添加颤音后,体现了流行唱法中颤音加入方式。210、通过预置声码器对变速后的非周期序列、增强后的频谱包络和矫正后的基频进行歌曲合成处理,得到合成歌曲。也就是说,服务器最终将三种声学特征:矫正后的基频、调整后的频谱包络和变速后的非周期序列输入到通过world中,通过world合成输出得到合成歌曲,其中,合成歌曲为波形信号。需要说明的是,声码器world基于人类发音频谱将文字转化为与人类发音相似的声音,也就是world会把每个拼音看作为一个序列,根据变速后的非周期序列、增强后的频谱包络和矫正后的基频预测每段需要合成语音的序列,再将预测出的声谱转换为歌唱的声音波形。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌曲数据就能实现歌曲合成,降低歌曲合成的数据收集成本。上面对本发明实施例中歌曲合成方法进行了描述,下面对本发明实施例中歌曲合成装置进行描述,请参阅图3,本发明实施例中歌曲合成装置的一个实施例包括:获取模块301,用于获取目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;标注模块302,用于通过预置语音识别模型和歌词拼音文本对歌词朗诵音频中的音素进行时长标注,得到音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;分析模块303,用于通过预置声码器对歌词朗诵音频进行分析,得到音素对应的初始声学参数,初始声学参数包括基频、频谱包络与非周期序列;提取模块304,用于根据预置声母变速字典、节奏信息和节拍信息从歌词拼音文本中提取音素的歌唱时长,音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;变速模块305,用于根据预置变速算法、朗诵时长和歌唱时长对初始声学参数进行变速处理,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;增强模块306,用于对变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;矫正模块307,用于基于音高信息、歌唱时长和变速后的基频进行矫正处理,得到矫正后的基频;合成模块308,用于通过预置声码器对变速后的非周期序列、增强后的频谱包络和矫正后的基频进行歌曲合成处理,得到合成歌曲。需要强调的是,为进一步保证上述合成的歌曲的私密和安全性,上述合成的歌曲还可以存储于一区块链的节点中。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。请参阅图4,本发明实施例中歌曲合成装置的另一个实施例包括:获取模块301,用于获取目标歌曲的歌词朗诵音频和乐谱信息,乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息;标注模块302,用于通过预置语音识别模型和歌词拼音文本对歌词朗诵音频中的音素进行时长标注,得到音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长;分析模块303,用于通过预置声码器对歌词朗诵音频进行分析,得到音素对应的初始声学参数,初始声学参数包括基频、频谱包络与非周期序列;提取模块304,用于根据预置声母变速字典、节奏信息和节拍信息从歌词拼音文本中提取音素的歌唱时长,音素的歌唱时长包括声母歌唱时长和韵母歌唱时长;变速模块305,用于根据预置变速算法、朗诵时长和歌唱时长对初始声学参数进行变速处理,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列;增强模块306,用于对变速后的频谱包络进行共振峰增强处理,得到增强后的频谱包络;矫正模块307,用于基于音高信息、歌唱时长和变速后的基频进行矫正处理,得到矫正后的基频;合成模块308,用于通过预置声码器对变速后的非周期序列、增强后的频谱包络和矫正后的基频进行歌曲合成处理,得到合成歌曲。可选的,标注模块302还可以具体用于:对乐谱信息进行解析,并从解析后的乐谱信息中读取歌词拼音文本;将歌词朗诵音频与歌词拼音文本输入到预置语音识别模型中,并通过预置语音识别模型对歌词朗诵音频进行语音解析;通过预置语音识别模型对语音解析后的歌词朗诵音频中的音素按照歌词拼音文本进行标注,得到音素的时间戳和持续时长,音素包括声母和韵母;根据音素的时间戳和持续时长确定音素的朗诵时长,音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。可选的,提取模块304还可以具体用于:根据节奏信息和节拍信息从歌词拼音文本中提取每个文字的歌唱时长t;根据每个文字的歌唱时长t从预置声母变速词典中查询得到每个文字的声母歌唱时长t1;对每个文字的歌唱时长t和每个文字的声母歌唱时长t1进行差运算,得到每个文字的韵母歌唱时长t2,其中,t2=t-t1;将每个文字的声母歌唱时长和每个文字的韵母歌唱时长设置为每个文字对应的音素的歌唱时长。可选的,变速模块305包括:计算单元3051,用于根据声母朗诵时长、韵母朗诵时长、声母歌唱时长和韵母歌唱时长计算音素的变速速率r,且r>0;变速单元3052,用于通过预置变速算法按照变速倍率r对初始声学参数进行变速处理,得到变速后的声学参数;拼接单元3053,用于将变速后的声学参数进行串联拼接,得到目标声学参数,目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。可选的,变速单元3052还可以具体用于:当r等于1时,确定初始声学参数为变速后的声学参数;当r等于2时,对初始声学参数进行延长两倍处理,得到变速后的声学参数;当r小于2,且r不等于1时,采用预置等比加减帧算法对初始声学参数进行变速处理,得到变速后的声学参数;当r大于2时,将初始声学参数延长两倍以上,得到变速后的声学参数。可选的,增强模块306还可以具体用于:从变速后的频谱包络中查询3千赫兹左右频率段内共振峰,并记录共振峰的中心频率和幅值;根据共振峰的中心频率和幅值确定提升滤波器的强度系数和待增强的中心频率;根据提升滤波器的强度系数和待增强的中心频率进行共振峰增强,得到共振峰增强谱;对共振峰增强谱进行滤波处理,得到增强后的频谱包络。可选的,矫正模块307还可以具体用于:基于音高信息、歌唱时长和变速后的基频生成歌曲的基频;将初始声学参数中的基频进行叠加并计算平均值,得到平均基频;基于平均基频对歌曲的基频进行升调或者降调处理,得到初始基频序列,初始基频序列包括音高和音符;当检测到初始基频序列中存在同一个文字对应不同的音高时,对相同的音高对应的音符进行平滑处理;当检测到初始基频序列中相邻的音符之间存在音高的变化时,通过预置公式对初始基频序列中相邻的音符之间进行准备和过冲处理,预置公式为其中,s为初始基频序列,ω为固有频率,ξ为阻尼系数,k为比例增益;当检测到初始基频序列中音符的预置时长大于预置阈值时,对音符对应的初始基频序列加入颤音;当检测到初始基频序列中音符存在过度平滑时,对初始基频序列加入白噪声,得到矫正后的基频序列。本发明实施例中,从歌词朗诵音频中分析声学参数,并基于乐谱信息通过声码器从声学参数层面实现变速和拼接,将说话声音转换成歌声,保留用户原有音色和音域的基础上实现歌曲合成,提高歌声的自然度,同时无需收集大量的歌唱数据就能实现歌曲合成,降低歌曲合成的数据收集成本。上面图3和图4从模块化功能实体的角度对本发明实施例中的歌曲合成装置进行详细描述,下面从硬件处理的角度对本发明实施例中歌曲合成设备进行详细描述。图5是本发明实施例提供的一种歌曲合成设备的结构示意图,该歌曲合成设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对歌曲合成设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在歌曲合成设备500上执行存储介质530中的一系列指令操作。基于歌曲合成设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的歌曲合成设备结构并不构成对基于歌曲合成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述歌曲合成方法的步骤。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页1 2 3 当前第1页1 2 3 
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
相关标签: 频谱分析
热门咨询
tips