一种基于音高轮廓曲线的音乐旋律生成方法与流程

2021-01-28 17:01:48|

415|

起点商标网

本发明涉及音乐生成技术领域，具体为一种基于音高轮廓曲线的音乐旋律生成方法。

背景技术：

音乐生成一直是人们在计算机艺术领域不断探索的方向。在计算机发展早期，人们便开始使用传统算法实现音乐生成。近年来，利用深度神经网络进行音乐生成的尝试越来越多，例如长短时记忆网络、对抗生成网络、卷积神经网络以及改进的变分自编码器等等。利用这些网络生成的短时音乐的性能相当优秀，然而对于长时音乐生成研究稍显不足。如何使得生成的长时音乐的旋律拥有合理的乐句排布，且不同章节间存在满意的顺序与稳定的过渡，目前仍然没有很好的解决方法。鉴于此，我们提出一种基于音高轮廓曲线的音乐旋律生成方法。

技术实现要素：

为了弥补以上不足，本发明提供了一种基于音高轮廓曲线的音乐旋律生成方法。

本发明的技术方案是：

一种基于音高轮廓曲线的音乐旋律生成方法，包括如下步骤：

步骤一、在频域提取音高轮廓曲线的长期结构信息，这些长期结构信息包含了音高轮廓曲线的频域序列中的低频部分，反映了旋律的长期走向规律；

步骤二、利用具有标签控制的神经网络进行长期结构信息的拟合，生成标签对应的长期结构信息；

步骤三、利用音乐数据的长期结构信息与旋律长度信息训练另一神经网络，使其具有依据长期结构信息推测旋律长度信息的能力；

步骤四、利用训练的神经网络确定生成的目标旋律长度，在频域内对长期结构进行扩展以获得粗糙的旋律曲线；

步骤五、利用从音乐数据集中采集的词汇表，对得到的粗糙旋律曲线进行逐步的词汇匹配替换，最终得到细节优化的音乐。

作为本发明优选的技术方案，步骤二中长期结构拟合网络的具体步骤如下：

首先，确定一个合适的长度实现长期结构的压缩，经过合理的选择，最终将压缩后的长期结构统一为300位的长度；

然后，将所有旋律的音高的平均值调整为c3，即60，删除频域序列的直流分量后，频域序列只有旋律长期特征的信息，实现了与旋律调性的分离；

之后，将频域序列数据进行实轴与虚轴的分离，并重组成长度为600的序列；

最后，利用标签信息描述旋律的长期结构的高低变化，并与相应的长期结构一起送入拟合网络。

作为本发明优选的技术方案，步骤二中长期结构拟合网络的过程中使用嵌入层网络实现生成长期结构的走向控制。

作为本发明优选的技术方案，步骤四中旋律长度确定网络的具体步骤如下：

首先，使用长短时记忆网络生成乐曲旋律频域序列；

然后，设计一个协助记忆低频的模块作为长短时记忆网络停止的标志，并可作为其它频段的参考标志，在此基础上，可将协助记忆低频模块单独分离成为一个独立的网络模块，并利用这个网络从频域序列的低频部分推测出乐曲旋律可能的长度；

之后，对训练网络的乐曲旋律长度确定一个范围，并使用这个长度范围规范神经网络输出的范围；

最后，利用tanh激活函数将这个长度范围均匀变换至(-1,1)的输出范围。

作为本发明优选的技术方案，长短时记忆网络训练使用的数据格式为时间步长十六分之一音符长度，c3映射60音高编码音高轮廓曲线，长短时记忆网络使用rmsprop作为优化器，生成的乐曲旋律长度为500。

作为本发明优选的技术方案，步骤五中词汇匹配的具体步骤如下：

首先，统计乐曲库中所有乐曲旋律的调性，并将旋律统一调整为c大调；

然后，将这些乐曲旋律按照词汇长度，剪切出语料库；

最后，使用语料库与利用神经网络生成的粗糙旋律进行逐段匹配，匹配的标准是均方误差的最小化。

作为本发明优选的技术方案，包括如下参数设定：

标签长度设置为10；

噪音输入长度为100；

输出的频域信息长度为600；

频域强度缩放因子设置为0.2；

长期结构拟合网络使用adam优化器进行参数优化，adam优化器的学习速率设置为1×e^-4。

作为本发明优选的技术方案，还包括如下参数设定：

长度确定网络使用参数设置为1×e^-4的adam优化器进行参数优化；

词汇匹配的长度设置为8，采用分类标签快速检索；

乐曲旋律长度范围规定在300位到3000位之间，对应的旋律时长范围是40秒到7分钟。

与现有技术相比，本发明的有益效果是：

本发明利用音高轮廓曲线的频域特性生成长期结构可控的音乐旋律，能够实现比长短时网络生成的音乐更接近与真实的音乐分布。

附图说明

图1为本发明操作流程的基本框架图；

图2为本发明中长期结构拟合网络的结构示意图；

图3为本发明中长度确定网络的结构示意图；

图4为本发明中词汇匹配的步骤示意图；

图5为本发明中对比实验使用的长短时记忆网络结构图；

图6为本发明中节奏转移矩阵的计算方法示意图；

图7为本发明生成的音乐旋律长期结构与对应的标签。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

一种基于音高轮廓曲线的音乐旋律生成方法，包括如下步骤：

步骤一、在频域提取音高轮廓曲线的长期结构信息，这些长期结构信息包含了音高轮廓曲线的频域序列中的低频部分，反映了旋律的长期走向规律；

步骤二、利用具有标签控制的神经网络进行长期结构信息的拟合，生成标签对应的长期结构信息；

步骤三、利用音乐数据的长期结构信息与旋律长度信息训练另一神经网络，使其具有依据长期结构信息推测旋律长度信息的能力；

步骤四、利用训练的神经网络确定生成的目标旋律长度，在频域内对长期结构进行扩展以获得粗糙的旋律曲线；

步骤五、利用从音乐数据集中采集的词汇表，对得到的粗糙旋律曲线进行逐步的词汇匹配替换，最终得到细节优化的音乐。

在具体操作过程中，如图1所示，首先得到关于音乐数据的数据集，处理数据集中的音乐，得到压缩后的长期结构、长期结构标签与音乐长度集，使用长期结构与长期结构标签训练长期结构拟合网络；处理数据集中的音乐，得到压缩后的长期结构、长期结构标签与音乐长度集后使用长期结构与音乐长度集训练定长网络；从数据集中获得旋律基本词汇。

在具体的操作过程中，如图2所示，步骤二中长期结构拟合网络的具体步骤如下：

首先，确定一个合适的长度实现长期结构的压缩，经过合理的选择，最终将压缩后的长期结构统一为300位的长度；

然后，将所有旋律的音高的平均值调整为c3，即60，删除频域序列的直流分量后，频域序列只有旋律长期特征的信息，实现了与旋律调性的分离；

之后，将频域序列数据进行实轴与虚轴的分离，并重组成长度为600的序列；

最后，利用标签信息描述旋律的长期结构的高低变化，并与相应的长期结构一起送入拟合网络。

值得说明的是，上述最后一个步骤中将旋律均匀地分为十个区域，并将每个区域音高的均值与全曲音高的均值进行比对，将高于音高均值的区域标记为1，低于音高均值的区域标记为0，最终得到10位长度标签。

需要说明的是，如图2所示，步骤二中利用全连接层进行长期结构的拟合，在此之前，需要输入长度序列为600的噪音，同时使用嵌入层网络实现生成长期结构的走向控制。嵌入层网络是一种特殊的神经网络层结构，这种神经网络层会根据反向传播的权重更新信息，自动更新适应本身的神经元连接权重。可以在一定程度上对输入的标签信息在高维空间中进行编码与映射，使得网络的其他部分能够更好地理解并执行标签中包含的信息。

在具体的操作过程中，如图3所示，步骤四中旋律长度确定网络的具体步骤如下：

首先，使用长短时记忆网络生成乐曲旋律频域序列；

之后，对训练网络的乐曲旋律长度确定一个范围，并使用这个长度范围规范神经网络输出的范围；

最后，利用tanh激活函数将这个长度范围均匀变换至(-1,1)的输出范围。

需要说明的是，长短时记忆网络训练使用的数据格式为时间步长十六分之一音符长度，c3映射60音高编码音高轮廓曲线，长短时记忆网络使用rmsprop作为优化器，生成的乐曲旋律长度为500。

在具体的操作过程中，如图4所示，步骤五中词汇匹配的具体步骤如下：

首先，统计乐曲库中所有乐曲旋律的调性，并将旋律统一调整为c大调；

然后，将这些乐曲旋律按照词汇长度，剪切出语料库；

最后，使用语料库与利用神经网络生成的粗糙旋律进行逐段匹配，匹配的标准是均方误差的最小化。

值得说明的是，本发明的上述操作步骤中包括如下参数设定：

标签长度设置为10；

噪音输入长度为100；

输出的频域信息长度为600；

频域强度缩放因子设置为0.2；

长期结构拟合网络使用adam优化器进行参数优化，adam优化器的学习速率设置为1×e^-4。

值得说明的是，本发明的上述操作步骤中还包括如下参数设定：

长度确定网络使用参数设置为1×e^-4的adam优化器进行参数优化；

词汇匹配的长度设置为8，采用分类标签快速检索；

另外，如图7所给出乐曲库中旋律长度分布的规律图，从图中可以看到，乐曲旋律长度有着明显的分布规律，本发明将乐曲旋律长度范围规定在300位到3000位之间，对应的旋律时长范围是40秒到7分钟。

利用本文所提的网络共生成120首旋律，用于通过下文所描述的对比实验进行性能评估。考虑到网络之间的优化程度，这里选择如图5所示的三层结构的长短时记忆网络生成的音乐进行对比实验。考虑到长短时记忆网络的训练时间问题，这里将原始乐曲库进行缩减后用于长短时记忆网络参数的训练。同样地，利用训练过的长短时记忆网络生成120首旋律进行性能的对比。统计旋律内部变化的关系有很多种方法，但是本质上都是描述旋律变化的规律。本文参考了马尔科夫链的思想，设计了如图6所示的节奏与音高转移规律的统计方法。考虑到实际的乐曲旋律的分布状态，将节奏变化的转移矩阵大小设置为16，对应着十六分之一音符到全音符的长度。仿照上述概念，也可以给出音高变化的转移矩阵的计算方法，并将音高变化转移矩阵的大小设置为12，对应着一个半音的音高变化至一个八度的音高变化。

利用上面所述的性能统计方法，下面的表格给出了本发明方法、长短时记忆网络方法，在节奏转移矩阵、音高变化转移矩阵方面与真值之间的均方误差。

通过对比结果，我们可以看到；本发明提出的方法生成的音乐比长短时网络生成的音乐更接近与真实的音乐分布。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。