一种音频样本的提取方法、设备、终端及存储介质与流程

2021-01-28 13:01:51|

230|

起点商标网

本申请涉及数据处理技术领域，尤其涉及一种音频样本的提取方法、设备、终端及存储介质。

背景技术：

在音频领域中，基于机器学习的算法绝大多数需要大量的音频训练样本用来做算法迭代训练，这也说明，拥有高效地收集大量音频样本的能力是必不可缺，也意义重大的。

目前，在计算机听觉(音频)领域中，对于音频样本，收集的现成资源屈指可数，收集途径匮乏，主要采用人工标注收集的方式收集音频样本，然而人工的标注工作量极大、在统一标准上存在难度。因此，如何提高获取音频样本的效率非常重要。

技术实现要素：

本发明实施例提供了一种音频样本的提取方法、设备、终端及存储介质，可以实现基于歌词文件提取相同歌词片段的音频样本，减少了工作量，满足了对提取音频样本的自动化、智能化需求，提高了提取音频样本的效率。

第一方面，本发明实施例提供了一种音频样本的提取方法，包括：

获取第一歌词文件和第二歌词文件，所述第一歌词文件中包括歌词与时间信息的第一映射关系，所述第二歌词文件中包括歌词与时间信息的第二映射关系；

计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度，并获取所述相似度大于预设相似度阈值的第一歌词文件中的第一歌词和第二歌词文件中的第二歌词；

根据所述第一映射关系确定与所述第一歌词对应的第一时间信息，根据所述第二映射关系确定与所述第二歌词对应的第二时间信息；

根据所述第一时间信息对所述第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据所述第二时间信息对所述第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件；

对所述第一子音频文件添加第一标注信息，并对所述第二子音频文件添加第二标注信息，以及确定所述添加第一标注信息的第一子音频文件和所述添加第二标注信息的第二子音频文件为相同歌词片段的音频样本，其中，所述第一标注信息和所述第二标注信息用于神经网络模型的训练。

第二方面，本发明实施例提供了一种音频样本的提取设备，包括：

获取单元，用于获取第一歌词文件和第二歌词文件，所述第一歌词文件中包括歌词与时间信息的第一映射关系，所述第二歌词文件中包括歌词与时间信息的第二映射关系；

计算单元，用于计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度，并获取所述相似度大于预设相似度阈值的第一歌词文件中的第一歌词和第二歌词文件中的第二歌词；

第一确定单元，用于根据所述第一映射关系确定与所述第一歌词对应的第一时间信息，根据所述第二映射关系确定与所述第二歌词对应的第二时间信息；

裁剪单元，用于根据所述第一时间信息对所述第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据所述第二时间信息对所述第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件；

第二确定单元，用于对所述第一子音频文件添加第一标注信息，并对所述第二子音频文件添加第二标注信息，以及确定所述添加第一标注信息的第一子音频文件和所述添加第二标注信息的第二子音频文件为相同歌词片段的音频样本，其中，所述第一标注信息和所述第二标注信息用于神经网络模型的训练。

第三方面，本发明实施例提供了一种终端，所述终端包括：处理器和存储器，所述处理器用于执行：

根据所述第一映射关系确定与所述第一歌词对应的第一时间信息，根据所述第二映射关系确定与所述第二歌词对应的第二时间信息；

第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，该程序指令被执行时，用于实现上述第一方面所述的方法。

本发明实施例通过获取第一歌词文件和第二歌词文件，计算第一歌词文件中的各歌词与第二歌词文件中的各歌词的相似度，以获取相似度大于预设相似度阈值的第一歌词文件中的第一歌词和第二歌词文件中的第二歌词；并根据第一歌词文件中歌词与时间信息的第一映射关系确定与第一歌词对应的第一时间信息，根据第二歌词文件中歌词与时间信息的第二映射关系确定与第二歌词对应的第二时间信息；根据第一时间信息对第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据第二时间信息对第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件，对所述第一子音频文件添加第一标注信息，并对所述第二子音频文件添加第二标注信息，以及确定所述添加第一标注信息的第一子音频文件和所述添加第二标注信息的第二子音频文件为相同歌词片段的音频样本，其中，所述第一标注信息和所述第二标注信息用于神经网络模型的训练。通过这种实施方式，可以实现基于歌词文件提取相同歌词片段的音频样本，减少了工作量，满足了对提取音频样本的自动化、智能化需求，提高了提取音频样本的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频样本的提取系统的结构示意图；

图2是本发明实施例提供的一种音频样本的提取方法的流程示意图；

图3是本发明实施例提供的一种音频样本的提取设备的结构示意图；

图4是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的音频样本的提取方法可以应用于一种音频样本的提取系统，所述系统包括音频样本的提取设备和服务器，所述音频样本的提取设备可以设置在终端中，在某些实施例中，所述终端可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。在某些实施例中，所述服务器中包括一个或多个数据库，所述数据库可以用于存储音频文件如歌曲等内容。在某些实施例中，所述服务器可以是云端的服务器。在某些实施例中，本发明实施例提供的音频样本的提取方法提取的音频样本可以应用于各种不同的场景：例如对歌曲翻唱识别模型的训练，训练完成的模型可以识别歌曲是否属于翻唱歌曲；又如对音色转换模型的训练，如训练完成的模型可以将音色a转换至音色b；再如对歌曲串烧模型的训练，训练完成的模型可以将某歌曲的前n句歌词与b歌曲的后m句歌词拼接到一起。当然，以上应用场景仅仅是示例说明，本发明实施例所提取的音频样本可以应用到依据歌词片段之间的对应关系进行音频处理的任意场景中。

下面结合附图1对本发明实施例提供的音频样本的提取系统进行示意性说明。

请参见图1，图1是本发明实施例提供的一种音频样本的提取系统的结构示意图，该系统包括终端11和服务器12，在某些实施例中，终端11与服务器12可以通过无线通信方式建立通信连接；其中，在某些场景下，所述终端11与服务器12之间也可以通过有线通信方式建立通信连接。在某些实施例中，所述终端11可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。

本发明实施例中，终端11可以从服务器12中获取2个音频文件即歌曲文件，终端11可以对获取到的2个音频文件进行解析，分别得到对应的第一歌词文件和第二歌词文件，所述第一歌词文件中包括歌词与时间信息的第一映射关系，所述第二歌词文件中包括歌词与时间信息的第二映射关系。终端11通过计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度，获取所述相似度大于预设相似度阈值的第一歌词文件中的第一歌词和第二歌词文件中的第二歌词，并根据所述第一映射关系确定与所述第一歌词对应的第一时间信息，根据所述第二映射关系确定与所述第二歌词对应的第二时间信息；以及根据所述第一时间信息对所述第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据所述第二时间信息对所述第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件；以及对所述第一子音频文件添加第一标注信息，并对所述第二子音频文件添加第二标注信息，以及确定所述添加第一标注信息的第一子音频文件和所述添加第二标注信息的第二子音频文件为相同歌词片段的音频样本，其中，所述第一标注信息和所述第二标注信息用于神经网络模型的训练。

通过这种方式，可以实现基于歌词文件提取相同歌词片段的音频样本，减少了工作量，满足了对提取音频样本的自动化、智能化需求，提高了提取音频样本的效率。

下面结合附图2对本发明实施例提供的音频样本的提取方法进行示意性说明。

具体请参见图2，图2是本发明实施例提供的一种音频样本的提取方法的流程示意图，本发明实施例的音频样本的提取方法可以由音频样本的提取设备执行，其中，所述音频样本的提取设备设置于终端中，其中，所述终端的具体解释如前所述。具体地，本发明实施例的所述方法包括如下步骤。

s201：获取第一歌词文件和第二歌词文件，所述第一歌词文件中包括歌词与时间信息的第一映射关系，所述第二歌词文件中包括歌词与时间信息的第二映射关系。

本发明实施例中，音频样本的提取设备可以获取第一歌词文件和第二歌词文件，所述第一歌词文件中包括歌词与时间信息的第一映射关系，所述第二歌词文件中包括歌词与时间信息的第二映射关系。在某些实施例中，音频样本的提取设备可以从其他终端设备、平台或服务器上获取第一歌词文件和第二歌词文件，其中，所述第一歌词文件和第二歌词文件可以是从同一首歌曲中获取的不同的歌曲片段的歌词文件，也可以是不同歌曲中获取的歌曲片段的歌词文件。

在某些实施例中，可以将获取到的第一歌词文件和第二歌词文件存储于指定的数据结构中，例如，所述指定数据结构可以为python语言中的字典dictionary或c等语言中的map结构。

在一个实施例中，音频样本的提取设备在获取第一歌词文件和第二歌词文件的过程中，可以获取第一音频文件和第二音频文件，并对所述第一音频文件进行解析得到所述第一歌词文件，以及对所述第二音频文件进行解析得到所述第二歌词文件。

在一个实施例中，音频样本的提取设备在对所述第一音频文件进行解析得到所述第一歌词文件，以及对所述第二音频文件进行解析得到所述第二歌词文件的过程中，可以按照指定文件格式对所述第一音频文件进行遍历分析，得到所述第一音频文件对应的各歌词的时间信息，并根据所述各歌词和各歌词的时间信息确定所述第一歌词文件，所述时间信息包括每句歌词对应的起始时间和歌词时长；以及按照所述指定文件格式对所述第二音频文件进行遍历分析，得到所述第二音频文件对应的各歌词的时间信息，并根据所述各歌词和各歌词的时间信息确定所述第二歌词文件，所述时间信息包括每句歌词对应的起始时间和歌词时长。

在某些实施例中，所述指定文件格式可以包括但不限于lrc、qrc的格式，其中，所述lrc格式是一种带有时间轴等信息标记的歌词文件格式，以便于获取各歌词对应的时间信息，所述qrc格式是一种基于lrc改进的歌词文件格式。

s202：计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度，并获取所述相似度大于预设相似度阈值的第一歌词文件中的第一歌词和第二歌词文件中的第二歌词。

本发明实施例中，音频样本的提取设备可以计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度，并获取所述相似度大于预设相似度阈值的第一歌词文件中的第一歌词和第二歌词文件中的第二歌词。

在一个实施例中，音频样本的提取设备在计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度的过程中，可以根据预设规则确定所述第一歌词文件中各歌词与所述第二歌词文件中的各歌词的第三映射关系，并按照所述第三映射关系计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度。

在一个实施例中，在根据预设规则确定所述第一歌词文件中各歌词与所述第二歌词文件中的各歌词的第三映射关系，并按照所述第三映射关系计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度时，可以确定第一歌词文件中的第n句歌词与第二歌词文件中的第[n-m，n+m]句歌词的第三映射关系，并按照所述第三映射关系计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度。其中，n为大于或等于1的整数，m为大于或等于0的数，n大于m。例如，将第一歌词文件中第4句歌词与第二歌词文件中的第3句歌词、第4句歌词、第5句歌词进行对比，以计算第一歌词文件中第4句歌词与第二歌词文件中的第3句歌词的相似度，计算第一歌词文件中第4句歌词与第二歌词文件中的第4句歌词的相似度，计算第一歌词文件中第4句歌词与第二歌词文件中的第5句歌词的相似度。

在一个实施例中，音频样本的提取设备在按照所述第三映射关系计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度的过程中，可以根据所述第三映射关系将所述第一歌词文件中的各歌词与所述第二歌词文件中对应的各歌词进行比对，并根据比对结果确定所述第一歌词文件中第三歌词与所述第一歌词文件中第四歌词相同的目标歌词序列，以及根据所述目标歌词序列的序列长度、所述第三歌词的序列长度和所述第四歌词的序列长度，计算所述第三歌词与所述第四歌词的相似度。

在一个实施例中，音频样本的提取设备在根据所述目标歌词序列的序列长度、所述第三歌词的序列长度和所述第四歌词的序列长度，计算所述第三歌词与所述第四歌词的相似度时，可以将所述第三歌词的序列长度与所述第四歌词的序列长度进行比对，以获取最大序列长度，并根据所述目标歌词序列的序列长度和所述最大序列长度的比值，确定所述第三歌词与所述第四歌词的相似度。

具体地，假设第三歌词的序列长度为l(a)，第四歌词的序列长度为l(b)，第三歌词与第四歌词相同的目标歌词序列的序列长度为l(n)，则所述第三歌词与所述第四歌词的相似度s(a,b)的计算公式如下公式(1)所示：

s(a,b)＝l(n)/max(l(a),l(b))(1)

其中，max(l(a),l(b))表示第三歌词的序列长度与第四歌词的序列长度之间的最大序列长度。

例如，假设第三歌词的序列长度为10，第四歌词的序列长度为8，第三歌词与第四歌词相同的目标歌词序列的序列长度为5，则所述第三歌词与所述第四歌词的相似度s(a,b)＝5/10＝0.5＝50％，因此，可以确定所述第三歌词与所述第四歌词的相似度为50％。

s203：根据所述第一映射关系确定与所述第一歌词对应的第一时间信息，根据所述第二映射关系确定与所述第二歌词对应的第二时间信息。

本发明实施例中，音频样本的提取设备可以根据所述第一映射关系确定与所述第一歌词对应的第一时间信息，根据所述第二映射关系确定与所述第二歌词对应的第二时间信息。在某些实施例中，所述第一时间信息和第二时间信息包括但不限于每句歌词对应的起始时间、歌词时长、歌词结束时间等。

s204：根据所述第一时间信息对所述第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据所述第二时间信息对所述第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件。

本发明实施例中，音频样本的提取设备可以根据所述第一时间信息对所述第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据所述第二时间信息对所述第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件。

在一个实施例中，音频样本的提取设备在根据所述第一时间信息对所述第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据所述第二时间信息对所述第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件时，可以根据所述第一时间信息中所述第一歌词对应的起始时间和歌词时长，对所述第一音频文件进行裁剪，得到所述第一子音频文件，并根据所述第二时间信息中所述第二歌词对应的起始时间和歌词时长，对所述第二音频文件进行裁剪，得到所述第二子音频文件。

在一个实施例中，可以利用裁剪工具对第一音频文件和第二音频文件进行裁剪，并根据用户需求对裁剪得到的第一子音频文件和第二子音频文件进行命名并存储。

s205：对所述第一子音频文件添加第一标注信息，并对所述第二子音频文件添加第二标注信息，以及确定所述添加第一标注信息的第一子音频文件和所述添加第二标注信息的第二子音频文件为相同歌词片段的音频样本，其中，所述第一标注信息和所述第二标注信息用于神经网络模型的训练。

本发明实施例中，音频样本的提取设备可以对所述第一子音频文件添加第一标注信息，并对所述第二子音频文件添加第二标注信息，以及确定所述添加第一标注信息的第一子音频文件和所述添加第二标注信息的第二子音频文件为相同歌词片段的音频样本，其中，所述第一标注信息和所述第二标注信息用于神经网络模型的训练。

例如，假设第一音频文件的第一歌词文件的歌词为“我爱我的祖国，一刻也不能分割”，序列长度为14，第二音频文件的第二歌词文件的歌词为“我爱我的家乡，每一刻也不能分割”，序列长度为15，则这两句歌词中相同的目标歌词序列为“我爱我的一刻也不能分割”，其序列长度为11，因此可以就算得到这两句歌词的相似度为11/15＝73％，如果预设相似度阈值为30％，则可以确定这两句歌词为相似歌曲，并根据这两句歌词各自对应的起始时间和歌词时长，分别对第一音频文件和第二音频文件进行裁剪，得到这两句歌词对应的子音频文件，并对第一歌词文件的歌词添加第一标注信息如第一音频文件对应的标识、第一歌词文件的歌词对应的起始时间和歌词时长，以及对第二歌词文件的歌词添加第二标注信息如第二音频文件对应的标识、第二歌词文件的歌词对应的起始时间和歌词时长，从而确定所述添加标注信息后的这两句歌词对应的子音频文件为相同歌词片段的音频样本。

在一些实施例中，音频样本的提取设备可以获取第一子音频文件的标识，并获取第一歌词以及第一歌词的第一时间信息中第一歌词的起始时间、歌词时长等，从而根据第一子音频文件的标识、第一歌词的起始时间、歌词时长中的一种或多种，确定第一标注信息。在某些实施例中，所述第一子音频文件的标识可以根据第一音频文件的标识确定，包括但不限于文件名称、文件编号等，例如，假设第一音频文件的标识为1，则第一子音频文件的标识可以为12。

在一些实施例中，音频样本的提取设备可以获取第二子音频文件的标识，并获取第二歌词以及第二歌词的第二时间信息中第二歌词的起始时间、歌词时长等，从而根据第二子音频文件的标识、第二歌词的起始时间、歌词时长中的一种或多种，确定第二标注信息。在某些实施例中，所述第二子音频文件的标识可以根据第二音频文件的标识确定，包括但不限于文件名称、文件编号等。其中，所述第一子音频文件的标识与所述第二子音频文件的标识不相同。

在一种实现方式中，音频样本的提取设备在对所述第一子音频文件添加第一标注信息，并对所述第二子音频文件添加第二标注信息时，可以先确定待训练的神经网络模型所需的标注信息类型，再根据确定出的标注信息类型确定与该标注信息类型对应的第一标注信息和第二标注信息。

在某些实施例中，在确定待训练的神经网络模型所需的标注信息类型时，可以根据所述待训练的神经网络模型的应用场景确定标注信息类型，例如，当所述待训练的神经网络模型的应用场景为歌曲翻唱的场景时，则可以确定标注信息类型包括歌曲标识(如第一音频文件标识，第二音频文件标识)、歌词的起始时间、歌词时长；又例如，当所述待训练的神经网络模型的应用场景为歌词识别的场景时，则可以确定标注信息类型包括歌曲标识、歌词、歌词的起始时间、歌词时长。

在另一种实现方式中，可以是按照预设的标注信息类型先随意添加，添加的标注信息作为备选标注信息，在实际应用中可以根据待训练的神经网络模型的应用场景选择目标标注信息进行模型训练。例如，预设的标注信息类型包括但不限于歌曲标识、歌词、歌词的起始时间、歌词时长等。在某些实施例中，所述标注信息类型包括但不限于音频文件的标识、音频文件对应的歌词、歌词的起始时间、歌词时长等。

在一个实施例中，当所述第一标注信息和所述第二标注信息用于音乐识别模型的训练时，所述第一标注信息包括所述第一子音频文件对应的标识、第一歌词对应的起始时间、歌词时长中的任意一项或多项，所述第二标注信息包括所述第二子音频文件对应的标识、第二歌词对应的起始时间、歌词时长中的任意一项或多项。通过所述添加第一标注信息的第一子音频文件和添加第二标注信息的第二子音频文件训练得到音乐识别模型。在训练音乐识别模型时，可以对音频样本进行分片(如每片1～5秒)，并提取每片音频样本的特征，将添加标注信息的每片音频样本的特征输入神经网络模型训练得到音乐识别模型。

在一个实施例中，当所述第一标注信息和所述第二标注信息用于音频歌词识别训练时，所述第一标注信息包括所述第一子音频文件对应的标识、第一歌词、第一歌词对应的起始时间、歌词时长中的任意一项或多项，所述第二标注信息包括所述第二子音频文件对应的标识、第二歌词对应的起始时间、歌词时长中的任意一项或多项。通过所述第一标注信息和第二标注信息训练得到音频歌词识别模型，并利用所述音频歌词识别模型可以识别出相同歌词对应的不同的音频信号。

例如，将张三演唱的目标歌曲和李四演唱的与张三演唱的相同歌词的目标歌曲输入训练得到的音频歌词识别模型，识别得到所述具有相同歌词的目标歌曲对应的两个不同的音频信号(即张三对应的音频信号和李四对应的音频信号)。通过这种音频歌词识别模型，可以识别出相同歌词文本下的不同的音频信号。

在一个实施例中，当所述第一标注信息和所述第二标注信息用于翻唱歌曲串烧的训练时，所述第一标注信息包括所述第一子音频文件对应的标识、第一歌词对应的起始时间、歌词时长中的任意一项或多项，所述第二标注信息包括所述第二子音频文件对应的标识、第二歌词对应的起始时间、歌词时长中的任意一项或多项。通过所述第一标注信息和第二标注信息训练得到翻唱歌曲模型，并利用所述翻唱歌曲模型可以识别出相同歌词对应的不同的音频信号。

例如，将待测试音频文件的歌词分为a和b两部分，将b部分歌词输入翻唱歌曲模型中，得到与b部分歌词对应的翻唱歌曲对应的标识、歌词起始时间、歌词时长，通过音频剪切的处理，将待测试音频文件的a部分音频与b部分对应的翻唱音频拼合在一起，形成一个歌曲串烧。

请参见图3，图3是本发明实施例提供的一种音频样本的提取设备的结构示意图。具体的，所述音频样本的提取设备设置于终端中，所述设备包括：获取单元301、计算单元302、第一确定单元303、裁剪单元304、第二确定单元305；

获取单元301，用于获取第一歌词文件和第二歌词文件，所述第一歌词文件中包括歌词与时间信息的第一映射关系，所述第二歌词文件中包括歌词与时间信息的第二映射关系；

计算单元302，用于计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度，并获取所述相似度大于预设相似度阈值的第一歌词文件中的第一歌词和第二歌词文件中的第二歌词；

第一确定单元303，用于根据所述第一映射关系确定与所述第一歌词对应的第一时间信息，根据所述第二映射关系确定与所述第二歌词对应的第二时间信息；

裁剪单元304，用于根据所述第一时间信息对所述第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据所述第二时间信息对所述第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件；

第二确定单元305，用于对所述第一子音频文件添加第一标注信息，并对所述第二子音频文件添加第二标注信息，以及确定所述添加第一标注信息的第一子音频文件和所述添加第二标注信息的第二子音频文件为相同歌词片段的音频样本，其中，所述第一标注信息和所述第二标注信息用于神经网络模型的训练。

进一步地，所述获取单元301获取第一歌词文件和第二歌词文件时，具体用于：

获取所述第一音频文件和所述第二音频文件；

对所述第一音频文件进行解析得到所述第一歌词文件，以及对所述第二音频文件进行解析得到所述第二歌词文件。

进一步地，所述获取单元301对所述第一音频文件进行解析得到所述第一歌词文件，以及对所述第二音频文件进行解析得到所述第二歌词文件时，具体用于：

按照指定文件格式对所述第一音频文件进行遍历分析，得到所述第一音频文件对应的各歌词的时间信息，并根据所述各歌词和各歌词的时间信息确定所述第一歌词文件，所述时间信息包括每句歌词对应的起始时间和歌词时长；

按照所述指定文件格式对所述第二音频文件进行遍历分析，得到所述第二音频文件对应的各歌词的时间信息，并根据所述各歌词和各歌词的时间信息确定所述第二歌词文件，所述时间信息包括每句歌词对应的起始时间和歌词时长。

进一步地，所述裁剪单元304根据所述第一时间信息对所述第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据所述第二时间信息对所述第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件时，具体用于：

根据所述第一时间信息中所述第一歌词对应的起始时间和歌词时长，对所述第一音频文件进行裁剪，得到所述第一子音频文件；

根据所述第二时间信息中所述第二歌词对应的起始时间和歌词时长，对所述第二音频文件进行裁剪，得到所述第二子音频文件。

进一步地，所述计算单元302计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度时，具体用于：

根据预设规则确定所述第一歌词文件中各歌词与所述第二歌词文件中的各歌词的第三映射关系；

根据所述第三映射关系将所述第一歌词文件中的各歌词与所述第二歌词文件中对应的各歌词进行比对；

根据比对结果确定所述第一歌词文件中第三歌词与所述第一歌词文件中第四歌词相同的目标歌词序列；

根据所述目标歌词序列的序列长度、所述第三歌词的序列长度和所述第四歌词的序列长度，计算所述第三歌词与所述第四歌词的相似度。

进一步地，所述计算单元302根据所述目标歌词序列的序列长度、所述第三歌词的序列长度和所述第四歌词的序列长度，计算所述第三歌词与所述第四歌词的相似度时，具体用于：

将所述第三歌词的序列长度与所述第四歌词的序列长度进行比对，以获取最大序列长度；

根据所述目标歌词序列的序列长度和所述最大序列长度的比值，确定所述第三歌词与所述第四歌词的相似度。

进一步地，当所述第一标注信息和所述第二标注信息用于音乐识别模型的训练时，所述第一标注信息包括所述第一子音频文件对应的标识、第一歌词对应的起始时间、歌词时长中的任意一项或多项，所述第二标注信息包括所述第二子音频文件对应的标识、第二歌词对应的起始时间、歌词时长中的任意一项或多项。

请参见图4，图4是本发明实施例提供的一种终端的结构示意图。具体的，所述终端包括：存储器401、处理器402。

在一种实施例中，所述终端还包括数据接口403，所述数据接口403，用于传递终端和其他设备之间的数据信息。

所述存储器401可以包括易失性存储器(volatilememory)；存储器401也可以包括非易失性存储器(non-volatilememory)；存储器401还可以包括上述种类的存储器的组合。所述处理器402可以是中央处理器(centralprocessingunit，cpu)。所述处理器402还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit，asic)，可编程逻辑器件(programmablelogicdevice，pld)或其组合。上述pld可以是复杂可编程逻辑器件(complexprogrammablelogicdevice，cpld)，现场可编程逻辑门阵列(field-programmablegatearray，fpga)或其任意组合。

所述存储器401用于存储程序，所述处理器402可以调用存储器401中存储的程序，用于执行如下步骤：

根据所述第一映射关系确定与所述第一歌词对应的第一时间信息，根据所述第二映射关系确定与所述第二歌词对应的第二时间信息；

进一步地，所述处理器402获取第一歌词文件和第二歌词文件时，具体用于：

获取所述第一音频文件和所述第二音频文件；

对所述第一音频文件进行解析得到所述第一歌词文件，以及对所述第二音频文件进行解析得到所述第二歌词文件。

进一步地，所述处理器402对所述第一音频文件进行解析得到所述第一歌词文件，以及对所述第二音频文件进行解析得到所述第二歌词文件时，具体用于：

进一步地，所述处理器402根据所述第一时间信息对所述第一歌词文件对应的第一音频文件进行裁剪得到第一子音频文件，以及根据所述第二时间信息对所述第二歌词文件对应的第二音频文件进行裁剪得到第二子音频文件时，具体用于：

根据所述第一时间信息中所述第一歌词对应的起始时间和歌词时长，对所述第一音频文件进行裁剪，得到所述第一子音频文件；

根据所述第二时间信息中所述第二歌词对应的起始时间和歌词时长，对所述第二音频文件进行裁剪，得到所述第二子音频文件。

进一步地，所述处理器402计算所述第一歌词文件中的各歌词与所述第二歌词文件中的各歌词的相似度时，具体用于：

根据预设规则确定所述第一歌词文件中各歌词与所述第二歌词文件中的各歌词的第三映射关系；

根据所述第三映射关系将所述第一歌词文件中的各歌词与所述第二歌词文件中对应的各歌词进行比对；

根据比对结果确定所述第一歌词文件中第三歌词与所述第一歌词文件中第四歌词相同的目标歌词序列；

根据所述目标歌词序列的序列长度、所述第三歌词的序列长度和所述第四歌词的序列长度，计算所述第三歌词与所述第四歌词的相似度。

进一步地，所述处理器402根据所述目标歌词序列的序列长度、所述第三歌词的序列长度和所述第四歌词的序列长度，计算所述第三歌词与所述第四歌词的相似度时，具体用于：

将所述第三歌词的序列长度与所述第四歌词的序列长度进行比对，以获取最大序列长度；

根据所述目标歌词序列的序列长度和所述最大序列长度的比值，确定所述第三歌词与所述第四歌词的相似度。

本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明图2所对应实施例中描述的方法，也可实现图3所述本发明所对应实施例的设备，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除