人声伴奏对齐方法及装置与流程

2021-01-28 12:01:02|

466|

起点商标网

本公开涉及音视频技术领域。更具体地，本公开涉及一种人声伴奏对齐方法及装置。

背景技术：

通过使用线上k歌系统，用户可以根据伴奏录制自己的声音，然后将人声通过一些效果器如eq、压缩、混响、音量均衡，最后再将处理后的人声与伴奏进行混合，得到混音后的人声与伴奏的音频。但是在整体过程中，会有一些因素导致人声无法与伴奏准确对齐，除了演唱者自身的乐感之外，还有手机录音硬件设备、手机机型适配、效果器延迟等外部等影响因素。

k歌人声伴奏对齐主要指对采集的人声音频信号进行偏移，使得偏移后的人声相比于偏移前的人声与伴奏对齐的更加准确，可以解决一些由于演唱者演唱水准不佳或录制硬件等外部因素导致的延迟或超前伴奏的问题。通常，k歌软件都会提供手动偏移的功能来达到上述目的。

技术实现要素：

本公开的示例性实施例在于提供一种人声伴奏对齐方法及装置，以至少解决相关技术中的人声伴奏对齐的问题，也可不解决任何上述问题。

根据本公开的第一方面，提供了一种人声伴奏对齐方法，其特征在于，包括：获取人声音频信号的人声音高序列和与伴奏相应的参考midi音高序列；基于参考midi音高序列和人声音高序列之间的相似性，对人声音频信号进行偏移；并且将偏移后的人声音频信号与伴奏进行混合，得到人声伴奏对齐的混音结果。

可选地，获取与伴奏相应的参考midi音高序列的步骤包括：获取与伴奏相应的参考midi文件；并且获取从参考midi文件提取的与伴奏相应的参考midi音高序列。

可选地，在获取与伴奏相应的参考midi音高序列的步骤之前，还包括：从与伴奏相应的参考midi文件提取关键信息，其中，关键信息包括midi音高、音高起始时间、音高持续时间中的至少一个；并且将提取的关键信息整合为包含音高信息的时间序列，并将得到的时间序列作为与伴奏相应的参考midi音高序列。

可选地，获取所述人声音频信号的人声音高序列的步骤包括：检测所述人声音频信号的基频，获得人声音高的基频序列；并且根据频率与音高之间的关系将人声音高的基频序列转换为人声音高序列。

可选地，检测所述人声音频信号的基频的步骤包括：根据所述人声音频信号的延迟指数和序列长度计算所述人声音频信号的自相关系数；根据所述人声音频信号中自相关系数最大的时间，计算所述人声音频信号的波形的周期；并且根据所述人声音频信号的波形的周期与采样率的关系计算所述人声音频信号的基频。

可选地，获取所述人声音频信号的人声音高序列和与所述人声音频信号相应的参考midi音高序列的步骤包括：分别对获取的参考midi音高序列和人声音高序列进行音高统一化处理，将音高统一化处理后的参考midi音高序列和人声音高序列作为最终的参考midi音高序列和人声音高序列。

可选地，对人声音频信号进行偏移的步骤包括：对参考midi音高序列和人声音高序列进行相似性比对，以获得使参考midi音高序列和人声音高序列之间的相似性最大的最佳人声偏移时间；并且将人声音频信号偏移最佳人声偏移时间。

可选地，对参考midi音高序列和人声音高序列进行相似性比对，以获得使参考midi音高序列和人声音高序列之间的相似性最大的最佳人声偏移时间的步骤包括：通过前后移动人声音高序列，识别参考midi音高序列和人声音高序列两者之差的最小值时移动的时间，并将识别出的时间作为最佳人声偏移时间。

可选地，将人声音频信号偏移最佳人声偏移时间的步骤包括：基于预设的置信度确定最佳人声偏移时间是否适用；并且当确定最佳人声偏移时间适用时，将人声音频信号偏移最佳人声偏移时间。

可选地，基于预设的置信度确定最佳人声偏移时间是否适用的步骤包括：对偏移了最佳人声偏移时间的人声音高序列的曲线进行平滑处理；并且如果平滑处理后的曲线中的峰的数量超过预设数量或者两个峰之间的距离小于预设距离，则确定最佳人声偏移时间不适用，如果平滑处理后的曲线中的峰的数量没有超过预设数量和/或两个峰之间的距离不小于预设距离，则确定最佳人声偏移时间适用。

根据本公开的第二方面，提供了一种人声伴奏对齐装置，其特征在于，包括：音高序列获取单元，被配置为获取所述人声音频信号的人声音高序列和与伴奏相应的参考midi音高序列；信号偏移单元，被配置为基于参考midi音高序列和人声音高序列之间的相似性，对人声音频信号进行偏移；和信号混合单元，被配置为将偏移后的人声音频信号与伴奏进行混合，得到人声伴奏对齐的混音结果。

可选地，音高序列获取单元包括第一获取单元，被配置为：获取与伴奏相应的参考midi文件；并且获取从参考midi文件提取的与伴奏相应的参考midi音高序列。

可选地，所述装置还包括预先提取单元，被配置为：从与伴奏相应的参考midi文件提取关键信息，其中，关键信息包括midi音高、音高起始时间、音高持续时间中的至少一个；并且将提取的关键信息整合为包含音高信息的时间序列，并将得到的时间序列作为与伴奏相应的参考midi音高序列。

可选地，音高序列获取单元包括第二获取单元，被配置为：检测所述人声音频信号的基频，获得人声音高的基频序列；并且根据频率与音高之间的关系将人声音高的基频序列转换为人声音高序列。

可选地，第二获取单元被配置为：根据所述人声音频信号的延迟指数和序列长度计算所述人声音频信号的自相关系数；根据所述人声音频信号中自相关系数最大的时间，计算所述人声音频信号的波形的周期；并且根据所述人声音频信号的波形的周期与采样率的关系计算所述人声音频信号的基频。

可选地，音高序列获取单元包括统一化处理单元，被配置为：分别对获取的参考midi音高序列和人声音高序列进行音高统一化处理，将音高统一化处理后的参考midi音高序列和人声音高序列作为最终的参考midi音高序列和人声音高序列。

可选地，信号偏移单元包括：相似性比对单元，被配置为对参考midi音高序列和人声音高序列进行相似性比对，以获得使参考midi音高序列和人声音高序列之间的相似性最大的最佳人声偏移时间；并且偏移单元，被配置为将人声音频信号偏移最佳人声偏移时间。

可选地，相似性比对单元被配置为：通过前后移动人声音高序列，识别参考midi音高序列和人声音高序列两者之差的最小值时移动的时间，并将识别出的时间作为最佳人声偏移时间。

可选地，偏移单元被配置为：基于预设的置信度确定最佳人声偏移时间是否适用；并且当确定最佳人声偏移时间适用时，将人声音频信号偏移最佳人声偏移时间。

可选地，偏移单元被配置为：对偏移了最佳人声偏移时间的人声音高序列的曲线进行平滑处理；并且如果平滑处理后的曲线中的峰的数量超过预设数量或者两个峰之间的距离小于预设距离，则确定最佳人声偏移时间不适用，如果平滑处理后的曲线中的峰的数量没有超过预设数量和/或两个峰之间的距离不小于预设距离，则确定最佳人声偏移时间适用。

根据本公开的第三方面，提供了计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的人声伴奏对齐方法。

根据本公开的第四方面，提供了一种电子设备，包括：处理器；存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的人声伴奏对齐方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的人声伴奏对齐方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

对于不同演唱者、不同的演唱环境、不同的录制设备，通过根据参考midi文件自适应地调整录制得到的人声音频信号的偏移时间，使人声音频信号与伴奏自动对齐，从而解决由于外部因素导致人声与伴奏无法对齐的问题，提高用户使用k歌系统的k歌体验。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本公开的示例性实施例的人声伴奏对齐的整体系统示意图；

图2示出根据本公开的示例性实施例的人声伴奏对齐方法的流程图；

图3示出音高统一化处理后的参考midi音高序列和人声音高序列的示例；

图4示出人声音高序列与参考midi音高序列之间的相关性的示例；

图5示出根据本公开的示例性实施例的人声伴奏对齐装置的框图；

图6示出根据本公开的示例性实施例的音高序列获取单元51的结构示意框图；

图7示出根据本公开的示例性实施例的信号偏移单元52的结构示意框图；和

图8是根据本公开的示例性实施例的电子设备800的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况：(1)包括a；(2)包括b；(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在线上k歌系统中，为了判断演唱者音准，一般情况都会提供记录正确人声音高对应参考乐器数字接口(musicalinstrumentdigitalinterface，简称midi)文件，里面记录了midi音高、每个音的起始的时间，以及每个音高的持续时间。midi用音符的数字控制信号来记录音乐，包含了每个事件包括乐器、音高、通道、持续时间、音量和力度等信息。参考midi文件的获取途径一般有人工制作或通过算法自动识别原唱的音高轮廓线得到两种。另外，在k歌时会有录制得到的人声音频信号。在本公开中，可通过检测人声音频信号的音高，将检测得到的音高序列与已有midi音高序列进行相关度比对，计算得到最佳人声偏移时间。最后偏移人声音频信号并将偏移后的人声音频信号与伴奏进行混合，得到人声音频信号与伴奏同步的混音结果。下面，将参照图1至图8具体描述根据本公开的示例性实施例的人声伴奏对齐方法及装置。

图1示出根据本公开的示例性实施例的人声伴奏对齐的整体系统示意图。

如图1所示，首先对人声音频信号和参考midi文件进行分析。在对参考midi文件进行分析时，可首先从参考midi文件提取关键信息，其中，关键信息包括midi音高、音高起始时间、音高持续时间中的至少一个，然后将提取的关键信息整合为包含音高信息的时间序列，并将得到的时间序列作为从参考midi文件提取的参考midi音高序列。在对人声音频信号进行分析时，可首先分析人声音频信号的采样率fs，然后根据采样率fs对人声音频信号进行音高检测，得到人声音频信号的基频序列，之后根据频率与音高之间的关系将人声音高的基频序列转换为人声音高序列。在得到人声音高序列和参考midi音高序列之后，考虑到男女生音高会相差一个八度的问题，如果男生唱女生的歌，就会比midi音高低一个八度，因此可将音高进行统一化。由于音阶里一般只有十二个音，分别为c、c#、d、d#、e、f、f#、g、g#、a、a#、b，因此每个音高都可被归类到这12个音高类别(pitchclass)中，因此将得到的参考midi音高序列和人声音高序列都除以12求其余数加上1，就可以得到两个在1到12范围内的序列。在得到音高统一化处理后的参考midi音高序列和人声音高序列这两个音高序列之后，通过考虑两个音高序列的相似性，来寻找最合适的偏移量对人声音频信号进行偏移。最后，将偏移后的人声音频信号与伴奏(bgm)进行混合，得到人声伴奏对齐的混音结果。

图2示出根据本公开的示例性实施例的人声伴奏对齐方法的流程图。图2中的人声伴奏对齐方法可适用于线上k歌系统。

参照图2，在步骤s201，获取人声音频信号的人声音高序列和与伴奏相应的参考midi音高序列。接收到人声音频信号说明用户开始k歌，因此可响应于接收到人声音频信号，获取人声音频信号的人声音高序列和与伴奏相应的参考midi音高序列。

在本公开的示例性实施例中，在获取与伴奏相应的参考midi音高序列时，可首先获取与伴奏相应的参考midi文件，然后获取从参考midi文件提取的与伴奏相应的参考midi音高序列。这里，与波形文件不同，midi文件不对音乐进行抽样，而是对音乐的每个音符记录为一个数字，所以与波形文件相比文件要小得多，可以满足长时间音乐的需要。midi标准规定了各种音调的混合及发音，通过输出装置可以将这些数字重新合成为音乐。

在本公开的示例性实施例中，在获取与伴奏相应的参考midi音高序列之前，还可首先从与伴奏相应的参考midi文件提取关键信息，其中，关键信息包括midi音高、音高起始时间、音高持续时间中的至少一个，然后将提取的关键信息整合为包含音高信息的时间序列，并将得到的时间序列作为与伴奏相应的参考midi音高序列。具体来说，为了与人声音频信号进行比对，可提前从midi文件中提取关键信息，例如，midi音高、音高起始时间、音高持续时间。然后将这些信息整合为包含音高信息的时间序列。

在本公开的示例性实施例中，在获取人声音频信号的人声音高序列时，可首先检测人声音频信号的基频，获得人声音高的基频序列，然后根据频率与音高之间的关系将人声音高的基频序列转换为人声音高序列。在本公开的示例性实施例中，在检测人声音频信号的基频时，可首先对人声音频信号进行分帧，然后检测每帧人声音频信号的基频。在本公开的示例性实施例中，在检测每帧人声音频信号的基频之后，可将各帧人声音频信号中的基频超出人声基频范围的信号确定为噪声信号。

在本公开的示例性实施例中，在检测人声音频信号的基频时，可首先根据人声音频信号的延迟指数和序列长度计算人声音频信号的自相关系数，然后根据人声音频信号中自相关系数最大的时间，计算人声音频信号的波形的周期，并且根据人声音频信号的波形的周期与采样率的关系计算人声音频信号的基频。

具体来说，可通过人声音频信号的自相关系数来得到人声音高的基频。自相关系数的计算公式为这里，τ为延迟的指数，acf是对应的自相关的系数，序列x是人声音频信号的时域信号，序列x的长度至少为50ms，n是序列x的长度。由于波形是有周期性的，所以当延迟指数是周期的倍数的时候，自相关系数可以达到最大值，因此通过计算自相关系数，可以得到人声音频信号的波形的周期p。最后可以通过周期p与采样率fs的关系得到此段人声音频信号的波形的频率为了得到整段人声音频信号的基频序列，可以将人声音频信号分帧检测基频，人声音频信号的基频范围通常在70hz到1000hz以内，因此在此范围之外的频率都看作是噪声。在得到人声频率序列之后，可根据公式pitch＝69+12×log2(fhz/440)将频率转化为midi音高。在本公开的示例性实施例中，在获取人声音频信号的人声音高序列和与人声音频信号相应的参考midi音高序列时，可分别对获取的参考midi音高序列和人声音高序列进行音高统一化处理，将音高统一化处理后的参考midi音高序列和人声音高序列作为最终的参考midi音高序列和人声音高序列。

具体来说，考虑到男女生音高会相差一个八度的问题，如果男生唱女生的歌，就会比midi音高低一个八度，因此可将音高进行统一化。由于音阶里一般只有十二个音，分别为c、c#、d、d#、e、f、f#、g、g#、a、a#、b，因此每个音高都可被归类到这12个音高类别(pitchclass)中，因此将得到的参考midi音高序列和人声音高序列都除以12求其余数加上1，就可以得到两个在1到12范围内的序列。对于检测到的人声音频信号的噪声部分，可将其值设置成零。音高类别的计算公示如下：pitchclass＝mod(midi_note,12)+1。

例如，图3示出音高统一化处理后的参考midi音高序列和人声音高序列的示例。在图3中，横轴表示音高类别，纵轴表示时间，浅色线条表示参考midi音高序列，深色线条表示人声音高序列。

在步骤s202，基于参考midi音高序列和人声音高序列之间的相似性，对人声音频信号进行偏移。也就是说，在得到参考midi音高序列和人声音高序列这两个音高序列之后，通过考虑两个音高序列的相似性，来寻找最合适的偏移量。

在本公开的示例性实施例中，在对人声音频信号进行偏移时，可首先对参考midi音高序列和人声音高序列进行相似性比对，以获得使参考midi音高序列和人声音高序列之间的相似性最大的最佳人声偏移时间，然后将人声音频信号偏移最佳人声偏移时间。

在本公开的示例性实施例中，在对参考midi音高序列和人声音高序列进行相似性比对，以获得使参考midi音高序列和人声音高序列之间的相似性最大的最佳人声偏移时间时，可通过前后移动人声音高序列，识别参考midi音高序列和人声音高序列两者之差的最小值时移动的时间，并将识别出的时间作为最佳人声偏移时间。

具体来说，可通过公式similarity(t)＝sum(abs(x1[n]-x2[n-t]))来计算参考midi音高序列和人声音高序列之间的相似性。这里，x1表示高统一化处理后的参考midi音高序列，x2表示高统一化处理后的人声音高序列，similarity表示相似性，t表示时间。通过前后移动人声序列，找到得到两者之差的最小值时移动的时间t。两者之差最小即认为两个序列最相似。偏移时间的范围控制在t1-t2之间(如-1s到+1s)。例如，图4示出人声音高序列与参考midi音高序列之间的相关性的示例，纵轴表示两个序列的差距，横轴表示偏移的时间。如图4所示，当向前移动0.5秒时，两个序列的差距达到最小值。所以可以确定最佳偏移时间为-0.5s。

在本公开的示例性实施例中，在将人声音频信号偏移最佳人声偏移时间时，可首先基于预设的置信度确定最佳人声偏移时间是否适用，然后当确定最佳人声偏移时间适用时，将人声音频信号偏移最佳人声偏移时间。

在本公开的示例性实施例中，在基于预设的置信度确定最佳人声偏移时间是否适用时，可首先对偏移了最佳人声偏移时间的人声音高序列的曲线进行平滑处理，然后如果平滑处理后的曲线中的峰的数量超过预设数量或者两个峰之间的距离小于预设距离，则确定最佳人声偏移时间不适用，如果平滑处理后的曲线中的峰的数量没有超过预设数量和/或两个峰之间的距离不小于预设距离，则确定最佳人声偏移时间适用。

具体来说，考虑到用户人为对音乐加以改编的情况、用户的人声音频完全不在调上的情况、用户空一段不唱的情况、或用户乱唱瞎唱的情况等特殊情况，需要一个置信度来衡量当前偏移是否适用。在一种实现中，对图3中的曲线进行平滑(smooth)处理，如果出现了5个以上的峰(peak)，并且两个峰之间的距离小于0.2秒，说明找到了两个最大值，说明可能人声音频信号与参考midi中的信号不太对的上，此时结果输出为0，即自动对齐失效，不移动音频。

在步骤s203，将偏移后的人声音频信号与伴奏进行混合，得到人声伴奏对齐的混音结果。具体来说，可将偏移后的人声音频信号经过效果器与伴奏音频进行混音，得到最终的智能对齐的结果。

以上已经结合图1至图4对根据本公开的示例性实施例的人声伴奏对齐方法进行了描述。在下文中，将参照图5至图7对根据本公开的示例性实施例的人声伴奏对齐装置及其单元进行描述。

图5示出根据本公开的示例性实施例的人声伴奏对齐装置的框图。

参照图5，人声伴奏对齐装置包括音高序列获取单元51、信号偏移单元52和信号混合单元53。

音高序列获取单元51被配置为获取人声音频信号的人声音高序列和与伴奏相应的参考midi音高序列。

图6示出根据本公开的示例性实施例的音高序列获取单元51的结构示意框图。在本公开的示例性实施例中，如图6所示，音高序列获取单元51可包括第一获取单元511，被配置为：获取与伴奏相应的参考midi文件；并且获取从参考midi文件提取的与伴奏相应的参考midi音高序列。

在本公开的示例性实施例中，所述装置还可包括预先提取单元(未示出)，被配置为：从与伴奏相应的参考midi文件提取关键信息，其中，关键信息包括midi音高、音高起始时间、音高持续时间中的至少一个；并且将提取的关键信息整合为包含音高信息的时间序列，并将得到的时间序列作为与伴奏相应的参考midi音高序列。

在本公开的示例性实施例中，如图6所示，音高序列获取单元51可包括第二获取单元512，被配置为：检测人声音频信号的基频，获得人声音高的基频序列；并且根据频率与音高之间的关系将人声音高的基频序列转换为人声音高序列。

在本公开的示例性实施例中，第二获取单元512可被配置为：对人声音频信号进行分帧；并且检测每帧人声音频信号的基频。第二获取单元512可将各帧人声音频信号中的基频超出人声基频范围的信号确定为噪声信号。

在本公开的示例性实施例中，第二获取单元512可被配置为：根据人声音频信号的延迟指数和序列长度计算人声音频信号的自相关系数；根据人声音频信号中自相关系数最大的时间，计算人声音频信号的波形的周期；并且根据人声音频信号的波形的周期与采样率的关系计算人声音频信号的基频。

在本公开的示例性实施例中，如图6所示，音高序列获取单元51可包括统一化处理单元513，被配置为：分别对获取的参考midi音高序列和人声音高序列进行音高统一化处理，将音高统一化处理后的参考midi音高序列和人声音高序列作为最终的参考midi音高序列和人声音高序列。

信号偏移单元52被配置为基于参考midi音高序列和人声音高序列之间的相似性，对人声音频信号进行偏移。

图7示出根据本公开的示例性实施例的信号偏移单元52的结构示意框图。在本公开的示例性实施例中，如图7所示，信号偏移单元52可包括相似性比对单元521和偏移单元522。相似性比对单元521被配置为对参考midi音高序列和人声音高序列进行相似性比对，以获得使参考midi音高序列和人声音高序列之间的相似性最大的最佳人声偏移时间；偏移单元522被配置为将人声音频信号偏移最佳人声偏移时间。

在本公开的示例性实施例中，相似性比对单元521可被配置为：通过前后移动人声音高序列，识别参考midi音高序列和人声音高序列两者之差的最小值时移动的时间，并将识别出的时间作为最佳人声偏移时间。

在本公开的示例性实施例中，偏移单元522可被配置为：基于预设的置信度确定最佳人声偏移时间是否适用；并且当确定最佳人声偏移时间适用时，将人声音频信号偏移最佳人声偏移时间。

在本公开的示例性实施例中，偏移单元522可被配置为：对偏移了最佳人声偏移时间的人声音高序列的曲线进行平滑处理；并且如果平滑处理后的曲线中的峰的数量超过预设数量或者两个峰之间的距离小于预设距离，则确定最佳人声偏移时间不适用，如果平滑处理后的曲线中的峰的数量没有超过预设数量和/或两个峰之间的距离不小于预设距离，则确定最佳人声偏移时间适用。

信号混合单元53被配置为将偏移后的人声音频信号与伴奏进行混合，得到人声伴奏对齐的混音结果。

以上已经结合图5至图7对根据本公开的示例性实施例的人声伴奏对齐装置进行了描述。接下来，结合图8对根据本公开的示例性实施例的电子设备800进行描述。

图8是根据本公开的示例性实施例的电子设备800的框图。

参照图8，电子设备800包括至少一个存储器801和至少一个处理器802，所述至少一个存储器801中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器802执行时，执行根据本公开的示例性实施例的人声伴奏对齐方法。

作为示例，电子设备800可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备800中，处理器802可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器802可运行存储在存储器801中的指令或代码，其中，存储器801还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器801可与处理器802集成为一体，例如，将ram或闪存布置在集成电路微处理器等之内。此外，存储器801可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器801和处理器802可在操作上进行耦合，或者可例如通过i/o端口、网络连接等互相通信，使得处理器802能够读取存储在存储器中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的人声伴奏对齐方法。这里的计算机可读存储介质的示例包括：只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-rlth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如，多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的人声伴奏对齐方法。

以上已参照图1至图8描述了根据本公开的示例性实施例的人声伴奏对齐方法及装置。然而，应该理解的是：图5至图7中所示的人声伴奏对齐装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图8中所示的电子设备并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

根据本公开的示例性实施例的人声伴奏对齐方法及装置，对于不同演唱者、不同的演唱环境、不同的录制设备，通过根据参考midi文件自适应地调整录制得到的人声音频信号的偏移时间，使人声音频信号与伴奏自动对齐，从而解决由于外部因素导致人声与伴奏无法对齐的问题，提高用户使用k歌系统的k歌体验。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。