一种乐谱识别方法及装置与流程
本发明涉及自动化领域,尤其涉及一种乐谱识别方法及装置。
背景技术:
现有的弦乐器如吉他或琵琶等通常通过拨动和按压琴弦实现演奏,随着机器智能化和自动化的发展,近年来机器人技术也逐渐开始应用于上述弦乐器中。
然而,现有的自动演奏机器人需要人工对乐谱数据进行录入,操作较为复杂,自动化程度低,耗费时间和人力。
技术实现要素:
为克服现有技术中人工录入乐谱自动化程度低,耗费时间和人力的问题,本发明实施例一方面提供了一种乐谱识别方法,包括:
将乐谱图像二值化后向y轴投影堆叠,生成乐谱特征图像;
根据乐谱特征图像,获取乐谱图像中的时值序列;
根据乐谱特征图像,获取乐谱图像中的时值序列中各时值对应的音符数值;
根据所述时值序列及各时值对应音符数值,生成机器可视化乐谱图像。
进一步,上述在所述对乐谱图像二值化后向y轴投影堆叠,生成乐谱特征图像的步骤之后,还包括:
确定所述乐谱特征图像中的第一特征线性图像;
根据所述第一特征线性图像中各线段的粗细、x轴长度和y轴间隔,确定所述乐谱图像中的时值图像区域和音符图像区域。
进一步,上述所述根据乐谱特征图像,获取乐谱图像中的时值序列的步骤,包括:
将所述时值图像区域向x轴投影堆叠,确定第二特征线性图像;
根据第二特征线性图像的x轴坐标,对时值图像区域进行x向分割,获取单时值图像;
将各单时值图像向y轴投影,确定第三特征线性图像;
根据第三特征线性图像,确定各单时值图像对应的音符时值,并根据x向顺序生成时值序列。
进一步,上述所述根据乐谱特征图像,获取乐谱图像中的时值序列中各时值对应的音符数值的步骤,包括:
根据第一特征线性图像,将音符图像区域进行y向分割,获取单谱线的音符图像;
根据第二特征线性图像,将所述各单谱线的音符图像进行x向分割,获取各单谱线的音符数字图像;
采用卷积神经网络对各音符数字图像进行识别,确定音符数值;
确定各音符数值对应的x向和y向坐标。
进一步,上述所述根据所述时值序列及各时值对应音符数值,生成机器可视化乐谱图像的步骤,包括:
生成可视化乐谱图像模板,所述可视化乐谱图像模板包括时值区域和音符矩阵区域,音符矩阵区域的各行与待演奏乐器的各弦对应;
在所述时值区域顺序填入所述时值序列;
以所述时值序列的各音符时值为x坐标,以音符矩阵区域的各行为y坐标,填入对应的音符数值,生成机器可视化乐谱图像。
本发明实施例另一方面提供了一种乐谱识别装置,包括:
第一生成模块,用于将乐谱图像二值化后向y轴投影堆叠,生成乐谱特征图像;
第一获取模块,用于根据乐谱特征图像,获取乐谱图像中的时值序列;
第二获取模块,用于根据乐谱特征图像,获取乐谱图像中的时值序列中各时值对应的音符数值;
第二生成模块,用于根据所述时值序列及各时值对应音符数值,生成机器可视化乐谱图像。
进一步,上述乐谱识别装置还包括:
第一确定模块,用于确定所述乐谱特征图像中的第一特征线性图像;
第二确定模块,用于根据所述第一特征线性图像中各线段的粗细、x轴长度和y轴间隔,确定所述乐谱图像中的时值图像区域和音符图像区域。
进一步,上述所述第一获取模块,包括:
第一确定单元,用于将所述时值图像区域向x轴投影堆叠,确定第二特征线性图像;
第一获取单元,用于根据第二特征线性图像的x轴坐标,对时值图像区域进行x向分割,获取单时值图像;
第二确定单元,用于将各单时值图像向y轴投影,确定第三特征线性图像;
第三确定单元,用于根据第三特征线性图像,确定各单时值图像对应的音符时值,并根据x向顺序生成时值序列。
进一步,上述所述第二获取模块,包括:
第二获取单元,用于根据第一特征线性图像,将音符图像区域进行y向分割,获取单谱线的音符图像;
第三获取单元,用于根据第二特征线性图像,将所述各单谱线的音符图像进行x向分割,获取各单谱线的音符数字图像;
第四确定单元,用于采用卷积神经网络对各音符数字图像进行识别,确定音符数值;
第五确定单元,用于确定各音符数值对应的x向和y向坐标。
进一步,上述所述第二生成模块,包括:
第一生成单元,用于生成可视化乐谱图像模板,所述可视化乐谱图像模板包括时值区域和音符矩阵区域,音符矩阵区域的各行与待演奏乐器的各弦对应;
处理单元,用于在所述时值区域顺序填入所述时值序列;
第二生成单元,以所述时值序列的各音符时值为x坐标,以音符矩阵区域的各行为y坐标,填入对应的音符数值,生成机器可视化乐谱图像。
本发明实施例通过提供一种乐谱识别方法及装置,对乐谱图像进行二值化后向y轴投影堆叠生成乐谱特征图像,并根据乐谱特征图像获取乐谱图像中的时值序列以及各时值对应的音符数值,最终根据时值序列及各时值对应音符数值,生成机器可视化乐谱图像,实现了机器对乐谱的自动识别,免除了人为录入乐谱数据的复杂操作,节省了时间和人力;同时,本实施例通过先将乐谱图像二值化后再向y轴投影堆叠的方式生成乐谱特征图像,一方面提高了乐谱图像识别的准确率,提高了识别可靠性,另一方面由投影堆叠方式生成的乐谱特征图像使得乐谱图像的谱线和减时线/增时线等特征可以从乐谱中更加凸显出来,其y轴方向特征也更加明显,利于对谱线和减时线/增时线等定位,便于后续辅助获取乐谱图像的时值序列和各时值对应的音符数值,进一步保障了乐谱图像识别的准确率,提高了识别可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例的乐谱识别方法的流程图;
图2是s14的详细流程图;
图3是s15的详细流程图;
图4是s16的详细流程图;
图5是本发明第一实施例s11对应的乐谱二值化后的图像示例;
图6是s11由图5向y轴投影堆叠后的乐谱特征图像,图中横向线段为s12对应的第一特征线性图像;
图7是s13对应的图5的乐谱图像中的音符图像区域;
图8是s13对应的图5的乐谱图像中的时值图像区域;
图9是s141对应的图8的x轴投影堆叠后的第二特征线性图像;
图10是s142对应的图9的单个时值图像区域进行x向分割的示意图;
图11是s143对应的以图10为基础进行向y轴投影得到的第三特征线性图像;
图12是s151对应的以图7为基础进行y向分割得到的单谱线的音符图像;
图13是本发明第一实施例的机器可视化乐谱图像与乐谱二值化后的图像示例的对比图;
图14本发明第二实施例的乐谱识别装置的结构图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
当本发明实施例提及“第一”、“第二”(若存在)等序数词时,除非根据上下文其确实表达顺序之意,应当理解为仅仅是起区分之用。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”(若存在)应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
第一实施例:
请参照图1至图13所示,本发明实施例提供了一种乐谱识别方法,具体的为一种吉他乐谱的识别方法,包括:
s11,将乐谱图像二值化后向y轴投影堆叠,生成乐谱特征图像。
s12,确定所述乐谱特征图像中的第一特征线性图像。
s13,根据所述第一特征线性图像中各线段的粗细、x轴长度和y轴间隔,确定所述乐谱图像中的时值图像区域和音符图像区域。
示例性的,在本步骤中,可以首先通过图6中各横向线段的y轴方向间隔,确定谱线区域,而后根据线段的粗细和x轴长度确定减时线/增时线(本实施例为减时线)。通常情况下,谱线区域被划分为音符图像区域;减时线/增时线被划分为时值图像区域。
s14,根据乐谱特征图像,获取乐谱图像中的时值序列。
具体的,本步骤s14还包括s141-s144:
s141,将所述时值图像区域向x轴投影堆叠,确定第二特征线性图像;
请参照图9所示,进行x轴投影堆叠后得到的第二特征线性图像具有多个竖向线段;该多个竖向线段可用于辅助s142步骤中对时值图像区域的x向分割。
s142,请参照图10所示,根据第二特征线性图像的x轴坐标,对时值图像区域进行x向分割,获取单时值图像;
s143,请参照图11所示,将各单时值图像向y轴投影,确定第三特征线性图像;
s144,根据第三特征线性图像,确定各单时值图像对应的音符时值,并根据x向顺序生成时值序列。
在本实施例中,第三特征线性图像中的横线(减时线)数量可用于判断音符时值,减时线数目为0的音符为四分音符,时值为1拍;减时线数目为1的音符为八分音符,时值为1/2拍;减时线数目为2的音符为十六分音符,时值为1/4拍,以此类推。
s15,根据乐谱特征图像,获取乐谱图像中的时值序列中各时值对应的音符数值。
具体的,本步骤s15还包括s151-s154:
s151,请参照图12所示,根据第一特征线性图像,将音符图像区域进行y向分割,获取单谱线的音符图像;
s152,根据第二特征线性图像,将所述各单谱线的音符图像进行x向分割,获取各单谱线的音符数字图像;
s153,采用卷积神经网络对各音符数字图像进行识别,确定音符数值;
s154,确定各音符数值对应的x向和y向坐标。
s16,根据所述时值序列及各时值对应音符数值,生成机器可视化乐谱图像。
具体的,本步骤s16还包括s161-s163:
s161,生成可视化乐谱图像模板,所述可视化乐谱图像模板包括时值区域和音符矩阵区域,音符矩阵区域的各行与待演奏乐器的各弦对应;
s162,在所述时值区域顺序填入所述时值序列;
s163,以所述时值序列的各音符时值为x坐标,以音符矩阵区域的各行为y坐标,填入对应的音符数值,生成机器可视化乐谱图像。
本发明实施例通过提供一种乐谱识别方法,对乐谱图像进行二值化后向y轴投影堆叠生成乐谱特征图像,并根据乐谱特征图像获取乐谱图像中的时值序列以及各时值对应的音符数值,最终根据时值序列及各时值对应音符数值,生成机器可视化乐谱图像,实现了机器对乐谱的自动识别,免除了人为录入乐谱数据的复杂操作,节省了时间和人力;同时,本实施例通过先将乐谱图像二值化后再向y轴投影堆叠的方式生成乐谱特征图像,一方面提高了乐谱图像识别的准确率,提高了识别可靠性,另一方面由投影堆叠方式生成的乐谱特征图像使得乐谱图像的谱线和减时线/增时线等特征可以从乐谱中更加凸显出来,其y轴方向特征也更加明显,利于对谱线和减时线/增时线等定位,便于后续辅助获取乐谱图像的时值序列和各时值对应的音符数值,进一步保障了乐谱图像识别的准确率,提高了识别可靠性。
第二实施例:
请参照图14所示,本发明实施例提供了一种乐谱识别装置100,包括:
第一生成模块110,用于将乐谱图像二值化后向y轴投影堆叠,生成乐谱特征图像。
第一确定模块120,与第一生成模块110连接,用于确定所述乐谱特征图像中的第一特征线性图像。
第二确定模块130,与第一确定模块120连接,用于根据所述第一特征线性图像中各线段的粗细、x轴长度和y轴间隔,确定所述乐谱图像中的时值图像区域和音符图像区域。
第一获取模块140,与第二确定模块130连接,用于根据乐谱特征图像,获取乐谱图像中的时值序列。
在本实施例中,所述第一获取模块140,包括:
第一确定单元141,用于将所述时值图像区域向x轴投影堆叠,确定第二特征线性图像;
第一获取单元142,用于根据第二特征线性图像的x轴坐标,对时值图像区域进行x向分割,获取单时值图像;
第二确定单元143,用于将各单时值图像向y轴投影,确定第三特征线性图像;
第三确定单元144,用于根据第三特征线性图像,确定各单时值图像对应的音符时值,并根据x向顺序生成时值序列。
第二获取模块150,与第二确定模块130连接,用于根据乐谱特征图像,获取乐谱图像中的时值序列中各时值对应的音符数值。
在本实施例中所述第二获取模块150,包括:
第二获取单元151,用于根据第一特征线性图像,将音符图像区域进行y向分割,获取单谱线的音符图像;
第三获取单元152,用于根据第二特征线性图像,将所述各单谱线的音符图像进行x向分割,获取各单谱线的音符数字图像;
第四确定单元153,用于采用卷积神经网络对各音符数字图像进行识别,确定音符数值;
第五确定单元154,用于确定各音符数值对应的x向和y向坐标。
第二生成模块160,与第一获取模块140和第二获取模块150连接,用于根据所述时值序列及各时值对应音符数值,生成机器可视化乐谱图像。
具体的,所述第二生成模块160,包括:
第一生成单元161,用于生成可视化乐谱图像模板,所述可视化乐谱图像模板包括时值区域和音符矩阵区域,音符矩阵区域的各行与待演奏乐器的各弦对应;
处理单元162,用于在所述时值区域顺序填入所述时值序列;
第二生成单元163,以所述时值序列的各音符时值为x坐标,以音符矩阵区域的各行为y坐标,填入对应的音符数值,生成机器可视化乐谱图像。
本实施例的各模块和单元与第一实施例的各步骤对应,其功能不再赘述说明。
本发明实施例通过提供一种乐谱识别装置,对乐谱图像进行二值化后向y轴投影堆叠生成乐谱特征图像,并根据乐谱特征图像获取乐谱图像中的时值序列以及各时值对应的音符数值,最终根据时值序列及各时值对应音符数值,生成机器可视化乐谱图像,实现了机器对乐谱的自动识别,免除了人为录入乐谱数据的复杂操作,节省了时间和人力;同时,本实施例通过先将乐谱图像二值化后再向y轴投影堆叠的方式生成乐谱特征图像,一方面提高了乐谱图像识别的准确率,提高了识别可靠性,另一方面由投影堆叠方式生成的乐谱特征图像使得乐谱图像的谱线和减时线/增时线等特征可以从乐谱中更加凸显出来,其y轴方向特征也更加明显,利于对谱线和减时线/增时线等定位,便于后续辅助获取乐谱图像的时值序列和各时值对应的音符数值,进一步保障了乐谱图像识别的准确率,提高了识别可靠性。
在本申请所提供的几个实施例中,应该理解到,在本发明各个实施例中各步骤可以通过对应的虚拟功能单元实现。各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的较佳实施例而已,并不用以限制本发明。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除