一种基于异型双麦克风阵列的儿童声音特征检测方法与流程

2021-01-28 15:01:02|

308|

起点商标网

本发明涉及声音特征提取检测领域，尤其涉及一种基于异型双麦克风阵列的儿童声音特征检测方法。

背景技术：

现有技术中，对于各类儿童声音检测，不能准确地检测出，尤其是当儿童不配合检测时，导致无法获取到儿童的声音信号，而当采用陪读的方式带领儿童朗诵时，又会产生陪读声音干扰的问题。

技术实现要素：

为了解决上述技术问题，本发明的目的是提供一种基于异型双麦克风阵列的儿童声音特征检测方法。首先将儿童按区域、性别、年龄和发音能力分成不同类别；然后通过挖掘各个类别儿童的说话声音特征信息，学习出各个区域、性别、年龄和级别发音能力类别儿童在时频域幅度上的发音特征，获得相应的声音字典，该类字典对不同类别儿童声音的表征能力强。本方法可以作为各类儿童声音特征检测的一种手段。

本发明的目的是通过以下技术方案实现的：一种基于异型双麦克风阵列的儿童声音特征检测方法，包括如下步骤：

训练阶段，针对按区域、性别、年龄和发音能力划分的各个类别儿童(以下简称类别)设计发音语言库；对于每一类别儿童，在室内无噪条件下用异型双麦克风阵列系统采集陪测人员朗读儿童跟读的声音，通过进一步处理，构建各个类别儿童声音的训练集；针对每一类别儿童声音训练集中的声音进行短时傅里叶变换，提取时频谱的幅度，学习其发音特征，从而得到该类别儿童的声音特征字典。

检测阶段，确定测试儿童的区域、性别、年龄类别，从发音语言库中选择适当内容，在室内无噪条件下用异型双麦克风阵列系统采集陪测人员朗读儿童跟读的声音，通过进一步处理，提取测试儿童的连续语音，然后进行短时傅里叶变换，提取时频谱的幅度，将其在同区域、同性别、同年龄和不同级别发音能力的声音特征字典上进行投影，用得到稀疏表示系数重建相应的声音，根据重建声音误差的最小值给出给出测试儿童发音能力级别。

由本发明提供的上述技术方案可以看出，本发明用于检测检测各个类别儿童的声音特征，考虑到中国地域广大、语种较多、方言丰富以及儿童发育等因素，分区域、分性别、分年龄考虑儿童的发音能力和特点，设计能够反映各个类别儿童发音特点的发音语言库(包括字、词、短语和句子)，利用各个类别儿童发出的语言库内容声音的时频谱幅度信息，学习其发音特征，从而得到不同类别儿童的声音特征字典，规范性好；在检测阶段，给定测试儿童的区域、性别、年龄类别，将其发出的语言库内容声音变换到时频谱，提取时频谱的幅度，将其在同区域、同性别、同年龄和不同级别发音能力的声音特征字典上进行投影，用得到稀疏表示系数重建相应的声音，并根据重建声音误差的大小，给出测试儿童发音能力的级别，针对性强，易于快速检测。考虑到各类儿童的行为表现，可能会不配合检测，需要有陪测人员引导儿童发音，这就会出现陪测人员的语音，通过设计特殊的异型双麦克风阵列系统和对采集声音的异或逻辑运算，提取出儿童语音。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于异型双麦克风阵列的儿童声音特征检测方法的流程图；

图2为异型双麦克风阵列系统示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

不同于传统的人工检测方法，本发明实施例提供一种基于声音特征的儿童发音能力检测方法，在训练阶段，设计能够反映各个类别儿童发音特点的发音语言库，挖掘各个类别儿童发出的语言库内容声音的时频谱特征，学习到各类儿童声音在时频域的幅度字典，该类字典对声音的表征能力强，规范性好；在检测阶段，给定测试儿童的区域、性别、年龄类别，将其发出的语言库内容声音变换到时频谱，提取时频谱的幅度，将其在同区域、同性别和同年龄和不同级别发音能力的声音特征字典上进行投影，用得到稀疏表示系数重建相应的声音，并根据重建声音误差的大小，给出测试儿童发音能力的级别，针对性强，易于快速检测。考虑到各类儿童的行为表现，可能不配合检测，需要有陪测人员引导儿童发音，这就会出现陪测人员的语音，为了防止该语音对儿童语音的干扰，设计由骨导麦克风和普通型麦克风组成的异型双麦克风阵列系统采集声音，图2为异型双麦克风阵列系统示意图。并对采集的两路声音进行异或逻辑处理，提取出儿童语音。本方法可以作为各类儿童检测的一种手段。如图1所示，其主要包括：

步骤1、训练阶段

步骤11、针对儿童的特点，按区域、性别、年龄和发音能力类别设计儿童发音语言库，包括字、词、短语和句子。

步骤12、按类别从发音语言库中取出对应的内容，在室内无噪条件下，由陪测人员朗读预定类别儿童跟读，用异型双麦克风阵列系统采集声音，其中一只为骨导麦克风，由陪测人员佩戴，只采集陪测人员的声音，记为x^tr,0(t)，另一只为普通型麦克风，采集陪测人员的声音x^tr,1(t)和儿童的声音记为其中p,g,a,c分别表示区域、性别、年龄和发音能力，p＝1,...,p，g＝0,1，a＝0,...,a，c＝1,...,c，p为划分的区域总数、a为划分的年龄总数、c为划分的发音能力级别总数。

步骤13、对异型双麦克风阵列系统采集的每一次陪测人员朗读、以及预定类别儿童跟读声音x^tr,0(t)和通过异或逻辑运算提取出预定类别儿童跟读声音按区域、性别、年龄和发音能力构建各个类别儿童声音的训练集

步骤14、对每一区域、每一性别、每一年龄、每一级别发音能力声音训练集中的声音用语音活动检测(vad)算子检测，裁剪掉静音段，形成预定类别儿童的连续语音，记为对进行短时傅里叶变换，得到时频域上的复数谱，即：

其中stft{}为短时傅里叶变换算子，tf和f分别为时间帧和频率点，为幅度。

步骤15、学习每一区域、每一性别、每一年龄、每一级别发音能力儿童声音的复数谱幅度特征，得到相应的特征字典dp,g,a,c，特征字典的学习过程如下：

其中，cp,g,a,c是的稀疏表示系数；声音的稀疏表示系数为矩阵形式，cp,g,a,c,l为cp,g,a,c的第l列，q为稀疏约束；

步骤2、检测阶段

步骤21、填写测试儿童的区域、性别、年龄类别，从发音语言库中取出对应的内容，可以包括字、词、短语和句子。

步骤22、在室内无噪条件下，由陪测人员朗读测试儿童跟读，用异型双麦克风阵列系统采集声音，其中一只为骨导麦克风，由陪测人员佩戴，只采集陪测人员的声音，记为x^te^,0(t)，另一只为普通型麦克风，采集陪测人员的声音x^te,1(t)和儿童的声音s^te,1(t)，记为y^te(t)＝x^te,1(t)+s^te,1(t)。

步骤23、对异型双麦克风阵列系统采集的陪测人员朗读、以及测试儿童跟读声音x^te,0(t)和y^te(t)＝x^te,1(t)+s^te,1(t)，通过异或逻辑运算提取出儿童跟读声音s^te,1(t)。

步骤24、进一步用语音活动检测(vad)算子检测s^te,1(t)，裁剪掉静音段，形成测试儿童的连续语音，记为s^te(t)，用短时傅里叶变换对测试儿童连续干净声音s^te(t)进行短时傅里叶变换，得到时频域上的复数谱，即：

s^te(tf,f)＝stft{s^te(t)}

其中stft{}为短时傅里叶变换算子，tf和f分别为时间帧和频率点，|s^te(tf,f)|分别为s^te(tf,f)幅度。

步骤25、将|s^te(tf,f)|投影到与测试儿童同一区域、同一性别、同一年龄和不同级别发音能力特征字典dp,g,a,c上，获得最优稀疏表示系数，稀疏表示系数计算如下：

其中，ep,g,a,c为投影到特征字典dp,g,a,c上的候选稀疏表示系数，为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数；稀疏表示系数为矩阵形式，ep,g,a,c,l为ep,g,a,c的第l列；q为稀疏约束。

步骤26、利用稀疏表示系数和特征字典dp,g,a,c，重建出声音复数谱的幅度重建过程如下：

步骤27、计算测试儿童声音s^te(t)时频谱幅度与重建的声音复数谱幅度的误差：

取误差最小对应的级别作为测试儿童的发音能力级别，计算如下：

本发明实施例上述方案，用于检测具有不同语言特点的各类儿童，考虑到中国区域广大、语种较多、方言丰富以及儿童发育等因素，分区域、分性别、分年龄、分发音能力级别(以下简称类别)考虑各类儿童的发音特点，设计能够反映各个类别各类儿童发音特点的语言库(包括字、词、短语和句子)，利用各个类别各类儿童发出的语言库内容声音的时频谱幅度信息，学习其发音特征，从而得到不同类别儿童的声音特征字典，规范性好；在检测阶段，给定测试儿童的区域、性别、年龄类别，将其发出的语言库内容声音变换到时频谱，提取时频谱的幅度，将其在同区域、同性别、同年龄和不同级别发音能力的声音字典上进行投影，用得到稀疏表示系数重建相应的声音，并根据重建声音误差的大小，判断测试儿童所属的发音能力级别，针对性强，易于快速检测。考虑到儿童的行为表现，需要有陪测人员引导儿童发音，这就会出现陪测人员的语音，为了防止该语音对儿童语音的干扰，设计异型双麦克风阵列系统采集声音，并对采集的两路声音进行异或逻辑处理和语音活动检测，提取出儿童连续语音。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除