一种文本半相关的声纹识别方法及系统与流程

2021-01-28 15:01:39|

306|

起点商标网

本发明涉及声纹识别领域，特别涉及一种文本半相关的声纹识别方法及系统。

背景技术：

在现有声纹识别中主要有两种声纹识别方式，分别为固定文本(text-dependent)声纹识别和文本无关(text-independent)声纹识别，在实际应用中，文本无关声纹识别需要很长的语音才能达到理想的识别效果，而固定文本声纹识别只要很短的一句话就能有很好的识别效果。但在实际应用中固定文本声纹识别方式由于文本内容固定，难以防止录音等情况发生，固定文本声纹识别方式存在较大的安全问题。

现有的文字验证码通常为了防止机器识别，采用随机的抖动数字或字母，要求用户识别出数字或字母，并将其填在输入框中；

现有的声纹识别以验证用户的技术中，对于声纹识别以替代密码验证用户的真实性的可实现的方法亟待提出。

技术实现要素：

本发明的目的在于：提供了一种文本半相关的声纹识别方法，并基于方法提出一种声纹识别系统，采集并记录用户读出英文26个字母和0-9十个阿拉伯个人数字的读音，进行处理后得到第一周期音频信号曲线存储到数据库中，后续验证声纹时，随机给出一些字母和数字，让用户读出，并采集音频信号，处理后得到第二周期音频信号曲线，然后从数据库中调出这些字母和数字对应的第一周期音频信号曲线，并进行对比，将求得的差异度平均值不大于预设的差异度阈值的，判断为用户本人，解决了上述问题。

本发明采用的技术方案如下：

一种文本半相关的声纹识别方法，所述方法包括以下步骤：

首先进行用户语音的采集及记录，包括以下步骤：

步骤s1语音采集：要求用户按提供的固定顺序读出英文26个字母和10个阿拉伯个位数字，读出每个字母或者数字的时间都限定在时间t内，并采集用户读出字母和数字的音频信号；

步骤s2音频处理：将每个时间t内客户读出的字母和数字的音频信号进行裁剪，去掉音频信号中音频信号幅度an小于预设幅度阈值anm的音频信号频段，得到时间t1内的音频信号，将时间t1内的音频信号复制依次粘贴到相邻的时间区域内，得到连续的第一周期音频信号曲线；

将记录的第一周期音频信号曲线存储在数据库中，在存储完毕后，后续验证声纹，包括以下步骤：

步骤t1语音采集：提供给用户一定的字母和或阿拉伯数字，要求用户依次读出提供的字母和数字，采集用户读出字母和数字的音频信号，读出每个字母或者数字的时间都限定在时间t内；

步骤t2音频处理：对步骤t1中采集到的客户读出的字母和数字的音频信号进行裁剪，去掉音频信号中音频信号幅度小于预设幅度阈值anm的音频信号频段，得到时间t2内的音频信号，将时间t2内的音频信号复制依次粘贴到相邻的时间区域内，得到连续的第二周期音频信号曲线；

步骤t3相似度对比：从数据库中调出用户读出的步骤t1中提供的字母和或数字的第一周期音频信号曲线，并这些字母和数字的第二周期音频信号曲线和对应的第一周期音频信号曲线进行对比，得到差异度，并求出这些字母和数字的差异度平均值，将求得的差异度平均值和预设的差异度阈值进行对比，当差异度平均值不大于差异度阈值时，判断为是该用户本人；当差异度平均值大于差异度阈值时，判断为不是该用户本人。

为了更好地实现本方案，进一步地，用户语音的采集及记录还包括步骤s3信号处理：根据步骤s2中得到的连续的第一周期音频信号曲线分别建立音频信号关于时间t的函数f(t)，并对函数f(t)进行拉氏变换得到含有随机时延的象函数f(s)，其中，s为复变量，s＝δ+jω，δ为一个实常数；并将每个字母和数字的象函数f(s)也存储到数据库中；

在步骤t2音频处理中也分别建立采集的音频信号关于时间t的函数f’(t)，并对函数f’(t)进行拉氏变换得到含有随机时延的象函数f’(s’)，其中，s’为复变量，s’＝δ’+jω，δ为一个实常数。

为了更好地实现本方案，进一步地，所述象函数f(s)为：

为了更好地实现本方案，进一步地，在所述步骤t3相似度对比中，还需要将在数据库中调出提供的字母或数字对应的象函数f(s)，并将步骤t2中求出的该音频信号的象函数f’(s’)和f(s)进行对比，得到象函数f’(s’)关于f(s)的误差比例er，并将误差比例er和预设误差比例阈值erm进行比较，当误差比例er不大于预设误差比例阈值erm且差异度平均值不大于差异度阈值时，判断是该用户本人，否则判断不是该用户本人。

为了更好地实现本方案，进一步地，所述预设幅度阈值anm为每个时间t内采集的音频信号的幅度最大值anmax的二十分之一。

为了更好地实现本方案，进一步地，所述步骤s2音频处理步骤中，在进行裁剪前，首先进行去噪声处理，去除音频信号中除人声以外的噪声。

一种文本半相关的声纹识别系统，所述系统基于上述任一项所述的声纹识别方法，包括采集模块、音频处理模块、数据库、计算对比模块、输出模块，其中：

采集模块：用于采集用户读出的字母或数字的音频信号；

音频处理模块：对采集模块采集到的音频信号进行处理得到第一周期音频信号；

数据库：存储用户的第一周期音频信号；

计算对比模块：将验证声纹时采集的音频信号经过处理后的第二周期音频信号曲线和进行用户语音的采集及记录时存储的第一周期音频信号曲线进行对比，计算出差异度平均值；并将差异度平均值和差异度阈值进行对比，并向输出模块输出判断结果；

输出模块：输出判断结果。

本方案提出了一种文本半相关的声纹识别方法，并基于方法提出一种声纹识别系统，采集并记录用户读出英文26个字母和0-9十个阿拉伯个人数字的读音，进行处理后得到第一周期音频信号曲线存储到数据库中，后续验证声纹时，随机给出一些字母和数字，让用户读出，并采集音频信号，处理后得到第二周期音频信号曲线，然后从数据库中调出这些字母和数字对应的第一周期音频信号曲线，并进行对比，将求得的差异度平均值不大于预设的差异度阈值的，判断为用户本人，允许登录；差异度平均值大于预设的差异度阈值时，判断为不是用户本人，不允许登录；更进一步地，我们为了更加保证判断的准确性和降低误识别率，还使用了拉氏变换，求得了音频信号曲线的象函数，将验证声纹时求得的象函数f’(s’)和进行用户语音的采集及记录时求得的象函数f(s)进行对比，得到象函数f’(s’)关于f(s)的误差比例er，并将误差比例er和预设误差比例阈值erm进行比较，当误差比例er不大于预设误差比例阈值erm且差异度平均值不大于差异度阈值时，判断是该用户本人，否则判断不是该用户本人；这样使得在判断验证声纹时的用户是用户本人时的条件更严格，使得误判率更低。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明所述的一种文本半相关的声纹识别方法，并基于方法提出一种声纹识别系统，采集并记录用户读出英文26个字母和0-9十个阿拉伯个人数字的读音，进行处理后得到第一周期音频信号曲线存储到数据库中，后续验证声纹时，随机给出一些字母和数字，让用户读出，并采集音频信号，处理后得到第二周期音频信号曲线，然后从数据库中调出这些字母和数字对应的第一周期音频信号曲线，并进行对比，将求得的差异度平均值不大于预设的差异度阈值的，判断为用户本人，提出了一种可实行的声纹识别以验证用户身份的方法和系统；

2.本发明所述的一种文本半相关的声纹识别方法，并基于方法提出一种声纹识别系统，采集并记录用户读出英文26个字母和0-9十个阿拉伯个人数字的读音，进行处理后得到第一周期音频信号曲线存储到数据库中，后续验证声纹时，随机给出一些字母和数字，让用户读出，并采集音频信号，处理后得到第二周期音频信号曲线，然后从数据库中调出这些字母和数字对应的第一周期音频信号曲线，并进行对比，将求得的差异度平均值不大于预设的差异度阈值的，判断为用户本人，本方案实用性强，可用于各类身份验证领域。

附图说明

为了更清楚地说明本技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，其中：

图1是本发明的方法的流程框图；

图2是本发明的系统的连接关系图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。下面结合图1至图2对本发明作详细说明。

实施例1

一种文本半相关的声纹识别方法，如图1，所述方法包括以下步骤：

首先进行用户语音的采集及记录，包括以下步骤：

将记录的第一周期音频信号曲线存储在数据库中，在存储完毕后，后续验证声纹，包括以下步骤：

工作原理：本方案提出了一种文本半相关的声纹识别方法，采集并记录用户读出英文26个字母和0-9十个阿拉伯个人数字的读音，进行处理后得到第一周期音频信号曲线存储到数据库中，后续验证声纹时，随机给出一些字母和数字，让用户读出，并采集音频信号，处理后得到第二周期音频信号曲线，然后从数据库中调出这些字母和数字对应的第一周期音频信号曲线，并进行对比，将求得的差异度平均值不大于预设的差异度阈值的，判断为用户本人，允许登录；差异度平均值大于预设的差异度阈值时，判断为不是用户本人，不允许登录。

实施例2

本实施例在实施例1的基础上，如图1，用户语音的采集及记录还包括步骤s3信号处理：根据步骤s2中得到的连续的第一周期音频信号曲线分别建立音频信号关于时间t的函数f(t)，并对函数f(t)进行拉氏变换得到含有随机时延的象函数f(s)，其中，s为复变量，s＝δ+jω，δ为一个实常数；并将每个字母和数字的象函数f(s)也存储到数据库中；

所述象函数f(s)为：

在所述步骤t3相似度对比中，还需要将在数据库中调出提供的字母或数字对应的象函数f(s)，并将步骤t2中求出的该音频信号的象函数f’(s’)和f(s)进行对比，得到象函数f’(s’)关于f(s)的误差比例er，并将误差比例er和预设误差比例阈值erm进行比较，当误差比例er不大于预设误差比例阈值erm且差异度平均值不大于差异度阈值时，判断是该用户本人，否则判断不是该用户本人。

所述预设幅度阈值anm为每个时间t内采集的音频信号的幅度最大值anmax的二十分之一。

所述步骤s2音频处理步骤中，在进行裁剪前，首先进行去噪声处理，去除音频信号中除人声以外的噪声。

工作原理：更进一步地，我们为了更加保证判断的准确性和降低误识别率，还使用了拉氏变换，求得了音频信号曲线的象函数，将验证声纹时求得的象函数f’(s’)和进行用户语音的采集及记录时求得的象函数f(s)进行对比，得到象函数f’(s’)关于f(s)的误差比例er，并将误差比例er和预设误差比例阈值erm进行比较，当误差比例er不大于预设误差比例阈值erm且差异度平均值不大于差异度阈值时，判断是该用户本人，否则判断不是该用户本人；这样使得在判断验证声纹时的用户是用户本人时的条件更严格，使得误判率更低。

本实施例的其他部分与上述实施例1相同，故不再赘述。

实施例3

一种文本半相关的声纹识别系统，如图2，所述系统基于上述实施例1或2所述的声纹识别方法，包括采集模块、音频处理模块、数据库、计算对比模块、输出模块，其中：

采集模块：用于采集用户读出的字母或数字的音频信号；

音频处理模块：对采集模块采集到的音频信号进行处理得到第一周期音频信号；

数据库：存储用户的第一周期音频信号；

输出模块：输出判断结果。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。