一种声纹识别方法和设备与流程

2021-01-28 15:01:24|

267|

起点商标网

本发明涉及声纹识别技术领域，特别涉及一种声纹识别方法和设备。

背景技术：

目前，在外科手术进行过程中，例如医生、麻醉师、护士三方需要在手术麻醉核查单中对患者信息、手术项目等逐项进行核查，并最终在核查单上三方签字确认。针对该确认过程，现有一些软件系统尝试将声纹识别技术应用于手术麻醉核查环节，先期由医生、麻醉师、护士录音，对声纹特征提取和存储，在签字环节由三方口述确认签字，声纹识别系统对三方进行辨认，给出身份。

但是目前的方式也存在一些问题：其中，以签字的方式来进行核查的方式，无法对例如医生、麻醉师、护士三方身份进行校验，不能保证签字的有效性，操作流程存在漏洞。此外，外科手术医生、麻醉师、护士的数量比较多，流动性大，声纹识别技术在样本数较大的情况下，辨认准确性会急剧下降，导致无法在实际场景中应用。例如4个样本的时候声纹准确率可以达到95％，但8个样本的时候准确率则掉到了70％以下。

由此，现在需要一种更好的方法来解决该技术问题。

技术实现要素：

针对现有技术中的缺陷，本发明提出了一种声纹识别确认的方法和设备，通过身份信息和语音识别进行身份筛查，缩小声纹特征对比范围，解决了声纹识别技术在多样本场景下辨认准确率低的问题，提高了声纹辨认准确性。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种声纹识别确认的方法，包括：

当获取到待识别确认的语音时，将所述语音转化为文本格式后提取身份信息；

在预设数据库中获取与所述身份信息对应的声纹特征，并将所述声纹特征设置为第一声纹特征；所述第一声纹特征为对应所述身份信息的口述者口述预设确认文本时得到的声纹特征；

将所述第一声纹特征与第二声纹特征进行比对；所述第二声纹特征为从所述语音得到的声纹特征；

若比对结果为特征一致，则基于所述身份信息执行预设确认流程。

在一个具体的实施例中，还包括：

针对每一个用户，获取所述用户对应的预设确认文本；所述预设确认文本中包含有身份信息与确认信息；

获取所述用户口述所述预设确认文本得到的声纹特征，并形成所述用户的所述声纹特征与所述身份信息两者间的对应关系；

将所述对应关系存储在预设数据库中。

在一个具体的实施例中，预设数据库中存储的所述声纹特征是所述用户多次重复口述所述预设确认文本得到的。

在一个具体的实施例中，还包括：

对存储在预设数据库中的所述身份信息进行语音识别优化，以提高所述身份信息的识别准确率。

在一个具体的实施例中，各所述用户对应的所述确认信息相同。

在一个具体的实施例中，所述“当获取到待识别确认的语音时，将所述语音转化为文本格式后提取身份信息”，包括：

当获取到待识别确认的语音时，基于语音识别将所述语音转换为识别文本；

对所述识别文本进行分词处理，以从所述识别文本中提取身份信息。

在一个具体的实施例中，所述“将所述第一声纹特征与第二声纹特征进行比对”，包括：

判断所述第一声纹特征与第二声纹特征在预设阈值范围内是否相同；

若判断结果为相同，则比对结果为特征一致；

若判断结果为不相同，则比对结果为特征不一致。

在一个具体的实施例中，还包括：若比对结果为特征不一致，则执行预设的提示及预警流程。

在一个具体的实施例中，所述身份信息包括：姓名和职称。

本发明实施例还提出了一种声纹识别确认的设备，包括处理器，所述处理器用于执行上述的步骤。

以此，本发明实施例提出了一种声纹识别确认的方法和设备，其相较于现有技术，具有以下优点：

本方案通过身份信息和语音识别进行身份筛查，缩小声纹特征对比范围，解决了声纹识别技术在多样本场景下辨认准确率低的问题，提高了声纹辨认准确性，经过测试，本方案可保证在高样本数量的情况下准确率在97％以上。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种声纹识别确认方法的流程示意图；

图2为本发明实施例提出的一种具体应用场景下的声纹识别确认方法的流程示意图；

图3为本发明实施例提出的一种声纹识别确认方法中预设确认文本的示意图；

图4为本发明实施例提出的一种声纹识别确认设备的结构框架示意图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例提出了一种声纹识别确认的方法，如图1所示，包括以下步骤：

步骤101、当获取到待识别确认的语音时，将所述语音转化为文本格式后提取身份信息；

具体的，在实际情况下，待识别确认的语音为用户口述预设确认文本时的语音，具体的预设确认文本中包含有该用户的身份信息以及确认信息，具体的身份信息可以包括姓名以及职称等，或者姓名与职位，或者对应每一用户的唯一代码等等，具体的身份信息只要能唯一确定所对应的用户即可。

此外，步骤101中的所述“当获取到待识别确认的语音时，将所述语音转化为文本格式后提取身份信息”，包括：

当获取到待识别确认的语音时，基于语音识别将所述语音转换为识别文本；

对所述识别文本进行分词处理，以从所述识别文本中提取身份信息。

具体的，身份信息的提取是基于语音识别转换为文本后从文本中提取到的。

步骤102、在预设数据库中获取与所述身份信息对应的声纹特征，并将所述声纹特征设置为第一声纹特征；所述第一声纹特征为对应所述身份信息的口述者口述预设确认文本时得到的声纹特征；

具体的，事先在预设数据库中存储有各用户的所述声纹特征与所述身份信息两者间的对应关系，以此在需要识别的时候可以直接调用。

而所述身份信息可以包括：姓名和职称。

步骤103、将所述第一声纹特征与第二声纹特征进行比对；所述第二声纹特征为从所述语音得到的声纹特征；

具体的，步骤103中所述“将所述第一声纹特征与第二声纹特征进行比对”，包括：

判断所述第一声纹特征与第二声纹特征在预设阈值范围内是否相同；

若判断结果为相同，则比对结果为特征一致；

若判断结果为不相同，则比对结果为特征不一致。

具体的，比对结果中特征是否一致，并不是完全一致，而是在一定阈值范围内来进行确定的，这考虑了比对时的误差以及所得到声纹特征的准确性以及语音获取设备的精度等特征，基于此考虑经过试验以及经验来设置该预设阈值。

步骤104、若比对结果为特征一致，则基于所述身份信息执行预设确认流程。

具体的预设确认流程例如是目标李四来发起的，在此情况下代表获取了李四的权限来执行对应的操作，例如同意执行手术等操作。

此外，若比对结果为特征不一致，则执行预设的提示及预警流程。

具体的提示可以为文字语音等方式，或者声光的方式来进行体现，至于预警流程也可以类似，并将比对结果存储在远程的服务器中。

在步骤101之前，本方案还包括：

针对每一个用户，获取所述用户对应的预设确认文本；所述预设确认文本中包含有身份信息与确认信息；

获取所述用户口述所述预设确认文本得到的声纹特征，并形成所述用户的所述声纹特征与所述身份信息两者间的对应关系；

将所述对应关系存储在预设数据库中。

具体的，预设确认文本例如可以为“张三医生确认上述内容真实有效”。通过张三医生口述的语音，可以获取用户身份信息，包括姓名(张三)和职称(医生)，确认信息(确认上述内容真实有效)、将姓名和职称存储到身份-声纹特征数据库中，以便后续调用

进一步的，为了获取到更精准的声纹特征，预设数据库中存储的所述声纹特征是所述用户多次重复口述所述预设确认文本得到的。

此外，为了提高语音识别能力，还包括：

对存储在预设数据库中的所述身份信息进行语音识别优化，以提高所述身份信息的识别准确率。

为了简化操作，各所述用户对应的所述确认信息相同。例如仍以上述为例，确认信息可以统一设置为“确认上述内容真实有效”，当然也可以设置其他的信息，例如“确认可以”等等。

实施例2

本发明实施例2还公开有一种声纹识别确认的方法，在该方法中，在获取和存储声纹特征的过程中，设计装置提取指定说话人的身份信息，形成身份、声纹的对应关系，建立身份信息和声纹特征的数据库。然后通过语音识别优化技术，将身份信息进行优化。在三方口述确认签字的环节，使用语音识别技术和分词算法提取说话人身份信息，在数据库中进行筛选，获取该身份信息的声纹特征，通过对说话人语音声纹特征进行对比，从而确认说话人身份或者拒绝说话人身份。

具体的，本方案中包括以下几个部分，身份输入装置、声纹识别模块、身份-声纹特征数据库、语音识别模块、分词算法模块，主要模块功能说明如下：

声纹识别模块：提供获取说话人语音声纹特征的功能；提供对声纹特征进行对比从而判定是否为同一说话人的功能。

语音识别模块：提供将说话人语音转换为文本的功能；提供对指定文本进行语音识别优化，从而提高该文本识别概率的功能。

分词算法模块：通过分词模型，将文本拆分为符合逻辑的单词组，从而获取其中特定属性的内容。

由此，如图2所示，本方案的处理流程如下：

步骤1、通过身份输入装置获取说话人的身份信息，同时确定该用户获取声纹特征需要口述的文本内容。身份输入装置的界面概要如下：

用户在该装置上填写姓名，选择职称，形成获取声纹特征需要口述的文本，具体的如图3所示，同时也是核查确认环节中的确认文本，即“张三医生确认上述内容真实有效”。通过该装置获取了用户身份信息，包括姓名和职称，将姓名和职称存储到身份-声纹特征数据库。

步骤2、通过声纹识别模块获取声纹特征。用户重复口述步骤1中的文本，如重复口述“张三医生确认上述内容真实有效”5次，声纹识别模块获取该用户的平均声纹特征，存储到身份-声纹特征数据库中，形成职称-姓名-声纹特征对应关系的数据库。

步骤3、通过语音识别模块，对身份信息进行语音识别优化。从步骤2的身份-声纹特征数据库中，获取用户姓名，通过语音识别模块的优化功能进行优化，提高用户姓名的识别准确率。

步骤4、在三方口述确认签字的环节，用户口述步骤1中设置的确定文本，如“张三医生确认上述内容真实有效”，系统将语音发送到语音识别模块，转化为文本，并通过分词算法模块，将文本分解为“张三医生确认上述内容真实有效”，进一步提取身份信息，姓名“张三”和职称“医生”。利用姓名和职称在身份-声纹特征数据库进行筛选，获取声纹特征a。

步骤5、系统将步骤4中的说话人语音发送到声纹识别模块，获取声纹特征b，通过声纹识别模块对声纹特征a和b进行对比，确认两个特征在阈值范围内是否相同，从而判定说话人是否为“张三”，是“张三”则系统自动进行签名，不是“张三”则系统给出提示并进行预警。

实施例3

本发明实施例3还公开了一种声纹识别确认的设备，如图4所示，包括处理器，所述处理器用于执行实施例1或2中任意一项所述的步骤。

具体的，本发明实施例3还公开有其他相关的特征，出于简要的目的，其他相关的特征请参见实施例1与实施例2中的记载，在此不再进行赘述。

本发明提出了一种声纹识别确认的方法和设备，包括：当获取到待识别确认的语音时，将所述语音转化为文本格式后提取身份信息；在预设数据库中获取与所述身份信息对应的声纹特征，并将所述声纹特征设置为第一声纹特征；所述第一声纹特征为对应所述身份信息的口述者口述预设确认文本时得到的声纹特征；将所述第一声纹特征与第二声纹特征进行比对；所述第二声纹特征为从所述语音得到的声纹特征；若比对结果为特征一致，则基于所述身份信息执行预设确认流程。本方案通过身份信息和语音识别进行身份筛查，缩小声纹特征对比范围，解决了声纹识别技术在多样本场景下辨认准确率低的问题，提高了声纹辨认准确性。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。