HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

讲话人识别方法、识别装置以及记录介质、数据库生成方法、生成装置以及记录介质与流程

2021-01-28 16:01:15|283|起点商标网
讲话人识别方法、识别装置以及记录介质、数据库生成方法、生成装置以及记录介质与流程

本发明涉及一种利用语音信号识别讲话人是否为本人的技术。



背景技术:

近年来,获取未知的对象讲话人的语音信号并基于所获取的语音信号来识别对象讲话人是否为本人的技术已为公知。例如,在日本专利公开公报特开2017-223848号公报中公开了一种技术,获取对象讲话人的语音信号并计算被称为i-vector的特征量,进一步计算所计算出的特征量与存储在大规模数据库中的未确定的讲话人以及登录讲话人的各自的语音信息之间的相似度,在计算出的相似度中,计算对象讲话人声称是本人的登录讲话人的语音信息的相似度的顺序,如果其顺序在规定顺序以内,就判断为是本人。

然而,在日本专利公开公报特开2017-223848号公报公开的技术,为了提高识别是否为本人的识别精度,需要增大登录在大规模语音数据库中的未确定的讲话人的语音信息的数量,其结果,存在计算量增大的问题,需要进一步改善。



技术实现要素:

本发明的目的在于提供一种可以不用增大计算量就能提高识别是否为本人的识别精度的讲话人识别方法、讲话人识别装置以及记录了讲话人识别程序的记录介质、数据库生成方法、数据库生成装置以及记录了数据库生成程序的记录介质。

本发明的一方面涉及的讲话人识别方法,是让计算机利用存储表示多个未确定的讲话人的语音的语音信息的第一数据库和将多个登录讲话人的识别信息以及所述语音信息相互对应地存储的第二数据库识别讲话人的讲话人识别方法,所述第一数据库,对于所述多个登录讲话人中的每一个登录讲话人,将语音的特征相似的未确定的讲话人的所述语音信息与对应的登录讲话人的所述识别信息预先相互对应地进行分组;获取表示对象讲话人说出的语音的对象语音信号;获取作为所述对象讲话人声称是本人的人物的所述识别信息的对象识别信息;计算作为所述对象语音信号的特征量的第一特征量;从所述第一数据库选择包含所述对象识别信息所对应的所述语音信息的组;计算所选择的所述组中包含的所述语音信息以及所述第一特征量的相似度和作为存储在所述第二数据库中的所述对象识别信息所对应的所述语音信息以及所述第一特征量的相似度的对象相似度;对计算出的所述相似度的所述对象相似度的顺序进行计算;当所述顺序在规定的第一顺序以内的情况下判断所述对象讲话人是本人。

附图说明

图1是表示为了证实本发明的发现以女性为对象进行的实验的结果的图表。

图2是表示为了证实本发明的发现以男性为对象进行的实验的结果的图表。

图3是表示本发明的实施方式涉及的讲话人识别装置的构成的一个例子的方框图。

图4是表示第一数据库的数据构成的一个例子的示意图。

图5是表示第二数据库的数据构成的一个例子的示意图。

图6是表示本发明的实施方式的讲话人识别装置的处理的一个例子的流程图。

图7是表示输出装置输出的消息的一个例子的示意图。

图8是表示本发明的实施方式的数据库生成装置2的构成的一个例子的方框图。

图9是表示本发明的实施方式的数据库生成装置的处理的一个例子的流程图。

图10是表示本发明的变形例涉及的讲话人识别装置的构成的一个例子的方框图。

图11是表示本发明的变形例涉及的数据库生成装置的构成的一个例子的方框图。

具体实施方式

(得到本发明的经过)

近年来,为了防止冒名本人,利用对象者说出的语音的技术备受关注。例如,在网上银行,已经开始了在让对象者输入识别信息的同时并让对象者说出语音,在识别信息和说出的语音的特征满足了规定的条件的情况下才将对象者识别为本人的服务。此外,在房间的退出进入系统,也开始研究,例如,在让读卡器读取卡中记录的识别信息的基础上让对象者讲话,在识别信息和表示说出的语音的语音信号的特征量满足了规定的条件的情况下才允许出入房间的应用。

作为可以适用于这样的服务以及应用的技术,存在上述的日本专利公开公报特开2017-223848号公报公开的技术。日本专利公开公报特开2017-223848号公报公开了一种技术,计算出对象讲话人说出的语音信号的特征量与存储在大规模数据库中的未确定的讲话人以及登录讲话人的各自的语音信息之间的相似度,在计算出的相似度中,计算对象讲话人与声称是本人的登录讲话人的语音信息的相似度的顺序,如果其顺序在规定顺序以内就判断为是本人。

然而,在日本专利公开公报特开2017-223848号公报公开的技术为了提高识别是否为本人的识别精度,需要增大存储在大规模数据库中的未确定的讲话人的语音信息的个数,因此,存在计算量增大且判断是否为本人需要时间的问题。此外,在日本专利公开公报特开2017-223848号公报公开的技术中,在对象讲话人的讲话时间比较短的情况下,还存在识别是否为本人的识别精度下降的问题。

因此,本发明的发明人对在不增大计算量的前提下如何提高识别是否为本人的识别精度的方法进行了研究。获得了以下的发现,即,在日本专利公开公报特开2017-223848号公报公开的技术中,在计算上述的相似度之际,不是使用存储在大规模数据库中的全部的未确定的讲话人的语音信息,而是拾取对象讲话人声称是本人的识别信息和特征相似的未确定的讲话人的语音信息,仅使用拾取到的语音信息即可以提高识别是否为本人的识别精度。此外,还获得了以下的发现,即,如果采用该方法,即使是在对象讲话人的讲话时间比较短的情况下,也能提高识别是否为本人的识别精度。

图1是表示为了证实本发明的发现而以女性为对象进行的实验结果的图表,上半部分是使用本发明的方法(本方法)时的图表,下半部分是使用日本专利公开公报特开2017-223848号公报的方法(比较例)时的图表。在两个图表中,纵轴表示错误率,横轴表示讲话时间。

在本实验中,分别对如0.4秒、0.8秒、1.2秒、2.0秒这样的多个讲话时间计算出未确定的讲话人的人数为3268名、1634名、817名、409名、204名、102名、51名、26名时的错误率。

错误率是指,如日本专利公开公报特开2017-223848号公报所示,表示将应该是本人的语音错误地判断为是其他人的语音的概率(本人拒绝率)作为纵轴、将规定顺序作为横轴时的两者的关系的上升的图表和表示将应该为冒名者的语音错误地判断为是本人的概率(其它人接受率)作为纵轴、将规定顺序作为横轴时的两者的关系的下降的图表之间的交差点的纵轴的值。

在本方法中,作为未确定的讲话人的语音信息,按照相对于对象讲话人的语音信息的特征量的相似度从高到低的顺序使用了3268名、1634名、817名、409名、204名、102名、51名、26名的语音信息。与此相对应,在比较例中,作为未确定的讲话人的语音信息,使用了随机提取的3268名、1634名、817名、409名、204名、102名、51名、26名的语音信息。

在图1的上半部分以及下半部分的图表中,各讲话时间的八根棒从左起依次表示未确定的讲话人的人数为3268名、1634名、817名、409名、204名、102名、51名、26名时的错误率。

如上半部分以及下半部分的图表所示,本方法以及比较例的错误率都随着讲话时间的增大而减少,但是,总体上本方法的错误率比较低。特别是在比较例中,在各讲话时间错误率随着未确定的讲话人的人数的减少而增大,而在本方法却没有出现这样的倾向。具体而言,在本方法,在“1.2秒”以及“2.0秒”比较长的讲话时间,无论未确定的讲话人的人数如何,错误率都维持在2.00%以下较低的值。而且,在本方法,在“0.4秒”,“0.8秒”比较短的讲话时间,错误率随着未确定的讲话人的人数的减少而减少。由此可以得出,在本方法,即使将未确定的讲话人的人数从“3268名”减少到“26名”,错误率不会增大反而会减少。因此,可以得出在本方法中,通过减少未确定的讲话人的人数,可以提高识别是否为本人的识别精度,从而可以削减计算量。此外,还可以得出在本方法中,即使是在讲话时间比较短的情况下,通过减少未确定的讲话人的人数,也可以提高识别是否为本人的识别精度。

之所以能得到这样的实验结果,可以推测是因为反映了如下的经验法则,例如,在能力相似的人彼此竞争的情况下想提高顺序很难,因此,能力相似的人彼此竞争的情况下的顺序与不是能力相似的人彼此竞争的情况下的顺序相比信赖度会变高。

图2是表示为了证实本发明的发现而以男性为对象进行的实验结果的图表,上半部分是使用了本发明的方法(本方法)时的图表,下半部分是使用日本专利公开公报特开2017-223848号公报的方法(比较例)时的图表。图2的实验内容与图1的实验内容相同。在图2中也得到了与图1相同的实验结果。因此,表示无论性别如何该方法都有效。

根据以上的发现,本发明的发明人想到了以下所示的各种实施方式。

本发明的一实施方式,是让计算机利用存储表示多个未确定的讲话人的语音的语音信息的第一数据库和将多个登录讲话人的识别信息以及所述语音信息相互对应地存储的第二数据库识别讲话人的讲话人识别方法,所述第一数据库,对于所述多个登录讲话人中的每一个登录讲话人,将语音的特征相似的未确定的讲话人的所述语音信息与对应的登录讲话人的所述识别信息预先相互对应地进行分组,所述讲话人识别方法包括以下步骤:获取表示对象讲话人说出的语音的对象语音信号;获取作为所述对象讲话人声称是本人的人物的所述识别信息的对象识别信息;计算作为所述对象语音信号的特征量的第一特征量;从所述第一数据库选择包含所述对象识别信息所对应的所述语音信息的组;计算所选择的所述组中包含的所述语音信息以及所述第一特征量的相似度和作为存储在所述第二数据库中的所述对象识别信息所对应的所述语音信息以及所述第一特征量的相似度的对象相似度;对计算出的所述相似度的所述对象相似度的顺序进行计算;当所述顺序在规定的第一顺序以内的情况下,判断所述对象讲话人是本人。

根据本实施方式,存储多个未确定的讲话人的语音信息的第一数据库,对于所述多个登录讲话人中的每一个登录讲话人,预先将语音的特征相似的未确定的讲话人的所述语音信息与对应的登录讲话人的所述识别信息相互对应从而进行分组。

而且,从第一数据库选择包含与对象讲话人声称是本人的人物的对象识别信息相互对应的语音信息的组,计算作为对象语音信号的特征量的第一特征量与被选择的组中包含的语音信息的相似度。而且,对计算出的相似度中的与存储在第二数据库中的对象识别信息对应的语音信息和作为第一特征量的相似度的对象相似度的顺序进行计算,在顺序为第一顺序以内的情况下就判断对象讲话人是本人。

如此,在该构成,在计算相似度之际,不是使用存储在第一数据库中的未确定的讲话人的全部的语音信息,而是使用所选择的组中包含的语音信息,即,与对象讲话人声称是本人的人物的语音信息相似的未确定的讲话人的语音信息。为此,本构成可以在不使计算量增大的前提下提高识别是否为本人的识别精度。此外,本实施方式即使是在讲话时间比较短的情况下也能提高识别是否为本人的识别精度。

在上述构成,也可以是,进一步对计算出的所述相似度的分散(方差)或标准偏差进行计算,进一步使所述第一顺序随着所述分散或所述标准偏差的减小而上升。

根据该构成,第一顺序随着计算出的相似度的分散或标准偏差的减小而上升。为此,在被选择的组由与第一特征量相似度高的语音信息构成的情况下,第一顺序上升被判断为本人的难度增大,其结果,可以提高识别是否为本人的识别精度。

在上述构成,也可以是,所述对象识别信息是由所述对象讲话人输入的所述识别信息。

根据该构成,因为由对象讲话人输入对象识别信息,可以容易地获取对象识别信息。

在上述构成,也可以是,所述对象语音信号包含所述对象讲话人声称是本人的讲话内容,

所述对象识别信息是通过语音识别所述对象语音信号而获得的所述讲话内容。

根据该构成,因为例如通过让对象讲话人发出声称是本人的人物的姓名可以获取对象识别信息和对象语音信号,对象讲话人不需另外输入对象识别信息,可以省去对象讲话人的麻烦。

在上述构成,也可以是,还进一步提示所述对象讲话人是否为本人的判断结果。

根据该构成,因为还提示对象讲话人是否为本人的判断结果,对象讲话人可以确认自身的声称是否被接受了。

在上述构成,也可以是,所述第一数据库存储的所述语音信息包含所述未确定的讲话人的语音信号,所述第二数据库存储的所述语音信息包含所述登录讲话人的所述语音信号,还进一步将所述未确定的讲话人的所述语音信号的特征量和与存储在所述第二数据库的所述对象识别信息对应的所述语音信号的特征量作为第二特征量进行计算,在所述相似度的计算中,计算所述第一特征量和所述第二特征量之间的所述相似度。

根据该构成,因为在第一数据库和第二数据库存储有作为语音信息的语音信号,根据被存储的语音信号计算第二特征量,没有必要让第一数据库和第二数据库预先存储特征量。为此,可以容易地生成第一数据库和第二数据库。

在上述构成,也可以是,所述第一数据库存储的所述语音信息包含所述未确定的讲话人的语音信号的特征量,所述第二数据库存储的所述语音信息是所述登录讲话人的所述语音信号的所述特征量。

根据该构成,因为在第一数据库和第二数据库存储有作为语音信息的语音信号的特征量,可以不用进行根据被存储在第一数据库以及第二数据库的语音信号计算特征量的处理就能计算相似度。

在上述构成,也可以是,所述第一数据库,是对所述多个登录讲话人中的每一个登录讲话人通过提取对所述多个不确定讲话人的所述相似度的所述顺序在规定的第二顺序以内的所述语音信息进行分组而生成的数据库,所述第二顺序是为了使错误率最小化而预先决定的所述未确定的讲话人的最少人数。

根据该构成,因为可以使构成第一数据库的多个组的每个组所包含的语音信息的个数为相同的个数,如果整理第一数据库就可以进行分组。并且,因为第二顺序被设定成是为了使错误率最小化而预先决定的未确定的讲话人的最少人数,可以消减计算相似度时的计算量,提高识别精度。

本发明的另一方面涉及的数据库生成方法,是让计算机生成用于进行讲话人识别的数据库的数据库生成方法,包括以下步骤:获取表示多个未确定的讲话人的语音的语音信息;获取多个登录讲话人中的每一个登录讲话人的识别信息以及所述语音信息;计算所述多个登录讲话人的语音信息与所述多个未确定的讲话人的所述语音信息的特征量的相似度;对于所述多个登录讲话人中的每一个登录讲话人,提取所述相似度满足规定的第一条件的未确定的讲话人的所述语音信息;对于所述多个登录讲话人中的每一个登录讲话人,通过将登录讲话人的所述识别信息和针对每个所述登录讲话人提取的所述语音信息相互对应,对所述未确定的讲话人的所述语音信息进行分组来生成数据库。

根据该构成,对于多个登录讲话人中的每一个登录讲话人,提取相似度满足规定的第一条件的未确定的讲话人的语音信息,对于多个登录讲话人中的每一个登录讲话人,通过将登录讲话人的识别信息和提取的未确定的讲话人的语音信息相互对应对未确定的讲话人的语音信息进行分组来生成数据库。由此,可以生成实现能够在不使计算量增大的前提下提高识别是否为本人的识别精度的讲话人识别方法的数据库。

在上述构成,也可以是,所述第一条件是所述相似度在规定的顺序以内的条件;所述规定顺序是为了使错误率最小化而预先决定的所述未确定的讲话人的最少人数。

根据该构成,因为可以使构成第一数据库的多个组的每个组所包含的语音信息的个数为相同的个数,如果整理第一数据库就可以进行分组。并且,因为第二顺序被设定成是为了使错误率最小化而预先决定的未确定的讲话人的最少人数,可以消减计算相似度时的计算量,提高识别精度。

在上述构成,也可以是,所述第一条件是所述相似度在规定值以上的条件。

根据该构成,可以对相应的登录讲话人用相似度在规定值以上的语音信息构成第一数据库的每个组。

而且,本发明还可以让计算机执行这样的讲话人识别方法所包含的各个构成要素来实现讲话人识别程序或讲话人识别装置。而且,不用说也可以使这样的讲话人识别程序通过cd-rom等计算机可读取的非暂时性的记录介质或因特网等通信网络而流通。这些对数据库生成方法、数据库生成装置以及数据库生成程序也相同。

另外,以下说明的实施方式中的任何一个实施方式都是用于具体地表示本发明的一个例子。在以下的实施方式所示的数值、形状、构成要素、步骤、步骤的顺序等只不过是一个例子而已,并不用于限定本发明。而且,以下的实施方式中的构成要素之中,对于表示最上位概念的独立权利要求中没有记载的构成要素作为任意的构成要素而说明。而且,在全部的实施方式中,可以任意地组合各自的内容。

(实施方式)

图3是表示本发明的实施方式涉及的讲话人识别装置1的构成的一个例子的方框图。讲话人识别装置1包含处理器10、存储器20以及输出装置50。在处理器10连接有输入装置30以及收音装置40。讲话人识别装置1既可以包含输入装置30以及收音装置40,也可以不包含输入装置30以及收音装置40。

输入装置30,例如,是键盘、鼠标以及触控面板等输入装置,由对象讲话人输入作为识别对象的讲话人的对象讲话人的识别信息的对象识别信息。另外,输入装置30也可以由读卡器、rfid(radiofrequencyidentifier)读取器等构成。在这种情况下,对象讲话人通过让读卡器读取记录有对象识别信息的卡或者让rfid读取器读取记录有对象识别信息的rfid标签来输入对象识别信息。对象讲话人是否为本人是未知的人物。因此,基本上,如果对象讲话人是本人的情况下,对象识别信息就成为对象讲话人的识别信息,如果对象讲话人为冒名者的情况下,对象识别信息就成为与对象讲话人不同的人物的识别信息。

收音装置40例如是麦克风,收音对象讲话人说出的语音,并将其转换为语音信号,输入到处理器10。

处理器10既可以由cpu构成也可以由专用的电路构成。处理器10包含语音获取部11、识别信息获取部12、特征量计算部13、选择部14、相似度计算部15、顺序计算部16、判断部17以及校正部18。

语音获取部11从收音装置40获取表示对象讲话人说出的语音的对象语音信号,并将其输入到特征量计算部13。识别信息获取部12从输入装置30获取作为对象讲话人声称是本人的人物的识别信息的对象识别信息,并将其输入到选择部14以及相似度计算部15。

另外,也可以采用通过让对象讲话人发出声称是本人的讲话来获取对象识别信息的实施方式。在这种情况下,识别信息获取部12,对收音装置40收音的对象语音信号进行语音识别处理,获取对象语音信号中包含的对象讲话人声称是本人的讲话内容,将表示获取的讲话内容的文本作为对象识别信息来获取。作为对象讲话人声称是本人的讲话内容,例如,也可以采用“太郎”、“花子”这样的本人的名字。由此,可以在不强求对象讲话人输入对象识别信息的情况下获取对象识别信息。

特征量计算部13,计算作为对象语音信号的特征量的第一特征量,并将其输入到相似度计算部15。特征量例如是i-vector、x-vector等。特征量计算部13具备使用多个语音信号预先进行了学习的学习模型,该学习模型将语音信号作为输入、将特征量作为输出。特征量计算部13向该学习模型输入对象语音信号,并将输出的特征量作为第一特征量计算得出。例如,在特征量为x-vector的情况下,该学习模型可以由深度神经网络来构成。

选择部14从第一数据库21选择包含与对象识别信息对应的语音信息的组。图4是表示第一数据库21的数据构成的一个例子的示意图。第一数据库21是存储表示多个未确定的讲话人的语音的语音信息的数据库,是对于多个登录讲话人中的每一个登录讲话人预先将语音的特征相似的未确定的讲话人的语音信息与对应的登录讲话人的识别信息相互对应地进行分组的数据库。

具体而言,第一数据库21包含登录讲话人id、语音信息id以及语音信息的列。登录讲话人id是登录讲话人的识别信息。登录讲话人是在后述的第二数据库22中预先将登录讲话人id和语音信息相互对应地存储的人物。在采用通过让读卡器读取对象讲话人的卡来从输入装置30获取对象标识信息的实施方式的情况下,登录讲话人id例如由记录在卡中的表示标识信息的符号列构成。另一方面,在采用通过对对象语音信号进行语音识别获取对象识别信息的实施方式的情况下,登录讲话人id例如由名字构成。这些在第二数据库22的登录讲话人id也相同。

在本实施方式,第一数据库21,对多个登录讲话人的每一个登录讲话人的语音信息,计算与未确定的讲话人的语音信息的相似度并给相似度赋予从大到小的顺序,通过提取在规定的第二顺序以内的未确定的讲话人的语音信息而划分为多个组。因此,通过指定登录讲话人id,可以从第一数据库21获取被包含在一个组中的未确定的讲话人的语音信息。

根据图1的实验结果可以得知,与将未确定的讲话人的人数设定为“3268名”、“1634名”等较多人数相比,将未确定的讲话人的人数设定为“51名”、“26名”等较少人数时可以减小在各讲话时间的错误率。在此,作为第二顺序,可以采用例如通过“51名”或“26名”等的多个讲话时间可以使错误率整体地最小化的未确定的讲话人的最少人数。

语音信息id是用于识别未确定的讲话人的语音信息的识别信息。未确定的讲话人是其语音信息被存储在第一数据库21中的人物。语音信息id仅仅是用于确定语音信息的识别信息,与人物的识别信息没有对应关系。为此,无法根据语音信息id确定特定的人物。因此,未确定的讲话人仅仅是第一数据库21中登录了语音信息的未确定的人物。

在语音信息的列中存储有未确定的讲话人的语音信息。语音信息例如可以采用上述的特征量。在这种情况下,在语音信息的列中存储有通过向上述的学习模型输入未确定的讲话人的语音信号而预先获得的特征量。但是,这只是一个例子而已,在语音信息的列中也可以存储未确定的讲话人的语音信号。在这种情况下,特征量计算部13可以除了对象语音信号之外,还计算通过选择部14选择的组中包含的未确定的讲话人的语音信号的特征量,并将其输入到相似度计算部15。在语音信息为特征量的情况下,语音信息的列所示的y1、y2、……的数列示意表示特征量的多维矢量。在语音信息为语音信号的情况下,语音信息的列所示的y1、y2、……的数列示意语音信号的波形数据。

例如,在输入了登录讲话人id“a”的对象识别信息的情况下,选择部14从第一数据库21中选择登录讲话人id“a”的组中包含的语音信息,并将其输入到相似度计算部15。

返回参照图3。相似度计算部15计算通过选择部14选择的未确定的讲话人的语音信息与第一特征量的相似度。此外,相似度计算部15还从第二数据库22获取与从识别信息获取部12输入的对象识别信息对应的语音信息,并将所获取的语音信息和第一特征量的相似度作为对象相似度进行计算。而且,相似度计算部15将计算出的相似度和对象相似度输入到顺序计算部16以及校正部18。具体而言,相似度计算部15可以将相似度与语音信息id相对应地输入到顺序计算部16,并将对象相似度与对象识别信息(登录讲话人id)相互对应地输入到顺序计算部16。

第二数据库22是将多个登录讲话人的识别信息与语音信息相互对应地存储的数据库。图5是表示第二数据库22的数据构成的一个例子的示意图。第二数据库22包含登录讲话人id和语音信息的列。登录讲话人id是登录讲话人的识别信息。在语音信息的列中存储有登录讲话人的语音信息。语音信息与第一数据库21的情况相同是特征量。但是,这只是一个例子而已,语音信息也可以是如在第一数据库21中说明所示为语音信号。

例如,在输入了登录讲话人id“a”的对象识别信息的情况下,相似度计算部15从第二数据库22获取第一行的语音信息,并将该语音信息和第一特征量的相似度作为对象相似度进行计算。

另外,作为相似度可以采用欧式距离(euclideandistance)、余弦相似度、马氏距离(mahalanobis'distance)等的相似指标。在采用越相似其值就越减少的相似指标作为相似度的情况下,例如,相似度采用相似指标的倒数。由此,相似度越高则相似度的值就越增大。

返回参照图3。顺序计算部16计算从相似度计算部15输入的相似度中的对象相似度的顺序,并将其输入到判断部17。在此,顺序计算部16可以通过确定在将从相似度计算部15输入的相似度以及对象相似度按照从高到低的顺序排列时对象相似度位于第几位来计算对象相似度的顺序。

判断部17,从校正部18获取校正之后的第一顺序,在从顺序计算部16输入的对象相似度的顺序在第一顺序以内的情况下,判断对象讲话人是本人。另一方面,判断部17,在从顺序计算部16输入的对象相似度的顺序大于第一顺序的情况下,判断对象讲话人不是本人。另外,在本发明中,也可以省略校正部18,在这种情况下,判断部17可以从第一顺序存储部23获取第一顺序。

校正部18计算包含从相似度计算部15输入的对象相似度以及相似度的母集团的分散(方差),并随着分散的减少使第一顺序上升,将其输入到判断部17。另一方面,校正部18使第一顺序随着包含从相似度计算部15输入的对象相似度以及相似度的母集团的分散的增大而下降。第一顺序相对于分散的值例如既可以台阶式地增减也可以连续地增减。在台阶式地增减的情况下,例如,校正部18可以利用将区分分散的多个台阶和对于每个台阶的第一顺序的增减值预先相互对应的校正表,确定与计算出的分散对应的第一顺序的增减值。在此,校正部18计算包含对象相似度以及相似度的母集团的分散,但是,代替分散也可以计算标准偏差。而且,校正部18在计算分散或标准偏差之际也可以从母集团省略对象相似度。

输出装置50包含显示器以及扬声器,输出判断部17的判断结果。输出装置50,在判断为是本人的情况下,向显示器和/或扬声器输出表示认证已被允许的消息。另一方面,输出装置50,在判断为不是本人的情况下,向显示器和/或扬声器输出表示认证未被允许的消息。

存储器20例如是eeprom(electricallyerasableprogrammableread-onlymemory)等非易失性存储器,包含在图4中说明的第一数据库21、在图5中说明的第二数据库22、还有第一顺序存储部23。第一顺序存储部23存储判断部17为了判断对象讲话人是否为本人而使用的第一顺序。

第一顺序与日本专利公开公报特开2017-223848号公报中公开的技术相同,通过以下的方法来决定。即,准备多个开发用讲话人的语音信号(以下,称为登录语音信号),选出其中一名讲话人a,将剩下的人认为是冒名者。而且,设定某个阈值(例如第100位),计算讲话人a实际地说出的语音信号和全部开发用讲话人的登录语音信号的特征量的相似度,计算讲话人a说出的语音信号和讲话人a的登录语音信号的特征量的相似度的顺序,如果其顺序大于第100位,就判断为拒绝本人。

而且,计算讲话人a以外的冒名者实际地说出的语音信号和全部开发用讲话人的登录语音信号的特征量的相似度,并计算冒名者说出的语音信号和讲话人a的登录语音信号的特征量的相似度的顺序,如果其顺序在100位以内就视为接受其它人。

该拒绝本人和接受其它人的判断,一边使讲话人a变更一边依次执行,分别计算出阈值为第100位的本人拒绝率和其它人接受率。而且,以在100位以内用10位刻度、100位以上用100位刻度的方式使阈值变化,计算出根据阈值的本人拒绝率和其它人接受率。由此,获得以本人拒绝率为纵轴以阈值为横轴时表示两者的关系的上升的图表和以其它人接受率为纵轴以阈值为横轴时表示两者的关系的下降的图表,计算出两个图表的交差点,将该交差点的阈值决定为第一顺序。

其次,对本实施方式的讲话人识别装置1的处理进行说明。图6是表示本发明的实施方式的讲话人识别装置1的处理的一个例子的流程图。首先,语音获取部11获取收音装置40收音的对象语音信号(步骤s1)。其次,识别信息获取部12从输入装置30或被收音在收音装置40中的对象语音信号获取对象识别信息(步骤s2)。

其次,特征量计算部13将对象语音信号输入到学习模型并计算第一特征量(步骤s3)。其次,选择部14从第一数据库21选择与对象识别信息(登录讲话人id)对应的组,并将所选择的组中包含的未确定的讲话人的语音信息输入到相似度计算部15(步骤s4)。

其次,相似度计算部15计算所选择的组中包含的未确定的讲话人的语音信息和第一特征量的相似度,并计算与存储在第二数据库22中的对象识别信息(登录讲话人id)对应的语音信息和第一特征量之间的对象相似度(步骤s5)。

其次,顺序计算部16计算在相似度计算部15计算出的相似度中的对象相似度的顺序(步骤s6)。其次,校正部18计算通过相似度计算部15计算出的对象相似度以及相似度的分散(步骤s7)。

其次,校正部18,以使第一顺序随着计算出的分散的减少而上升、使第一顺序随着计算出的分散的增大而下降的方式,校正第一顺序(步骤s8)。

其次,判断部17,通过比较对象相似度的顺序和校正之后的第一顺序,来判断对象讲话人是否为本人(步骤s9)。在对象相似度的顺序在第一顺序以内的情况下,判断部17判断对象讲话人是本人(在步骤s10为“是”),处理进入步骤s11。另一方面,在对象相似度的顺序大于第一顺序的情况下(在步骤s10为“否”),判断部17判断对象讲话人不是本人(在步骤s10为“否”),处理进入步骤s12。

在步骤s11,因为被判断为对象讲话人是本人,输出装置50输出表示认证被允许的消息。在步骤s12中,因为被判断为对象讲话人不是本人,输出装置50输出表示认证不被允许的消息。

图7是表示输出装置50输出的消息的一个例子的示意图。在图7中,画面g71是在被判断为对象讲话人是本人的情况下显示在显示器上的画面,画面g72是在被判断为对象讲话人不是本人的情况下显示在显示器上的画面。如画面g71所示,在被判断为对象讲话人是本人的情况下,在显示器上显示“已被允许”这样的认证已被允许的消息。另一方面,如画面g72所示,在被判断为对象讲话人不是本人的情况下,在显示器上显示“未被允许”这样的认证未被允许的消息。由此,对象讲话人可以快速地识别认证是否已被允许。

其次,对本实施方式的讲话人识别装置1的应应用例进行说明。第一应用例是讲话人识别装置1被应用于网上银行的例子。首先,对象讲话人从自己的便携式终端向银行的网站输入识别信息并登录。然后,如果对象讲话人例如输入存款金额并请求向某个账户存款,则被要求发出语音。对象讲话人根据该要求说出某些语音(例如,自己的名字或今天的天气等)。然后,在登录时输入的识别信息作为对象识别信息被讲话人识别装置1获取并且表示说出的语音的语音信号作为对象语音信号被讲话人识别装置1获取,进行是否为本人的判断。如果被判断为是本人,画面g71被显示在便携式终端的显示器上,如果被判断为不是本人,画面g72被显示在便携式终端的显示器上。

第二应用例是讲话人识别装置1被应用于出入室系统的例子。首先,对象讲话人使卡靠近设置在希望进入的房间的入口的读卡器,读取记录在卡上的识别信息。其次,由于被要求发出语音,对象讲话人会说出某些语音(例如,自己的名字或今天的天气等)。然后,读取到的识别信息作为对象识别信息被讲话人识别装置1获取并且表示说出的语音的语音信号作为对象语音信号被讲话人识别装置1获取,进行是否为本人的判断。如果被判断为是本人,例如,从扬声器输出允许入室这样的语音消息,并且,从讲话人识别装置1向门输出打开门的控制命令门被打开。另一方面,在被判断为不是本人的情况下,例如,从扬声器输出没有被允许入室这样的语音消息,门不打开。

如上所述,根据本实施方式,在计算相似度之际,不使用存储在第一数据库21中的未确定的讲话人的全部的语音信息,而是使用所选择的组中包含的语音信息,即,与对象讲话人声称为本人的人物的语音信息相似的未确定的讲话人的语音信息。为此,本实施方式可以在不使计算量增大的前提下提高识别是否为本人的识别精度。此外,本实施方式即使是在讲话时间比较短的情况下也可以提高识别是否为本人的识别精度。

其次,对本发明的实施方式的数据库生成装置进行说明。图8是表示本发明的实施方式的数据库生成装置2的构成的一个例子的方框图。数据库生成装置2包含处理器100、存储器200、输入装置300、接口电路310以及收音装置400。

接口电路310例如是存储器接口以及网络接口等,从外部存储器以及外部网络等输入多个未确定的讲话人的语音信号。

输入装置300例如是键盘、鼠标以及触控面板等输入装置,用于输入多个登录讲话人的识别信息。

收音装置400例如是麦克风等,收音多个登录讲话人的语音并将其转换为语音信号输入到处理器100。另外,对于多个登录讲话人中的每一个登录讲话人,语音信号和识别信息被同步地输入到处理器100。

处理器100既可以由cpu构成也可以由专用的电路构成。处理器100包含第一获取部101、第二获取部102、相似度计算部103、提取部104以及生成部105。

第一获取部101获取从输入装置300的接口电路输入的多个未确定的讲话人的语音信号,并将它们输入到相似度计算部103。第二获取部102获取从输入装置300输入的多个登录讲话人的识别信息和从收音装置400输入的多个登录讲话人的语音信号。而且,第二获取部102将每个登录讲话人的识别信息和与每个登录讲话人的识别信息同步地输入的每个登录讲话人的语音信号相互对应地输入到相似度计算部103。

相似度计算部103将从第一获取部101输入的多个未确定的讲话人的语音信号输入到学习模型并计算每个未确定的讲话人的语音信号的特征量。而且,相似度计算部103将与识别信息相互对应地输入的每个登录讲话人的语音信号的特征量输入到学习模型并计算每个登录讲话人的语音信号的特征量。在此,学习模型与在讲话人识别装置1中使用的学习模型相同。

然后,相似度计算部103计算多个登录讲话人的语音信号的特征量和多个未确定的讲话人的语音信号的特征量之间的相似度。相似度与在讲话人识别装置1中使用的相似度相同。

提取部104提取相似度满足规定的第一条件的未确定的讲话人的语音信号。第一条件例如是相似度在讲话人识别装置1说明的第二顺序以内的条件。在这种情况下,提取部104通过对多个登录讲话人中的每一个登录讲话人以相似度从高到低的顺序排列多个未确定的讲话人的语音信号,来对多个未确定的讲话人的语音信号进行排序。而且,提取部104也可以对多个登录讲话人中的每一个登录讲话人,将顺序在第二顺序以内的未确定的讲话人的语音信号作为满足第一条件的语音信号来提取。

第一条件例如可以是相似度在规定值以上的条件。或者,第一条件也可以是相似度在第二顺序以内且在规定值以上的条件。由此,即使相似度是在第二顺序以内的语音信号,也可以防止相对于登录讲话人的语音信号相似度较低的语音信号被包含在与该登录讲话人对应的组内。

生成部105,对于多个登录讲话人中的每一个登录讲话人,通过将登录讲话人的识别信息与针对每个登录讲话人提取的语音信号(语音信息)相互对应来对未确定的讲话人的语音信号进行分组并生成第一数据库21,并将该第一数据库21存储在存储器200中。此时,生成部105也可以对每个未确定的讲话人的语音信号赋予语音信息id。由此,生成如图4所示的第一数据库21。

存储器200例如是eeprom等非易失性存储器,存储第二顺序存储部201以及第一数据库21。第二顺序存储部201存储提取部104提取未确定的讲话人的语音信号之际所使用的第二顺序。

其次,对本发明的实施方式的数据库生成装置2的处理进行说明。图9是表示本发明的实施方式的数据库生成装置2的处理的一个例子的流程图。

首先,第一获取部101经由接口电路310获取多个未确定的讲话人的语音信号(步骤s101)。其次,第二获取部102获取从输入装置300输入的多个登录讲话人的识别信息和与从收音装置400输入的每个登录讲话人对应的语音信号(步骤s102)。

其次,相似度计算部103,通过将多个未确定的讲话人的语音信号和多个登录讲话人的语音信号分别输入到学习模型,计算多个未确定的讲话人的语音信号的特征量和多个登录讲话人的语音信号的特征量(步骤s103)。

其次,提取部104,对于多个登录讲话人中的每一个登录讲话人,按照相似度从高到低的顺序对多个未确定的讲话人的语音信号进行排序(步骤s104)。

其次,提取部104,对于多个登录讲话人中的每一个登录讲话人,提取满足第一条件的未确定的讲话人的语音信号,即,相似度在第二顺序以内且在规定值以上的未确定的讲话人的语音信号(步骤s105)。

其次,生成部105,对于多个登录讲话人中的每一个登录讲话人,通过将登录讲话人的识别信息(登录讲话人id)与提取出的未确定的讲话人的语音信号(语音信息)相互对应进行分组,生成第一数据库21(步骤s106)。其次,生成部105将第一数据库21存储到存储器200中(步骤s107)。

根据本实施方式的数据库生成装置2,对于多个登录讲话人中的每一个登录讲话人,提取相似度满足规定的第一条件的未确定的讲话人的语音信号,对于多个登录讲话人中的每一个登录讲话人,通过将登录讲话人的识别信息与提取出的未确定的讲话人的语音信号相互对应对未确定的讲话人的语音信号进行分组生成第一数据库21。由此,可以生成能够实现在不使计算量增大的前提下可以提高识别是否为本人的识别精度的讲话人识别方法的数据库。

另外,第一获取部101,以获取未确定的讲话人的语音信号为例进行了说明,但是,本发明并不局限于此,也可以获取未确定的讲话人的语音信号的特征量。

而且,生成部105,将语音信号作为语音信息而生成了第一数据库21,但是,本发明并不局限于此,也可以将语音信号的特征量作为语音信息来生成第一数据库21。

其次,对作为讲话人识别装置1的变形例的讲话人识别装置1a进行说明。图10是表示本发明的变形例涉及的讲话人识别装置1a的构成的一个例子的方框图。讲话人识别装置1a是在云端上实现了讲话人识别装置1的装置,具备服务器600。服务器600经由规定的网络与终端装置700可通信地连接。规定的网络例如是包含因特网和移动电话通信网的广域网或者是有线lan或无线lan等本地区域网。

服务器600包含处理器610、通信装置620以及存储器630。处理器610与讲话人识别装置1相同,包含特征量计算部13、选择部14、相似度计算部15、顺序计算部16、判断部17以及校正部18。但是,在本变形例中,在讲话人识别装置1的处理器10中包含的语音获取部11以及识别信息获取部12被设置在通信装置620。

通信装置620例如由用于将服务器600连接到规定的网络的通信电路构成。

在该变形例中,语音获取部11经由网络从终端装置700获取对象语音信号。而且,在该变形例中,识别信息获取部12经由网络从终端装置700获取对象识别信息。存储器630的构成与讲话人识别装置1相同。

终端装置700例如是平板电脑终端、智能手机等便携式终端或台式计算机。终端装置700包含通信装置701、显示器702、扬声器703、收音部704以及输入部705。

通信装置701例如是将终端装置700连接到规定的网络的通信电路。显示器702例如是液晶面板、显示图7所示的画面g71、g72。

扬声器703输出从通信装置620发送来的表示通过判断部17判断对象讲话人是否为本人的判断结果的语音消息。在此,在被判断为对象讲话人是本人的情况下,输出认证被允许的语音消息,在被判断为对象讲话人不是本人的情况下,输出认证未被允许的语音消息。

收音部704例如是麦克风,收音对象讲话人说出的语音并将其转换为语音信号。转换后的语音信号作为对象语音信号被从通信装置701发送到服务器600。

输入部705例如是触控面板、键盘、鼠标等,受理由对象讲话人输入的对象识别信息。输入的对象识别信息被从通信装置701发送到服务器600。根据该变形例,可以在云端系统中实现本发明的讲话人识别方法。

其次,对作为数据库生成装置2的变形例的数据库生成装置2a进行说明。图11是表示本发明的变形例涉及的数据库生成装置2a的构成的一个例子的方框图。数据库生成装置2a是在云端上实现了数据库生成装置2的装置,包含服务器800。

在服务器800经由规定的网络与终端装置900可通信地连接。规定的网络例如是包含因特网以及移动电话通信网的广域网或者是有线lan或无线lan等的本地区域网。

服务器800包含处理器810、通信装置820以及存储器830。处理器810与数据库生成装置2相同,包含相似度计算部103、提取部104、生成部105。但是,在本变形例中,数据库生成装置2的处理器100中包含的第一获取部101以及第二获取部102被设置在通信装置820。

通信装置820例如由用于将服务器800连接到规定的网络的通信电路构成。

在该变形例中,第一获取部101经由网络获取多个未确定的讲话人的语音信号。而且,在该变形例中,第二获取部102经由网络从终端装置900获取登录讲话人的语音信号以及识别信息。存储器830的构成与数据库生成装置2相同。

终端装置900例如是平板电脑终端、智能手机等便携式终端或台式计算机。终端装置900包含通信装置901、收音部902以及输入部903。

通信装置901例如是将终端装置900连接到规定的网络的通信电路。收音部902例如是麦克风,收音登录讲话人说出的语音并将其转换为语音信号。转换后的语音信号被从通信装置901发送到服务器800。

输入部903例如是触控面板、键盘、鼠标等,受理由登录讲话人输入的识别信息。输入的识别信息与语音信号相互对应地被从通信装置901发送到服务器800。根据该变形例,可以在云端系统中实现本发明的数据库生成方法。

本发明还可以采用以下的变形例。

(1)图3所示的讲话人识别装置1以及图8所示的数据库生成装置2可以安装到同一台计算机上。

(2)在图10中,第一数据库21以及第二数据库22也可以安装到经由与服务器600不同的网络连接到服务器600的装置中。

(3)在图3所示的讲话人识别装置1和图8所示的数据库生成装置2由不同的计算机构成的情况下,数据库生成装置2可以将所生成的第一数据库21经由网络发送到讲话人识别装置1。

(4)在上述的实施方式中,第一顺序既可以采用对于每个登录讲话人分别计算出的值,也可以采用对于全部登录讲话人都是相同的值。

产业上的可利用性

根据本发明,因为可以在不使计算量增大的前提下提高识别是否为本人的识别精度,对于防止冒名本人的技术领域具有其实用价值。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签: 商标数据库1
tips