生物测定过程的制作方法
本公开内容的实施方案涉及用于执行生物测定过程的方法、装置和系统,且尤其涉及用于执行包含基于用户的话音对用户进行认证的生物测定过程的方法、装置和系统。
背景技术:
生物测定技术作为用于认证试图访问受限区域或受限设备或者试图执行受限动作的那些用户的方法,正变得越来越普遍。已知多种不同的生物测定鉴别器,包括指纹识别、虹膜识别和面部识别。
语音生物测定系统基于用户的话音来认证用户。在使用语音生物测定系统进行认证之前,用户首先向该系统注册。在注册期间,语音生物测定系统获取作为用户语音的特性的生物测定数据,且将所述数据存储为语音模型或声纹(voiceprint)。认证可以基于在注册期间说出的特定单词或短语(与文本有关的),或者基于与在注册期间说出的话音不同的话音(与文本无关的)。认证包括从输入音频信号中提取一个或多个生物测定特征,且将这些特征与所存储的声纹进行比较。确定所获取的数据与所存储的声纹匹配或充分接近导致对用户的成功认证。对用户的成功认证可能导致用户被允许执行受限动作或被授权访问受限区域或受限设备(例如)。如果所获取的特征与所存储的声纹不匹配或未充分接近,则用户不被认证且认证尝试是不成功的。不成功的认证尝试可以防止用户被允许执行受限动作或者用户会被拒绝访问受限区域或受限设备。
语音生物测定系统的性能可能受到在注册和认证之间的时间段内发生的用户语音的变化的限制。例如,用户语音可能随着年龄、疾病或一天中获取生物测定数据的时间而变化。如果用户语音变化充分大,则即使他们已经被授权且应当已经被认证,认证系统也可能拒绝该用户,这个问题被称为“错误拒绝”。语音生物测定系统可以通过以多个间隔收集附加生物测定识别数据且使用这些数据更新所存储的声纹来将用户语音的变化纳入考虑。该过程被称为富集(enrichment)。
富集可以是受监督的或无监督的过程。受监督的富集涉及提示用户以多个间隔向系统重新注册。例如,可以要求用户重复特定单词或短语,且可以使用所得到的数据来更新所存储的声纹。在此过程之前,使用一种或多种认证技术来建立用户的身份(例如,可能要求用户输入密码或个人标识码)。尽管受监督的富集提供了一种用于更新所存储的声纹的可靠方法,但是它需要用户积极参与富集过程。
相比之下,无监督的富集使用来自用户的任何话音来更新所存储的声纹,而无需用户的显性知识。可以在例行使用期间收集生物测定数据,而无需提示用户提供附加输入。因此,无监督的富集允许更频繁地更新所存储的声纹,从而改善语音生物测定系统的性能。
为了有效地使用无监督的富集,重要的是仅使用用户的话音来更新所存储的用户声纹。如果使用例如来自另一说话人的话音错误地更新了声纹,则语音生物测定系统的有效性会受到损害,且用户会经受更频繁的错误拒绝。除了给用户带来不便之外,错误地更新所存储的声纹还可能带来重大的安全风险。因此,为了在语音生物测定系统中成功地实施无监督的富集,语音生物测定系统应当能够区分用户的话音和由系统检测到的其他音频(例如,来自其他说话人的话音)。
本公开内容的实施方案试图解决这个问题和其他问题。
技术实现要素:
本公开内容的一个方面提供了一种生物测定认证系统中的方法,所述生物测定认证系统用于基于音频信号与所存储的用于已授权用户的语音模型的比较来认证用户。所述方法包括:获得包括骨传导的信号的表示的第一音频信号,其中所述骨传导的信号经由所述用户的骨骼的至少一部分传导;以及,获得包括空气传导的信号的表示的第二音频信号;以及,响应于确定所述第一音频信号包括语音信号,启用基于所述第二音频信号对所存储的用于所述已授权用户的语音模型的更新。
另一方面提供了一种生物测定认证系统,用于基于音频信号与所存储的用于已认证用户的语音模型的比较来认证用户。所述生物测定认证系统包括:用于获得第一音频信号的第一输入,所述第一音频信号包括骨传导的信号的表示,其中所述骨传导的信号经由所述用户的骨骼的至少一部分传导;用于获得第二音频信号的第二输入,所述第二音频信号包括空气传导的信号的表示;以及,启用模块,所述启用模块能操作以确定所述第一音频信号是否包括语音信号,且响应于确定所述第一音频信号包括语音信号,启用基于所述第二音频信号对所存储的用于已授权用户的语音模型的更新。
另一方面提供了一种电子设备,用于基于音频信号与所存储的用于已认证用户的语音模型的比较来认证用户。所述电子设备包括处理电路和存储指令的非暂时性机器可读介质,当由所述处理电路执行所述指令时,所述指令导致所述电子设备:获得包括骨传导的信号的表示的第一音频信号,其中所述骨传导的信号经由所述用户的骨骼的至少一部分传导;获得包括空气传导的信号的表示的第二音频信号;以及,响应于确定所述第一音频信号包括语音信号,启用基于所述第二音频信号对所存储的用于已授权用户的语音模型的更新。
另一方面提供了一种非暂时性机器可读介质,用于基于音频信号与所存储的用于已认证用户的语音模型的比较来认证用户。所述介质存储指令,当由处理电路执行所述指令时,所述指令导致电子设备:获得包括骨传导的信号的表示的第一音频信号,其中所述骨传导的信号经由所述用户的骨骼的至少一部分传导;获得包括空气传导的信号的表示的第二音频信号;以及,响应于确定所述第一音频信号包括语音信号,启用基于所述第二音频信号对所存储的用于已授权用户的语音模型的更新。
附图说明
为了更好地理解本公开内容的实施例,且为了更清楚地示出如何实施实施例,现仅以实施例的方式参考以下附图,在附图中:
图1a至图1f示出了根据本公开内容的实施方案的个人音频设备;
图2是示出根据本公开内容的实施方案的布置的示意图;
图3示出了根据本公开内容的实施方案的系统;以及
图4是根据本公开内容的实施方案的方法的流程图。
具体实施方式
本公开内容的实施方案提供了用于富集或更新所存储的用于生物测定认证系统的已授权用户的语音模型(也被称为模板或声纹)的方法、装置和计算机程序。多个实施方案利用骨传导的语音信号(例如,已经至少部分地经由用户的骨骼的一部分(诸如,颌骨)传导的语音信号)来识别用户何时说话,且实现对所存储的语音模型的更新。例如,一种方法可以包括获得第一音频信号和第二音频信号,所述第一音频信号和第二音频信号分别包括骨传导的信号的表示和空气传导的信号的表示。响应于确定第一音频信号包括语音信号,可以实现基于第二音频信号对所存储的语音模型的更新。其他实施方案可以包括:响应于确定第二音频信号包括语音信号,或者响应于确定第一音频信号和第二音频信号包括彼此相关的相应语音信号,实现对所存储的语音模型的更新。
本公开内容的实施方案可以被实施在各种不同的电子设备和系统中。图1a至图1f示出了可以被用于实施本公开内容的多个方面的个人音频设备的实施例。如本文所使用的,术语“个人音频设备”是适合于或可配置为基本上向仅单个用户提供音频回放的任何电子设备。合适的个人音频设备的一些实施例被示出在图1a至图1f中。
图1a示出了用户的耳朵的示意图,用户的耳朵包括(外部)耳壳(pinna)或耳廓(auricle)12a以及(内部)耳道12b。个人音频设备20包括由使用者戴在耳朵上的包耳式(circum-aural)头戴式受话器。该头戴受话器包括壳体,该壳体基本上环绕且包围耳廓12a,以在用户的耳朵与外部环境之间提供物理屏障。可以在壳体的边缘处提供缓冲或衬垫,以增加用户的舒适度以及头戴式受话器与用户的皮肤之间的声学耦合(即,在外部环境与用户的耳朵之间提供更有效的屏障)。
头戴式受话器包括一个或多个扬声器22,所述一个或多个扬声器22被定位在头戴式受话器的内表面上,且被布置成生成朝向用户的耳朵且尤其是耳道12b的声学信号。头戴式受话器还包括一个或多个麦克风24,所述一个或多个麦克风24也被定位在头戴式受话器的内表面上,且被布置成检测在由头戴式受话器、耳廓12a和耳道12b所限定的内部体积内的声学信号。这些麦克风24可操作以检测骨传导的语音信号。
头戴式受话器可能能够执行主动噪声消除,以减少头戴式受话器的用户所感受的噪声量。主动噪声消除通过检测噪声(即,使用麦克风)且生成与噪声信号具有相同幅度但相反相位的信号(即,使用扬声器)来操作。因此,所生成的信号破坏性地干扰噪声,从而减轻了用户所感受的噪声。主动噪声消除可以基于反馈信号、前馈信号或这二者的组合来操作。前馈主动噪声消除利用头戴式受话器的外表面上的一个或多个麦克风,操作以在环境噪声到达用户的耳朵之前检测环境噪声。所检测到的噪声被快速地处理,且生成消除信号,以在传入的噪声到达用户的耳朵时与传入的噪声匹配。反馈主动噪声消除利用头戴式受话器的内表面上的一个或多个误差麦克风,操作以检测噪声和由一个或多个扬声器所生成的音频回放信号的组合。此组合与音频回放信号的知识一起被用于反馈环路中,以调整扬声器所生成的消除信号,从而降低噪声。因此,图1a中所示出的麦克风24可以形成主动噪声消除系统的一部分,例如,作为误差麦克风。
个人音频设备20可以包括语音麦克风,或与语音麦克风结合使用,该语音麦克风被设置成捕获用户语音的空气传导的表示。更多细节参见图1f。
图1b示出了一个替代的个人音频设备30,该个人音频设备30包括贴耳式(supra-aural)头戴式受话器。贴耳式头戴式受话器不环绕或包围用户的耳朵,而是位于耳廓12a上。头戴式受话器可以包括软垫或衬垫,以减轻环境噪声的影响。与图1a中所示出的包耳式头戴式受话器一样,贴耳式头戴式受话器包括一个或多个扬声器32和一个或多个麦克风34。扬声器32和麦克风34可以形成主动噪声消除系统的一部分,其中麦克风34用作误差麦克风。
图1c示出了另一替代的个人音频设备40,该个人音频设备40包括耳内式(intra-concha)头戴式受话器(或耳机)。在使用中,耳内式头戴式受话器位于用户的外耳腔的内侧。耳内式头戴式受话器可以松散地安装在该腔内,允许空气流入和流出用户的耳道12b。
与图1a和1b中示出的设备一样,耳内式头戴式受话器包括一个或多个扬声器42和一个或多个麦克风44,所述一个或多个扬声器42和所述一个或多个麦克风44可以形成主动噪声消除系统的一部分。
图1d示出了另一替代的个人音频设备50,该个人音频设备50包括入耳式(in-ear)头戴式受话器(或耳机)、插入式头戴式受话器或耳塞。此头戴式受话器被配置为部分地或全部地插入耳道12b内,且可以在耳道12b与外部环境之间提供相对紧密的密封(即,它可以在声学上封闭或密封)。该头戴式受话器可以包括一个或多个扬声器52和一个或多个麦克风54,与上述其他设备一样,这些部件可以形成主动噪声消除系统的一部分。
由于入耳式头戴式受话器可以在耳道12b周围提供相对紧密的声学密封,所以麦克风54所检测到的外部噪声(即,来自外部的环境的外部噪声)可能很低。
图1e示出了另一替代的个人音频设备60,该个人音频设备60是移动电话或蜂窝电话或听筒(handset)。听筒60包括一个或多个用于向用户回放音频的扬声器62,以及一个或多个类似地定位的麦克风64。
在使用中,靠近用户的耳朵握持听筒60,以提供音频回放(例如,在通话期间)。虽然在听筒60和用户的耳朵之间没有实现紧密的声学密封,但是通常将听筒60握持得足够靠近,以使得一个或多个麦克风64能够检测骨传导的语音信号。与其他设备一样,一个或多个扬声器62和一个或多个麦克风64可以形成主动噪声消除系统的一部分。
听筒60还包括被定位在或定位成靠近听筒的与一个或多个扬声器62和一个或多个麦克风64相对的端部处的语音麦克风66。因此,当在使用中靠近用户的脸握持时,语音麦克风66相对靠近用户的口部,且可以检测经由空气传导的用户的话音。
因此,上述所有个人音频设备在使用中向基本上单个用户提供音频回放。每一设备还可操作以通过相应麦克风24、34、44、54和64检测骨传导的语音信号。
图1f示出了将个人音频设备(在此情况下具有与个人音频设备50类似的构造)应用至用户。用户具有两个耳道104、108。第一入耳式头戴式受话器102(包括第一扬声器或其他音频换能器,以及第一麦克风或其他换能器)被插入第一耳道104中,而第二入耳式头戴式受话器106(包括第二扬声器或其他音频换能器,以及第二麦克风)被插入第二耳道108中。
还提供了语音麦克风110,该语音麦克风110被定位在耳朵的外部。在所例示的实施方案中,语音麦克风110经由有线连接被耦合至第一头戴式受话器102和第二头戴式受话器106。然而,语音麦克风110可以被定位在适合于检测如通过空气所传导的用户的语音的任何地方,例如被定位在头戴式受话器102、106中的一个或多个的外表面上。语音麦克风110可以经由无线连接被耦合至第一头戴式受话器102和第二头戴式受话器106。头戴式受话器102、106和语音麦克风110还被耦合至主机电子设备112。主机电子设备112可以是智能电话或其他蜂窝电话或移动电话、媒体播放器等。在一些实施方案中,可以在头戴式受话器102、106之一中执行处理,使得主机电子设备112是不必要的。还应注意,尽管图1f示出了两个头戴式受话器102、106,但是在一些实施方案中可以仅提供单个头戴式受话器,或者可以将来自两个头戴式受话器102、106中的仅单个头戴式受话器的信号用于下面所描述的处理。
当用户说话时,他或她的语音通过空气被传送至语音麦克风110,在那里他或她的语音被检测到。此外,语音信号通过用户的骨骼或颅骨的一部分(诸如,颌骨)被传送且被耦合至耳道。因此,头戴式受话器102、106中的麦克风检测到骨传导的语音信号。
本领域技术人员将理解,检测骨传导的信号的麦克风或其他换能器(诸如,加速度计)可以与设置为主动噪声消除系统的一部分(例如,用于检测误差信号)的麦克风或其他换能器相同。替代地,可以在上述个人音频设备中为这些个体目的(或目的组合)提供分立的麦克风或换能器。
图1a至图1f中示出且如上所述的所有设备可以被用于实施本公开内容的多个方面。
图2示出了根据本公开内容的多个实施方案的布置200。布置200包括个人音频设备202和生物测定系统204。个人音频设备202可以是适合于或配置成检测来自用户的骨传导的语音信号以及空气传导的语音信号的任何设备。从本质上讲,骨传导的语音信号基本上源自于单个用户(即,个人音频设备的用户)。取决于设备202周围的环境,空气传导的语音信号可能包括来自附近的说话人的附加语音信号。个人音频设备202包括第一麦克风和第二麦克风,第一麦克风和第二麦克风在使用中被分别定位成邻近用户的耳朵或在用户的耳朵内(从而检测骨传导的音频信号)以及邻近用户的口部(从而检测空气传导的音频信号)。个人音频设备可以是可穿戴的,且包括用于用户的每只耳朵的头戴式受话器。替代地,个人音频设备可操作为由用户携带,且在使用期间邻近用户的一个或多个耳朵握持。个人音频设备可以包括头戴式受话器或移动电话听筒,如上面关于图1a至图1f中的任何一个所描述的。
生物测定系统204被耦合至个人音频设备202,因此接收指示使用个人音频设备的个体的生物测定数据。在一些实施方案中,生物测定系统204可操作以控制个人音频设备202来获取生物测定数据。
例如,个人音频设备202可以获取骨传导的语音信号且将所述信号输出至生物测定系统204以用于处理。例如,个人音频设备202可以获取空气传导的语音信号且将所述信号输出至生物测定系统204以用于处理。例如,个人音频设备202可以获取语音生物测定数据且将所述信号输出至生物测定系统204以用于处理。
生物测定系统204可以将合适的控制信号发送至个人音频设备202,从而启动生物测定数据的获取,且从个人音频设备202接收生物测定数据。生物测定系统204可操作,以从生物测定数据中提取一个或多个特征,且利用那些特征作为生物测定过程的一部分。
合适的生物测定过程的一些实施例包括生物测定注册和生物测定认证。注册包括获取和存储生物测定数据,所述生物测定数据是个体的特性。在当前上下文中,这种所存储的数据可以被称为“声纹”。认证包括从个体获取生物测定数据,且将该数据与所存储的一个或多个已注册用户或已授权用户的数据进行比较。肯定的比较(即,所获取的数据与所存储的声纹或耳纹(earprint)匹配或充分接近)导致个体被认证。例如,该个体可能被允许执行受限动作,或者被授权访问受限区域或受限设备。否定的比较(即,所获取的数据与所存储的声纹或耳纹不匹配或未充分接近)导致个体不被认证。例如,该个体可能不被允许执行受限动作,或者不被授权访问受限区域或受限设备。
在一些实施方案中,生物测定系统204可以形成个人音频设备202本身的一部分。替代地,生物测定系统204可以形成电子主机设备(例如,音频播放器)的一部分,个人音频设备202通过有线方式或无线方式被耦合至该电子主机设备。在另外的实施方案中,生物测定系统204的操作可以被分布在个人音频设备202中的电路和电子主机设备之间。
图3示出了根据本公开内容的实施方案的系统300。
系统300包括处理电路324,该处理电路324可以包括一个或多个处理器,诸如中央处理单元或应用处理器(ap)或数字信号处理器(dsp)。系统300还包括存储器326,该存储器326可通信地被耦合至处理电路324。存储器326可以存储指令,在由处理电路324执行所述指令时,所述指令导致处理电路执行如下面所描述的一种或多种方法(例如,参见图4)。
一个或多个处理器可以基于存储在存储器324中的数据和程序指令来执行本文中所描述的方法。存储器324可以被设置为单个部件或多个部件或者与处理电路322中的至少一些共同集成。具体地,本文中所描述的方法可以通过执行以非暂时性形式存储在存储器324中的指令而在处理电路322中执行,其中程序指令在系统300或个人音频设备202的制造期间被存储或在使用系统或设备时通过上载来存储。
系统300包括第一麦克风302,该第一麦克风302可以属于个人音频设备(即,如上面所描述的)。第一麦克风302可以被配置为在使用中放置在用户的耳朵内或附近,且在下文中被称为“耳麦克风(earmicrophone)302”。如上所述,耳麦克风302可操作以检测来自用户的骨传导的语音信号。
处理电路324包括模数转换器(adc)304,该模数转换器304接收由耳麦克风所检测到的电音频信号且将其从模拟域转换至数字域。当然,在替代的实施方案中,耳麦克风302可以是数字麦克风且产生数字数据信号(因此不需要转换至数字域)。
系统300还包括第二麦克风310,该第二麦克风310可以属于个人音频设备202(即,如上面所描述的)。第二麦克风310可以被配置为在使用中放置在用户的耳朵的外部。第二麦克风310在下文中被称为“语音麦克风310”。如上面所描述的,语音麦克风310可操作以检测来自用户的空气传导的语音信号。处理电路324还包括关于由语音麦克风310所检测到的音频信号的adc312(除非如上面所讨论的,语音麦克风310是产生数字数据信号的数字麦克风)。
adc304的输出(即,骨传导的音频信号)被传递至启用模块306。adc310的输出(即,空气传导的音频信号)也可选地被传递至启用模块306。启用模块306的操作将在下面更详细地描述。
系统实施语音生物测定认证算法。因此,空气传导的音频信号也被用于执行语音生物测定认证。
由语音麦克风310所检测到的信号在时域中。然而,出于生物测定过程目的所提取的特征可能在频域中(因为特性是用户的语音的频率)。因此,处理电路324包括傅立叶变换模块308,该傅立叶变换模块308将所反射的信号转换至频域。例如,傅立叶变换模块308可以实施快速傅立叶变换(fft)。
然后,将经变换的信号传递至特征提取模块314,该特征提取模块314提取经变换的信号的一个或多个特征以用于生物测定过程(例如,生物测定注册、生物测定认证等)。例如,特征提取模块314可以提取一个或多个梅尔频率倒谱系数。替代地,特征提取模块可以确定用户的语音在一个或多个预定频率处或在一个或多个频率范围内的幅度或能量。所提取的特征可以对应于用于用户的语音的模型的数据。
所提取的特征被传递至生物测定模块316,该生物测定模块316对它们执行生物测定过程。例如,生物测定模块316可以执行生物测定注册,其中所提取的特征(或由所提取的特征导出的参数)被存储为生物测定数据中作为个体的特性的一部分。生物测定数据可以被存储在设置于系统内或远离系统设置的存储器模块318中(且可以由生物测定模块316安全地可访问)。这种所存储的数据可以被称为“声纹”。在另一实施例中,生物测定模块316可以执行生物测定认证,且将一个或多个所提取的特征与所存储的声纹(或多个所存储的声纹)中的对应特征进行比较。基于该比较,生成生物测定得分,该生物测定得分指示空气传导的语音信号中所包含的语音对应于已授权用户的语音的可能性。可以将该得分与一个阈值进行比较,以确定空气传导的语音信号中所包含的语音是否被认证为已授权用户的语音。例如,在一种实施方式中,当生物测定得分超过该阈值时,语音被认证;当生物测定得分低于该阈值时,语音不被认证。
如上面所描述的,本公开内容的实施方案涉及对所存储的用于已授权用户的声纹的富集或更新,且尤其涉及使用骨传导的音频信号来确定何时空气传导的音频信号包括系统的用户的语音。换句话说,由于耳麦克风302在使用中的位置,骨传导的音频信号可能地仅包含系统300的用户的语音。如果在骨传导的音频信号中存在其他语音(例如,由于其他附近的说话人),则与那些语音相关联的信号可能具有比与用户的语音相关联的信号低得多的幅度。因此,对骨传导的音频信号中存在语音的肯定确定可以被用于启用对已授权用户的声纹的更新或富集。
因此,在一个实施方案中,启用模块306操作以从adc304接收骨传导的音频信号,且为生物测定模块316生成输出控制信号,从而启用生物测定模块316基于空气传导的音频信号来更新所存储的语音模型。
在一个实施方案中,启用模块306可以仅接收骨传导的音频信号,且包括语音活动检测模块,或者以其他方式操作以执行语音活动检测功能,从而检测骨传导的音频信号中作为话音的特性的音频的存在。注意,这种语音活动检测不对应于说话人检测(即,特定说话人的识别),而是通常对应于话音的检测。
在本领域中已知多种语音活动检测方法,且本公开内容不限于该方面。例如,语音活动检测可能相对复杂,其中骨传导的信号的一个或多个参数(例如,频谱斜率、相关系数、对数似然比、倒谱、经加权的倒谱和/或经修正的距离度量)被确定且与作为话音的特性的相应参数进行比较。在一个更简单的实施方案中,可以假设当用户说话时,个人音频设备202的用户的语音在骨传导的信号中占主导地位(即,用户的语音将相对于其他噪声源处于支配地位)。在这种情况下,语音活动检测可以包括骨传导的音频信号的幅度与一个阈值的简单比较;当幅度高于该阈值时,可以假设骨传导的音频信号包含用户的声音。
在一个实施方案中,响应于确定骨传导的音频信号包含语音信号,启用模块306将控制信号输出至生物测定模块316,启用生物测定模块316基于空气传导的音频信号来更新所存储的用于已授权用户的声纹。
启用模块306可以进一步从adc310接收空气传导的音频信号,且以基于骨传导的音频信号以及空气传导的音频信号这二者确定是否对所存储的语音模型启用更新。
例如,启用模块306可以对空气传导的音频信号执行语音活动检测功能,从而检测空气传导的音频信号中作为话音的特性的音频的存在。当空气传导的音频信号以及骨传导的音频信号这二者都包含语音时,启用模块306可以生成输出控制信号至生物测定模块316,如上面所描述的。在此实施方案中,应理解,当空气传导的音频信号以及骨传导的音频信号在时间上重叠的(或是同时存在的)部分都包含语音时,可以生成控制信号。以这种方式,可以假设骨传导的音频信号中的语音以及空气传导的音频信号中的语音这二者源自于同一个人(即,用户)。
附加地或替代地,启用模块306可以使骨传导的音频信号与空气传导的音频信号互相关。在确定骨传导的音频信号包括语音之后,启用模块306可以使骨传导的音频信号(尤其是骨传导的音频信号中包括语音的那部分)与空气传导的音频信号(尤其是空气传导的音频信号中与骨传导的音频信号中包括语音的部分同时存在的那部分)互相关,以确定两个信号之间的相关水平。可以使用任何合适的相关算法。响应于确定两个信号相关(例如,相关超过一个阈值),启用模块306可以将控制信号输出至生物测定模块316,启用对所存储的语音模型的更新。
启用对所存储的语音模型的更新的判定可以进一步基于个人音频设备202的用户作为已授权用户的认证。因此,在所例示的实施方案中,系统300还包括耦合至启用模块306的认证模块320。
在一个实施方案中,认证模块320包括生物测定模块316或与生物测定模块316相同。因此,系统300可以被用于基于空气传导的音频信号来认证用户。生物测定模块316对空气传导的音频信号执行生物测定认证算法,且将从空气传导的音频信号中所提取的一个或多个特征与所存储的用于已授权用户的声纹进行比较。基于该比较,生成指示关于系统300的用户是否是已授权用户的判定的输出。此输出通常可以被系统300或个人音频设备用于允许一个或多个受限动作。在所例示的实施方案中,输出被附加地或替代地传递至启用模块306,作为响应,该启用模块306可以启用对所存储的声纹的更新。
附加地或替代地,认证模块320可以包括一个或多个替代的认证机制。例如,认证模块320可以基于一种或多种替代的生物测定(诸如,耳朵生物测定、指纹、虹膜或视网膜扫描)来实施认证。例如,认证模块320可以实施用于基于由用户录入且与已授权用户相关联的通行码、密码或个人标识码来接受和授权用户的输入-输出机制。输入-输出机制可以基于通行码、密码或个人标识码向用户提出问题,对该问题的答案并不揭示整个通行码、密码或个人标识码。例如,问题可能与通行码、密码或个人标识码的特定字符或数字有关(例如,“密码的第三个字符是什么?”)。问题可能需要对个人标识码或个人标识码的一部分执行数学运算(例如,“个人标识码的第一位数字加三是多少?”)。输入-输出机制可以以可听方式(例如,通过在扬声器上回放)输出问题,使得仅用户可以听到该问题。此外,输入-输出机制可以以可听方式(例如,通过麦克风310)或经由某一其他输入机制(诸如,触摸屏、小键盘、键盘或类似物)提供答案的输入。
根据本公开内容的实施方案,系统300可操作,以在用户被成功认证为已授权用户之后,更新所存储的用于已授权用户的声纹。
因此,用户向生物测定模块316注册(即,通过获取语音模型数据)且声纹318被存储用于该用户。用户随后可以经由系统300寻求认证,因此为此目的获取更多的语音生物测定数据,如上面所描述的。如果认证成功,则生物测定模块316可以将肯定的认证消息返回至启用模块306,从而基于所获取的语音数据启用对所存储的用于用户的声纹318的更新。
如果认证不成功,则生物测定模块316可以返回否定的认证消息。然而,系统300包括一个或多个进一步的认证机制320。如果用户随后经由这些机制中的一种或多种机制被成功地认证,则启用模块306可以向生物测定模块316发出控制信号,以使用作为不成功的语音生物测定认证尝试的一部分所获取的数据来更新所存储的用于用户的语音模型318。
附加地或替代地,对所存储的用于用户语音模型318的更新可以基于仅为此目的(即,而不是作为成功或失败的认证尝试的一部分)所获取的语音模型数据。一旦被成功认证,系统300就可以利用麦克风310获取更多的语音模型数据,无论是否具有用户的知识。这种数据的获取可以是周期性的、连续的、按照限定的时间表或根据检测到一个或多个限定的事件。
可以由生物测定模块316基于空气传导的音频信号内与骨传导的音频信号中包括语音信号的数据在时间上重叠或同时发生的数据来更新所存储的语音模型318。例如,在一些实施方案中,在骨传导的音频信号中所检测到的话音可以被用于选通空气传导的音频信号中待被用于更新所存储的语音模型的部分。为此目的,可以对每一音频信号中的数据应用时间戳。因此,骨传导的音频信号中被检测到包括话音的数据帧的时间戳可以用于标识空气传导的音频信号中待被用于更新所存储的语音模型的数据帧。
图4是根据本公开内容的实施方案的方法的流程图。
在步骤400中,生物测定系统获得骨传导的音频信号,例如使用麦克风24、34、44、54、64或302中的任何一个。在步骤402中,生物测定系统获得空气传导的音频信号,例如使用麦克风66、110或310中的任何一个。尽管被描述为分立的步骤,但是本领域技术人员应理解,这些步骤是同时发生的,其中骨传导的音频信号和空气传导的音频信号同时与音频环境有关。
在步骤404中,生物测定系统确定骨传导的音频信号是否包括任何语音活动。在本领域中已知多种语音活动检测方法,且本公开内容不限于该方面。例如,语音活动检测可能相对复杂,其中骨传导的信号的一个或多个参数(例如,频谱斜率、相关系数、对数似然比、倒谱、经加权的倒谱和/或经修正的距离度量)被确定且与作为话音的特性的相应参数进行比较。在一个更简单的实施方案中,可以假设当用户说话时,个人音频设备202的用户的语音在骨传导的信号中占主导地位(即,用户的语音将相对于其他噪声源处于支配地位)。在这种情况下,语音活动检测可以包括骨传导的音频信号的幅度与一个阈值的简单比较;当幅度高于该阈值时,可以假设骨传导的音频信号包含用户的语音。
如果在骨传导的音频信号中不存在语音活动,则可以假设没有人在说话,且该方法在步骤406中结束。如果存在语音活动,则该方法行进至步骤408,在步骤408中生物测定系统确定空气传导的音频信号是否包括任何语音活动。同样地,可以使用任何合适的语音活动检测方法。
如果在空气传导的音频信号中不存在语音活动,则可以假设语音麦克风未正常工作,或者处于无法检测到语音的噪声环境中,且该方法在步骤406中结束。如果在空气传导的音频信号中存在语音活动,则该方法行进至步骤410,在步骤410中生物测定系统确定空气传导的音频信号以及骨传导的音频信号是否彼此相关。
例如,可以将指示两个信号之间的相关水平的相关值与一个阈值进行比较:如果相关值超过该阈值,则可以确定信号相关;如果相关值小于该阈值,则可以确定信号不相关。可以使用任何合适的互相关方法,且本公开内容不限于该方面。
如果两个音频信号不相关,则可以假设语音麦克风已检测到显著的噪声水平(例如,存在其他说话人)。在这种情况下,可能不合适的是,基于空气传导的语音信号来更新所存储的语音模板,因此该方法行进至步骤406且结束。如果音频信号确实相关,则该方法行进至步骤412,在步骤412中生物测定系统确定用户是否被认证为已授权用户。
可以经由任何合适的机制将用户认证为已授权用户。例如,可以基于对在步骤402中所获得的空气传导的音频信号执行的语音生物测定算法来认证用户。替代地,认证可以基于一个或多个替代的生物测定(诸如,耳朵生物测定、指纹、虹膜或视网膜扫描)或者非生物测定认证(诸如,通行码、密码或个人标识码的输入)。
如果用户未被认证为已授权用户,则该方法在步骤406中结束,因为不应当基于一个不同人的语音来更新所存储的用于已授权用户的语音模板。如果该用户被认证为已授权用户,则方法行进至步骤414,在步骤414中,基于在步骤402中所获得的空气传导的音频信号来更新该用户的语音模型。
可以基于空气传导的音频信号中与骨传导的音频信号中包括话音的部分相对应的那些部分来更新语音模型。例如,骨传导的音频信号中包含语音的那些部分可以被用于选通空气传导的音频信号,从而将用户的话音与空气传导的音频信号中所存在的其他噪声源或话音源隔离开。
例如,所存储的语音模型的参数可以更新如下:
μnew=αμstored+(1-α)μcalc
其中α是在0和1之间的系数,μnew是新的(即,经更新的)所存储的语音模型参数,μstored是旧的(即,先前的)所存储的语音模型参数,而μcalc是新获取的语音模型数据参数。因此,新语音模型基于先前语音模型和新获取的语音模型数据的组合。当然,可以使用替代的表达式来实现几乎相同的效果。可以根据需要来设置系数α的值,以实现所存储的语音模型的期望变化率。例如,可能期望的是,语音模型相对缓慢地变化,从而使系统难以破解。因此,可以将α设置为接近1的值(例如,0.95或更高)。
因此,本公开内容的实施方案提供了用于认证用户的方法、装置和系统。
实施方案可以被实施在电子、便携式和/或电池供电的主机设备(诸如,智能电话、音频播放器、移动电话或蜂窝电话、听筒)中。实施方案可以被实施在设置于这样的主机设备内的一个或多个集成电路上。替代地,实施方案可以被实施在可配置为向单个人提供音频回放的个人音频设备(诸如,智能手机、移动电话或蜂窝电话、头戴式受话器、耳机等)中。参见图1a至图1f。再次,实施方案可以被实施在设置于这样的个人音频设备内的一个或多个集成电路上。在另外的替代方案中,实施方案可以被实施在主机设备和个人音频设备的组合中。例如,实施方案可以被实施在设置于个人音频设备内的一个或多个集成电路以及设置于主机设备内的一个或多个集成电路中。
应理解,尤其是受益于此公开内容的本领域的普通技术人员应理解,本文中特别是结合附图所描述的多种操作可以由其他电路或其他硬件部件来实施。可以改变执行给定方法的每一操作的次序,且在本文中所例示的系统的多个元素可以被添加、重新排序、组合、省略、修改等。意图是,本公开内容涵盖所有这样的修改和改变,且因此上面的描述应当被认为是例示意义而非限制意义。
类似地,尽管此公开内容参考特定的实施方案,但是在不偏离此公开内容的范围和覆盖范围的情况下,可以对那些实施方案进行某些修改和改变。此外,本文中针对特定实施方案所描述的任何益处、优点或对问题的解决方案均不旨在被解释为关键、必需或必要的特征或元素。
同样地,受益于此公开内容,其他实施方案和实施方式对于本领域普通技术人员而言将是显而易见的,且这样的实施方案应被视为涵盖在本文中。此外,本领域普通技术人员将认识到,可以代替所讨论的实施方案或与所讨论的实施方案相结合来应用多种等效技术,且所有这些等效技术应被视为被本公开内容所涵盖。
本领域技术人员将认识到,上文所描述的装置和方法的一些方面(例如,发现方法和配置方法)可以具体化为例如位于非易失性载体介质(诸如,磁盘、cd-rom或dvd-rom、程序化存储器诸如只读存储器(固件))上或位于数据载体(诸如,光学信号载体或电信号载体)上的处理器控制代码。对于许多应用,本发明的实施方案将被实施在dsp(数字信号处理器)、asic(专用集成电路)或fpga(现场可编程门阵列)上。因此,代码可以包括常规程序代码或微代码或例如用于设立或控制asic或fpga的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如,可重新编程逻辑门阵列)的代码。类似地,代码可以包括用于硬件描述语言(诸如,verilogtm或vhdl(超高速集成电路硬件描述语言))的代码。如本领域技术人员将理解,代码可以被分布在彼此通信的多个经耦合的部件之间。在适当的情况下,还可以使用在现场可(重新)编程模拟阵列或类似的设备上运行以配置模拟硬件的代码来实施所述实施方案。
注意,如本文中所使用的,术语模块应被用于指代可以至少部分地由专用硬件部件(诸如,自定义电路)实施的功能单元或功能块,和/或至少部分地由一个或多个软件处理器或在合适的通用处理器等上运行的适当的代码实施的功能单元或功能块。模块本身可以包括其他模块或功能单元。模块可以由不需要被协同定位且可以被设置在不同的集成电路上和/或在不同的处理器上运行的多个部件或子模块来提供。
应注意,上文所提及的实施方案例示而非限制本发明,且在不偏离随附权利要求或实施方案的范围的情况下,本领域技术人员将能够设计许多替代实施方案。词语“包括”不排除除了在权利要求或实施方案中所列出的那些元件或步骤之外的元件或步骤的存在,“一”或“一个”不排除多个,且单个特征或其他单元可以实现权利要求或实施方案中所记载的若干单元的功能。权利要求或实施方案中的任何参考数字或参考标注不应被解释为对所述权利要求或实施方案的范围的限制。
尽管已经详细描述了本公开内容和某些代表性优点,但是应理解,在不偏离由所附权利要求或实施方案所限定的本公开内容的实质和范围的情况下,可以在本文中做出多种改变、替换和变更。此外,本公开内容的范围不旨在限于与本文中利用对应实施方案执行基本相同功能或者实现基本相同的结果的当前存在或以后将要开发的过程、机器、制造、物质组成、手段、方法或步骤的特定实施方案。因此,所附权利要求或实施方案旨在将这样的过程、机器、制造、物质组成、手段、方法或步骤包括在它们的范围内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除