注册方法和设备、说话者识别方法和设备与流程
本申请要求于2019年3月8日在韩国知识产权局提交的第10-2019-0026714号韩国专利申请和于2019年5月2日在韩国知识产权局提交的第10-2019-0051557号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
下面的描述涉及具有说话者识别的方法和设备。
背景技术:
说话者识别用于基于说话者的声音或语音来验证或辨识说话者,并且可应用于各种情况和应用领域(例如,集会、会议以及对话或会话中的辨识)。说话者识别系统可应用于车辆、建筑物以及银行账户,以用于出于安全目的的访问控制。
技术实现要素:
提供本发明内容以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。
在一个总体方面,一种具有注册的方法包括:接收说话者的语音信号;对接收的语音信号与噪声信号进行合成以生成合成信号;基于合成信号来生成特征向量;和基于生成的特征向量来构造与说话者对应的注册数据库(db)。
所述方法还可包括:基于接收的语音信号来生成第二特征向量,其中,构造注册db的步骤包括:基于特征向量和第二特征向量中的任何一个或两者来构造注册db。
构造注册db的步骤可包括:将包括特征向量和第二特征向量中的任何一个或两者的多个特征向量聚类成多个组;和提取与所述多个组中的至少一组对应的至少一个代表性特征向量。
第二特征向量可基于没有合成的接收的语音信号。
生成特征向量的步骤可包括:对合成信号执行域变换;和从域变换的结果提取特征向量。
合成信号可包括时域声音信息,并且域变换的结果可包括频域图像信息。生成特征向量的步骤可包括:使用卷积神经网络(cnn)从频域图像信息提取特征向量。
合成的步骤可包括:将噪声信号添加到接收的语音信号。噪声信号可包括加性噪声信号。
加性噪声信号可基于噪声的类型、噪声的时序以及指示噪声与语音信号的能量比的信噪比(snr)中的任何一个或任何两个或更多个的任何组合被确定。
合成的步骤可包括:对接收的语音信号和噪声信号执行卷积运算。噪声信号可包括信道噪声信号。
信道噪声信号可基于噪声的类型和指示噪声与语音信号的能量比的snr中的至少一个被确定。
生成特征向量的步骤可包括:将合成信号分割成多个部分;和提取与所述多个部分中的至少一个部分对应的至少一个部分特征向量。
所述方法还可包括:提取包括在语音信号和合成信号中的任何一个或两者中的声音信息的起始点和结束点,其中,起始点和结束点被应用于合成的步骤和生成的步骤中的任何一个或两者。
接收语音信号的步骤可包括:通过多个通道接收说话者的语音信号。可针对所述多个通道中的每个通道独立地执行合成的步骤和生成的步骤。构造注册db的步骤可包括:基于通过所述多个通道生成的特征向量来构造注册db。
所述方法还可包括:在接收语音信号之后,基于接收的语音信号之间的差来估计噪声;和从接收的语音信号中的每个语音信号减去所述噪声。
接收语音信号的步骤可包括:通过多个通道接收说话者的语音信号。所述方法还可包括:通过预处理接收的语音信号来确定用于合成的语音信号。
确定语音信号的步骤可包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号中,从接收的语音信号中选择一个语音信号。
确定语音信号的步骤可包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号的每个部分中,针对接收的语音信号的多个部分之中的每个部分从接收的语音信号中选择一个语音信号。
所述方法还可包括:通过将输入语音信号与生成的特征向量进行比较来识别说话者。
在另一总体方面,一种非暂时性计算机可读存储介质存储指令,所述指令在被处理器执行时,使得所述处理器执行上述方法。
在另一总体方面,一种说话者识别方法包括:接收说话者的语音信号;基于接收的语音信号来生成至少一个输入特征向量;将所述至少一个输入特征向量与存储在注册数据库(db)中的注册用户的至少一个注册特征向量进行比较;和基于比较的结果来识别说话者,其中,基于用于注册注册用户的语音信号与噪声信号的合成信号来生成所述至少一个注册特征向量。
注册用户可包括多个注册用户。识别说话者的步骤可包括:从所述多个注册用户之中辨识说话者。
生成所述至少一个输入特征向量的步骤可包括:对接收的语音信号执行域变换;和从域变换的结果提取输入特征向量。
执行域变换的步骤可包括:对接收的语音信号执行快速傅里叶变换(fft);和基于fft的结果对fft的结果执行填充。
生成所述至少一个输入特征向量的步骤可包括:对接收的语音信号执行滑动窗口操作,使得输入特征向量的窗口大小等于注册特征向量的窗口大小。
所述至少一个输入特征向量的数量可基于应用所需的安全级别或响应时间被确定。
噪声信号可包括加性噪声信号和信道噪声信号中的任何一个或两者。
接收语音信号的步骤可包括:通过多个通道接收说话者的语音信号。可针对所述多个通道中的每个通道独立地执行生成的步骤和比较的步骤。注册特征向量可包括通过所述多个通道生成的注册特征向量。
所述说话者识别方法还可包括:在接收语音信号之后,基于接收的语音信号之间的差来估计噪声;和从接收的语音信号中的每个语音信号减去所述噪声。
接收语音信号的步骤可包括:通过多个通道接收说话者的语音信号。所述说话者识别方法还可包括:通过预处理接收的语音信号来确定用于合成的语音信号。
确定语音信号的步骤可包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号中,从接收的语音信号中选择一个语音信号。
确定语音信号的步骤可包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号的每个部分中,针对接收的语音信号的多个部分之中的每个部分从接收的语音信号中选择一个语音信号。
所述方法还可包括:在接收语音信号之前,基于合成信号生成所述至少一个注册特征向量,并且将所述至少一个注册特征向量存储在注册db中。
在另一总体方面,一种非暂时性计算机可读存储介质存储指令,所述指令在被处理器执行时,使得所述处理器执行上述说话者识别方法。
在另一总体方面,一种具有注册的设备包括:声学传感器,被配置为接收说话者的语音信号;和处理器,被配置为对接收的语音信号与噪声信号进行合成以生成合成信号,基于合成信号来生成特征向量,并且基于生成的特征向量来构造与说话者对应的注册数据库(db)。
处理器还可被配置为:基于接收的语音信号来生成第二特征向量,和基于特征向量和第二特征向量中的任何一个或两者来构造注册db。
处理器还可被配置为:将包括特征向量和第二特征向量中的任何一个或两者的多个特征向量聚类成多个组,并且提取与所述多个组中的至少一组对应的至少一个代表性特征向量。
第二特征向量可基于没有合成的接收的语音信号。
处理器还可被配置为:对合成信号执行域变换,并从域变换的结果提取特征向量。
处理器还可被配置为:将噪声信号添加到接收的语音信号。噪声信号可包括加性噪声信号。
处理器还可被配置为:对接收的语音信号和噪声信号执行卷积运算。噪声信号可包括信道噪声信号。
处理器还可被配置为:将合成信号分割成多个部分,并提取与所述多个部分中的至少一个部分对应的至少一个部分特征向量。
处理器还可被配置为:通过将输入语音信号与生成的特征向量进行比较来识别说话者。
在另一总体方面,一种具有说话者识别的设备包括:声学传感器,被配置为接收说话者的语音信号;和处理器,被配置为基于接收的语音信号来生成至少一个输入特征向量,将所述至少一个输入特征向量与存储在注册数据库(db)中的注册用户的至少一个注册特征向量进行比较,并且基于比较的结果来识别说话者,其中,基于用于注册注册用户的语音信号与噪声信号的合成信号来生成所述至少一个注册特征向量。
处理器还可被配置为:对接收的语音信号执行域变换,并从域变换的结果提取输入特征向量。
处理器还可被配置为:对接收的语音信号执行滑动窗口操作,使得输入特征向量的窗口大小等于注册特征向量的窗口大小。
处理器还可被配置为:对接收的语音信号执行快速傅里叶变换(fft);和基于fft的结果对fft的结果执行填充。
处理器还可被配置为:在接收语音信号之前,基于合成信号生成所述至少一个注册特征向量,并且将所述至少一个注册特征向量存储在注册db中。
从下面的具体实施方式、附图以及权利要求,其它特征和方面将是清楚的。
附图说明
图1示出说话者识别方法的示例。
图2示出用于说话者识别的注册系统的示例。
图3示出用于说话者识别的注册方法的示例的流程图。
图4示出通过对语音信号与加性噪声(additivenoise)进行合成来生成特征向量的方法的示例。
图5示出通过对语音信号与信道噪声(channelnoise)进行合成来生成特征向量的方法的示例。
图6示出通过分割来生成特征向量的方法的示例。
图7示出构造注册数据库(db)的方法的示例。
图8示出说话者验证方法的示例。
图9示出说话者识别方法的示例的流程图。
图10示出说话者辨识方法的示例。
图11示出用于说话者识别的注册设备的示例。
图12示出使用多个通道的说话者验证方法的示例。
图13示出通过通道选择的说话者验证方法的示例。
图14示出针对由于注册设备的位置和方向导致的话语改变鲁棒的方法的示例。
贯穿附图和具体实施方式,相同的附图参考标号表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和方便,附图中的元件的相对尺寸、比例和描绘可被夸大。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公开之后将是清楚的那样被改变。
在此描述的特征可以以不同的形式来实现,而不应被解释为限于在此描述的示例。相反,在此描述的示例已被提供,以仅示出在理解本申请的公开之后将是清楚的实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式。
在此,应注意,关于示例或实施例的术语“可”的使用(例如,关于示例或实施例可包括或实现什么)表示:存在包括或实现这样的特征的至少一个示例或实施例,而所有示例和实施例不限于此。
贯穿说明书,当组件被描述为“连接到”或“结合到”另一组件时,该组件可直接“连接到”或“结合到”该另一组件,或者可存在介于其间的一个或多个其它组件。相反,当元件被描述为“直接连接到”或“直接结合到”另一元件时,可不存在介于其间的其它元件。同样地,相似的表述(例如,“在……之间”与“紧接在……之间”以及“与……邻近”与“与……紧邻”)也应以相同的方式解释。
如在此使用的,术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。
尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
在此使用的术语仅用于描述各种示例,并不将用于限制公开。除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其它特征、数量、操作、构件、元件和/或它们的组合。
说话者识别方法和设备可应用于车辆、建筑物以及银行账户,以用于出于安全目的的访问控制。根据下面的描述,用于从说话者的声音验证或认证说话者的系统和方法可对噪声鲁棒,并且可利用有限的说话者的声音信息。
图1示出说话者识别方法的示例。参照图1,说话者识别方法包括注册处理和测试处理。说话者识别方法可由说话者识别设备来执行,说话者识别设备可通过一个或多个硬件模块或者硬件模块和软件模块的组合来实现。
为了执行说话者识别方法,在注册处理中,说话者识别设备可从说话者的输入声音或语音生成特征向量,并且将生成的特征向量存储在注册数据库(db)中。在测试处理中,说话者识别设备可将从输入语音生成的特征向量与存储在注册db中的特征向量进行比较,并且确定是否识别出说话者。在下文中,为了便于描述,将描述由相同的说话者识别设备执行注册处理和测试处理的示例。然而,示例也可应用于由不同的设备执行注册处理和测试处理的示例。
参照图1,语音信号110可以是与作为用于验证的目标的预设句子对应的说话者的语音信号。例如,语音信号110是与将被识别的句子(例如,如图所示的“hi,bixby”)对应的说话者的语音信号。
在注册处理中,说话者识别设备接收与作为由说话者发出的语音的“hi,bixby”对应的语音信号110,生成特征向量,并且将生成的特征向量存储在注册db中。在测试处理中,当与语音“hi,bixby”对应的语音信号110被接收时,说话者识别设备生成与语音信号110对应的特征向量,将生成的特征向量与存储在注册db中的特征向量进行比较,并且确定是否识别出说话者。
注册处理可在具有相对较小的噪声的安静环境中被执行,而测试处理可在具有相对大的噪声的环境中被执行。因此,在注册处理中,可基于具有较小噪声的环境中的语音信号(例如,语音信号120)来生成特征向量。然而,在测试处理中,噪声可基于周围环境被添加到说话者的语音信号,并且特征向量可基于添加了噪声的语音信号(例如,语音信号130和语音信号140)来生成。噪声可包括加性噪声、信道噪声或它们的组合。添加了噪声的语音信号可包括例如添加了加性噪声的语音信号130和添加了信道噪声的语音信号140。在这样的示例中,在注册处理中生成的特征向量与在测试处理中生成的特征向量之间的不匹配可能发生,并且因此识别的性能水平可能降低。另外,在注册处理中与将被识别的句子对应的说话者的语音信号的话语的数量相对小的情况下,可能容易发生特征向量中的错误,并且因此识别可能不容易被执行。
为了帮助防止由于执行注册处理的环境(在下文中,“注册环境”)与执行测试处理的环境(在下文中,“测试环境”)之间的不匹配而可能发生的这种性能的下降,可基于通过在注册处理中对说话者的语音信号与预设噪声信号进行合成而获得的合成信号来注册特征向量。因此,当在不同于注册环境并且暴露于各种类型的噪声的实际环境中执行验证时,可提高验证的性能水平。
说话者识别可被分类为说话者验证和说话者辨识。说话者验证是验证说话者是否是注册的用户,并且说话者辨识是从注册的用户之中辨识说话者。
说话者识别可被实现在广泛的领域中的各种实施例中,例如,实现个人电子文档的管理的实施例、以及实现通过示例实施例电话或因特网执行的银行和电子商务的实施例。对于说话者识别,因为与物理机制(诸如卡、印章、签名以及身份(id)卡)相比存在盗窃或仿造的低风险,所以使用声音或语音的方法通常被使用。另外,可通过声学传感器(诸如,麦克风)从远距离容易地执行使用声音或语音的说话者识别,与使用其它生物计量手段(诸如,指纹和视网膜)的其它方法(这需要相对高价的装置或设备)相比,声学传感器相对低价。
在下文中,将参照图2至图7描述针对噪声鲁棒的用于说话者识别的注册方法。将参照图8和图9描述说话者验证方法,并且将参照图10描述说话者识别方法。另外,将参照图11描述具有说话者识别的注册设备。
图2示出用于说话者识别的注册系统的示例。参照图2,用于说话者识别的注册设备接收说话者的语音信号210。在此描述的注册设备表示被配置为构造用于说话者识别的与说话者对应的注册db的设备,并且可通过例如硬件模块或包括硬件和软件两者的模块(例如,被配置为执行指令的处理器)来实现。注册设备可被设置在或用在各种计算装置和/或系统(例如,智能电话、平板计算机、膝上型计算机、台式计算机、电视(tv)、可穿戴装置、安全系统、智能家居系统等)中。
语音信号210可以是在通过注册设备的声学传感器接收之后未被处理的信号,或者是在通过声学传感器接收之后被去除与噪声对应的分量的信号。即使对于未被处理的信号,注册处理通常可在具有较小噪声的安静环境中被执行,因此未被处理的信号也不会与被去除噪声的信号显著不同。
如图2中所示,为了帮助防止由于注册环境与测试环境之间的不匹配而可能发生的性能下降,注册设备可对语音信号210与加性噪声信号220、信道噪声信号230或加性噪声信号220和信道噪声信号230的组合进行合成。加性噪声可从与语音信号的源不同的源被生成,并且可与语音信号不具有相关性。加性噪声可通过加法被添加到语音信号。加性噪声可包括例如关门声、喇叭声以及环境噪声。另外,信道噪声可以是在转换或变换处理中检测的类型的噪声。信道噪声可包括例如房间脉冲响应(roomimpulseresponse)。然而,前述描述中描述的噪声的类型仅被提供为加性噪声和信道噪声的示例,因此加性噪声和信道噪声可包括其它各种类型的噪声。在下文中,将分别参照图4和图5更详细地描述对语音信号210与加性噪声信号220以及信道噪声信号230进行合成的方法。
再次参照图2,在一个示例中,注册设备在阶段240中对准语音信号。通过对准语音信号,注册设备可确定将被处理的目标部分,并且提取包括在语音信号中的声音信息的起始点和结束点,以提高注册和识别的效率。例如,注册设备可测量语音信号的强度以提取包括在语音信号中的声音信息的起始点和结束点,并且将提取的起始点与提取的结束点之间的部分设置为将被处理的目标部分。在这个示例中,将被对准的语音信号可以是在其中加性噪声信号220、信道噪声信号230或它们的组合被合成的合成信号。
在另一示例中,注册设备可通过首先对准语音信号210来提取声音信息的起始点和结束点,然后对语音信号210与加性噪声信号220、信道噪声信号230或加性噪声信号220和信道噪声信号230的组合进行合成。可选地,语音信号210可首先在另一装置(例如,数字信号处理器)中被对准,然后被输入到注册设备。随后,加性噪声信号220、信道噪声信号230或它们的组合可与语音信号210一起被合成。
在一个示例中,在阶段250中,注册设备将语音信号与噪声信号的合成信号分割成多个部分。在下文中,将参照图6更详细地描述分割合成信号的方法。
参照图2,注册设备的特征向量生成器260基于语音信号与噪声信号的合成信号来生成特征向量。特征向量生成器260识别合成信号,并且输出与识别的合成信号对应的特征向量。特征向量可包括区分每个识别元素的信息,例如,具有语音信号中的识别所需的压缩分量的基于时间的频率信息。
因此,通过基于通过在注册处理中对说话者的语音信号与各种类型的噪声进行合成而获得的合成信号来生成并注册特征向量,可防止由于注册环境与测试环境之间的不匹配而可能发生的性能下降。
图3示出用于说话者识别的注册方法的示例的流程图。参照图3,在操作310中,用于说话者识别的注册设备接收说话者的语音信号。注册设备可接收预设数量的语音信号。例如,注册设备n次重复接收与将被识别的句子(例如,“hi,bixby”)对应的说话者的语音信号。
在操作320中,注册设备对接收的语音信号与噪声信号进行合成。噪声信号可以是预设为与测试处理中可能发生的噪声相似的信号,并且包括例如加性噪声信号、信道噪声信号或它们的组合。
在操作330中,注册设备基于语音信号与噪声信号的合成信号来生成特征向量。可执行各种方法以从合成信号提取特征向量。例如,通过经由快速傅里叶变换(fft)从合成信号生成图像模式并且将生成的图像模式输入到生成特征向量的人工神经网络,来生成特征向量。将参照图4至图6更详细地描述这样的特征向量生成方法。另外,注册设备基于不与噪声信号合成的语音信号来生成第二特征向量。
在操作340中,注册设备基于生成的特征向量来构造与说话者对应的注册db。注册设备可基于生成的特征向量和生成的第二特征向量中的至少一个,来构造注册db。可基于通过操作310至操作340构造的注册db在测试处理中执行说话者识别。
图4示出通过对语音信号与加性噪声进行合成来生成特征向量的方法的示例。参照图4,注册设备接收语音信号410。以上参照图1至图3提供的描述适用于图4的方法,并且因此这里将省略更详细的描述和重复的描述。
可从与语音信号410发生的源不同的另一源发生加性噪声,并且因此在加性噪声与语音信号410之间不存在相关性。在一个示例中,通过将加性噪声信号420添加到语音信号410来生成合成信号。在这个示例中,当语音信号410是多个语音信号时,加性噪声信号420将被添加到每个语音信号,并且因此多个合成信号被生成。
加性噪声信号420可以以各种方式来确定。例如,加性噪声信号420基于噪声的类型、噪声的时序和噪声与语音信号的能量比(即,信噪比(snr))中的至少一个被确定。再例如,加性噪声信号420根据基于噪声的类型、噪声的时序和snr确定的噪声信号的重复和/或组合来确定。
噪声的类型表示包括例如附近发生的乱语声、关门声以及喇叭声的噪声的源的类型。即使噪声从相同的源被生成,噪声的类型也可基于噪声的长度彼此不同。噪声的时序表示噪声与语音信号合成的起始点和/或结束点。snr表示语音信号与噪声之间的相对音量差。
如图所示,注册设备通过将语音信号410与加性噪声信号420的合成信号输入到特征向量生成器来生成特征向量450。特征向量生成器对合成信号的域进行变换,并且从变换的结果提取特征向量450。合成信号通过将加性噪声信号420添加到语音信号410被生成,并且因此可包括时域声音信息。特征向量生成器将时域合成信号变换为包括图像信息的频域形式,并且基于变换来生成特征向量450。
在一个示例中,特征向量生成器包括预处理器430和神经网络440。预处理器430将时域合成信号变换为包括图像信息的频域形式。例如,预处理器430使用fft将合成信号的域变换为频域以获得频谱大小信息,并且提取如图1中所示(例如,通过信号120、130以及140的表示所示)的频域形式的图像信息。在图1中的信号120、130以及140的表示中,x轴指示时域,y轴指示频域,并且亮度水平可与频谱大小成比例。
通过将包括图像信息的域变换的结果输入到神经网络440来提取特征向量450。神经网络440可以以各种架构来实现,并且包括例如卷积神经网络(cnn)模型。cnn模型包括一个或多个卷积层、一个或多个池化层以及一个或多个全连接层,并且可通过由每个层执行的运算从将被输入到其中的图像信息生成特征向量。图像信息可指示包括在图像中的像素的像素值,例如,亮度值。
尽管以上描述了cnn模型,但是神经网络440可包括包含循环神经网络(rnn)模型、深度信念网络模型、全连接网络模型、双向神经网络模型、受限玻尔兹曼机模型的其它类型的模型,或者可包括分别具有完全连接、卷积连接、循环连接和/或双向连接的不同的神经网络部分或重叠的神经网络部分。
预处理器430和神经网络440被提供为示例,并且除了预处理器430和神经网络440的前述架构之外,特征向量生成器还可基于被配置为生成特征向量的其它模型。例如,特征向量生成器也可基于通过人类声道建模的线性预测编码(lpc)方法、通过人类听觉器官建模的滤波器组方法(例如,梅尔缩放频率倒谱系数(mfcc))或它们的组合(例如,基于mfcc对语音信号进行变换并将变换的结果输入到神经网络的方法)。
图5示出通过对语音信号与信道噪声进行合成来生成特征向量的方法的示例。参照图5,信道噪声可以是基于输入语音信号510的位置的固有特性生成的与从与语音信号510的源不同的源生成的加性噪声不相似的噪声。注册设备通过对语音信号510和信道噪声信号520执行卷积运算来生成合成信号。
信道噪声信号520可基于噪声的类型和snr中的至少一个来确定。例如,信道噪声信号520可通过基于噪声的类型和snr确定的噪声信号的重复和/或组合来确定。
噪声的类型可基于生成混响(reverberation)的位置的类型(例如,大房间、小房间和音乐厅)而不同。另外,噪声的类型可基于麦克风的特性而不同。snr表示语音信号与噪声信号之间的相对音量差。以上提供的关于针对图4的特征向量生成器的描述也适用于此,并且因此这里将省略更详细的描述和重复的描述。
图6示出通过分割来生成特征向量的方法的示例。参照图6,注册设备接收语音信号610。
当在注册处理中以相对少的次数发出与将被识别的句子对应的说话者的语音信号时,被配置为识别话语的起始点的识别器的性能可能变得更灵敏,因此可能容易发生代表性特征向量中的错误,并且识别可能不容易被执行。另外,当仅使用语音信号610的一部分的方法(例如,选择语音信号的中心部分的中心裁剪方法)被用于生成特征向量时,在选择话语点时偏差可能增加。
在一个示例中,注册设备在阶段620中将语音信号610分割成多个部分,以便以各种方式注册和使用有限的话语。阶段620中的分割可以以时间序列被执行,并且多个部分的窗口大小可相同。另外,在多个部分之中的相邻部分之间可存在重叠部分。
特征向量生成器630基于多个部分来生成特征向量640。特征向量生成器630提取与多个部分中的至少一部分对应的至少一个部分特征向量。这里,部分特征向量表示基于通过阶段620中的分割而分割的部分生成的特征向量。例如,当注册设备在阶段620中将一个语音信号分割成m个部分时,m个部分特征向量被生成。再例如,当注册设备接收n个语音信号610并在阶段620中将接收的n个语音信号610中的每个分割成m个部分时,n×m个部分特征向量被生成。
以上参照图4至图6描述生成特征向量的方法。该方法可包括如参照图4所述的通过对语音信号与加性噪声进行合成来生成特征向量的示例方法、如参照图5所述的通过对语音信号与信道噪声进行合成来生成特征向量的示例方法、如参照图6所述的通过分割来生成特征向量的示例方法、以及通过组合前述中描述的示例方法的其它各种方法。
例如,注册设备对n个语音信号与p个加性噪声信号进行合成,并且执行分割以具有m个部分,从而生成n×p×m个特征向量。再例如,注册设备对n个语音信号与p1个加性噪声信号和p2个信道噪声信号进行合成,并且执行分割以具有m个部分,从而生成n×p1×p2×m个特征向量。
注册设备可将生成的特征向量存储在注册db中,以构造与将在说话者识别中被识别的说话者对应的注册db。在测试处理中,说话者识别可基于构造的注册db来执行。
图7示出构造注册db的方法的示例。参照图7,注册设备基于特征向量来构造注册db。
尽管注册设备通过在注册db中存储所有生成的特征向量来构造注册db,但是由于在测试处理中需要对所有特征向量中的每个执行比较,所以异常值可能极大地影响构造,并且处理数据的性能可能降低。
在一个示例中,注册设备将多个特征向量聚类成多个组,提取与组中的至少一组对应的至少一个代表性特征向量,并且注册提取的代表性特征向量以构造注册db。
注册设备基于噪声的类型和分割的部分将特征向量聚类成多个组。可选地,注册设备基于每个特征向量的相似性将特征向量聚类成多个组。例如,注册设备基于k-均值算法对特征向量进行聚类。k-均值算法表示用于将给定数据分组为k个簇的算法,k-均值算法可操作以使簇之间的距离差的方差最小化。然而,聚类不限于前述示例方法,并且各种方法可根据设计被用于聚类。
注册设备提取与通过聚类获得的组中的至少一组对应的至少一个代表性特征向量。这里,代表性特征向量可以是包括在每个组中的特征向量的代表性值。例如,代表性特征向量从包括在每个组中的特征向量被选择,或者通过对包括在每个组中的特征向量的统计运算被确定。代表性特征向量可以是包括在每个组中的特征值的平均值,或者是特征向量的中心值或质心。使用代表性特征向量,异常值的影响可减小,并且因此可提取鲁棒的特征值。例如,注册设备将n×m个特征向量聚类成多个组(每个组包括k个特征向量),提取每个组的平均值作为代表性值,并且因此提取总共p个代表性特征向量。然而,使用代表性值提取代表性特征向量不限于前述示例方法。包括在每个组中的特征向量的数量可因组而异,并且各种方法可根据设计被用于提取代表性特征向量。
图8示出说话者验证方法的示例。在下文中,将被注册的语音信号810、注册特征向量835以及代表性注册特征向量840被用于解释注册处理,并且分别指示先前描述的语音信号、特征向量以及代表性特征向量的相同含义。因此,将被注册的语音信号810、注册特征向量835以及代表性注册特征向量840的描述与语音信号、特征向量以及代表性特征向量的描述基本相同,并且因此以上参照图2至图7提供的描述也可适用于在下文中参照图8描述的注册处理。
在注册处理中,注册设备接收说话者的语音信号810,并且对语音信号810与加性噪声815或信道噪声820进行合成。在阶段825中对通过合成获得的合成信号执行分割之后,注册设备通过将分割的结果输入到特征向量生成器830来生成注册特征向量835,并且提取代表性注册特征向量840以构造注册db。为了将所有注册特征向量835存储在注册db中,提取代表性注册特征向量840可被省略。
识别设备接收说话者的输入语音信号845。输入语音信号845可指示在测试处理中用于验证的从说话者的话语获得的语音信号。测试处理可在具有大量噪声的环境中被执行,并且因此输入语音信号845可自然地包括噪声。
识别设备可以是被配置为从说话者的输入语音生成特征向量并将生成的特征向量与存储在注册db中的特征向量进行比较并且确定是否识别出说话者(包括验证)的设备。识别设备可通过例如硬件模块或硬件模块和软件模块的组合来实现。识别设备可被设置为各种计算装置和/或系统(例如,智能电话、平板计算机、膝上型计算机、台式计算机、tv、可穿戴装置、安全系统、智能家居系统等),或被设置在各种计算装置和/或系统(例如,智能电话、平板计算机、膝上型计算机、台式计算机、tv、可穿戴装置、安全系统、智能家居系统等)中。
在一个示例中,识别设备可包括注册设备。在此,被配置为执行测试处理的识别设备也可被称为不具有注册操作或仅依赖预注册的信息的识别设备,并且包括注册设备的识别设备也可被称为可生成并此后依赖这样的注册信息的识别设备。仅为便于解释,在此可分开描述识别设备和注册设备,以区分识别的功能与注册的功能。因此,当实现实际产品时,所有功能可被配置为在单个装置(例如,广义定义的识别设备)中被处理。例如,被配置为接收语音信号810的注册设备的声学传感器可以是被配置为接收输入语音信号845的识别设备的声学传感器。另外,注册设备的特征向量生成器830和识别设备的特征向量生成器855可以是同一特征向量生成器。在下文中,为了便于描述,识别设备可指示对例如包括或不包括注册操作的识别设备的引用。同样地,虽然对注册设备和方法的讨论可描述注册操作,但是引用的注册设备和方法应被理解为也包括识别设备组件和操作(即,对注册设备或方法的引用不仅限于这样的注册组件或操作)。
识别设备分割并提取将被识别的说话者的输入语音信号845,使得输入特征向量的窗口大小等于注册特征向量的窗口大小。例如,在阶段850中,识别设备对说话者的输入语音信号845执行中心裁剪,或者对输入语音信号845执行滑动窗口操作。这是因为:当输入特征向量的窗口大小与注册特征向量的窗口大小相同时,可能能够比较向量。尽管为了便于描述,在下文中将主要描述滑动窗口操作,但是也可应用各种方法来分割并提取输入语音信号845。
识别设备将通过在阶段850中执行滑动窗口操作而获得的结果输入到特征向量生成器855,以生成输入特征向量860。如上所述,特征向量生成器855可使用与用于特征向量生成器830的神经网络相同的神经网络来生成输入特征向量860。
在阶段865中,识别设备将至少一个输入特征向量860与存储在注册处理中构造的注册db中的注册用户的至少一个注册特征向量835或代表性注册特征向量840进行比较。在此描述的注册用户可以是与存储在注册db中的注册特征向量或代表性注册特征向量对应的说话者。
在阶段870中,识别设备基于在阶段865中获得的比较的结果,验证说话者。在阶段870中,识别设备基于输入特征向量860与注册特征向量835或代表性注册特征向量840之间的相似性分数,来验证说话者。例如,当相似性分数的代表性值大于或等于预设阈值时,识别设备确定在阶段870中执行的说话者的验证成功,或者确定说话者被成功验证。可选地,仅当各自具有大于或等于阈值的与输入特征向量860的相似性分数的注册特征向量835或代表性注册特征向量840的数量大于或等于预设数量时,识别设备可确定在阶段870中执行的说话者的验证成功。然而,阶段870中的用于说话者验证的条件不限于前述描述中的条件,并且因此各种条件可应用于阶段870中的说话者验证。
例如,相似性分数可被确定为匹配分数或距离分数的形式。匹配分数可表示输入特征向量860与注册特征向量835或代表性注册特征向量840之间的相似性的程度,或者指示特征向量之间的相似性的分数。低匹配分数可指示特征向量之间的低相似性,或者指示特征向量彼此不太相似。高匹配分数可指示特征向量之间的高相似性,或者指示特征向量彼此高度相似。距离分数可表示指示输入特征向量860与注册特征向量835或代表性注册特征向量840之间的特征距离(例如,欧几里得距离)的分数。低距离分数可指示在特征向量空间中特征向量之间的特征距离短,并且高距离分数可指示特征距离长。
图9示出说话者识别方法的示例的流程图。参照图9,在操作910中,识别设备接收说话者的语音信号。
在操作920中,识别设备基于接收的语音信号来生成至少一个输入特征向量。这里,输入特征向量的数量可基于应用所需的安全级别和响应时间被确定。例如,在此描述的说话者识别方法可应用于执行支付应用以及解锁智能电话。与当说话者识别方法用于支付应用时相比,当说话者识别方法应用于解锁智能电话时,用户便利性可被更显著地考虑,并且因此当与说话者识别方法被用于支付应用时相比,较少数量的输入特征向量可以是足够的。
识别设备对说话者的语音信号执行域变换,并且从域变换的结果提取输入特征向量。例如,识别设备对说话者的语音信号执行fft,并且基于fft的结果对fft的结果执行填充。
通过执行fft获得的结果可能在其一部分中不包括数据。在这样的情况下,数据可通过填充被填充或充满。在作为fft的结果的部分中不存在数据的情况下,填充可基于与没有数据的部分邻近的相邻部分中的数据来执行。这是因为:语音信号是连续信号,并且数据值在足够短的时间段期间不会快速地改变。例如,当数据丢失的部分包括多个单位部分时,第一单位丢失部分中的数据可被确定为与紧邻第一单位丢失部分并且没有数据丢失的相邻单位部分中的数据的值相同的值,并且第二单位丢失部分中的数据可被确定为与紧邻填充的数据并且没有数据丢失的相邻单位部分中的数据的值相同的值。
在操作930中,识别设备将至少一个输入特征向量与存储在注册db中的注册用户的至少一个注册特征向量进行比较。在操作940中,识别设备基于比较的结果来识别说话者。这里,说话者识别可包括说话者验证和说话者辨识。说话者验证是验证当前说话的说话者是否是注册用户,并且说话者辨识是从各个注册说话者之中辨识说话者。在下文中,将参照图10描述说话者辨识的方法。
图10示出说话者辨识方法的示例。参照图10,说话者辨识方法可用于从各个注册用户之中辨识当前正在说话的说话者。因为可存在多个注册用户,所以可通过多次执行说话者验证来执行说话者辨识方法。
作为非限制性示例,可以以与以上参照图8描述的说话者验证方法中的注册处理相同的方式来执行说话者辨识方法中的注册处理。然而,说话者验证方法可生成一个说话者的特征向量,并且如图10中所示,说话者辨识方法可生成多个说话者中的每个说话者的特征向量。例如,说话者识别方法可使用特征向量生成器1015生成并注册n个说话者的注册语音信号1010的特征向量1020,并且构造n个说话者的注册db。
可以以与以上参照图8描述的说话者验证方法中的测试处理相同的方式来执行说话者辨识方法中的测试处理。例如,测试处理可使用特征向量生成器1035针对输入语音信号1030生成输入特征向量1040。例如,在阶段1045中测量输入特征向量1040与针对每个个体说话者生成的注册特征向量1020或针对每个个体说话者生成的代表性注册特征向量1025之间的相似性,以确定数值相似性向量1050。数值相似性向量1050可以是相似性分数的示例。在阶段1055中,说话者辨识方法可将与针对输入特征向量1040具有最大大小的数值相似性向量1050的注册特征向量1020或代表性注册特征向量1025对应的注册用户辨识为说话者。然而,在这样的情况下,数值相似性向量的大小可需要大于或等于阈值。在所有数值相似性向量的大小小于阈值的情况下,说话者辨识方法可输出说话者不对应于注册用户。可选地,在阶段1055中,说话者辨识方法可将具有具备大于或等于阈值的数值相似性向量1050的大小的最大数量的注册特征向量1020或代表性注册特征向量1025的注册用户辨识为说话者。可选地,在阶段1055中,说话者辨识方法可将具有其数值相似性向量1050的大小大于或等于阈值的注册特征向量1020或代表性注册特征向量1025的最大代表性值的注册用户辨识为说话者。然而,用于在阶段1055中辨识说话者的条件不限于前述示例,并且因此各种条件可应用于在阶段1055中辨识说话者。
图11示出用于说话者识别的注册设备1100的示例。参照图11,注册设备1100包括处理器1110。注册设备1100还包括存储器1130、通信接口1150以及传感器1170。处理器1110、存储器1130、通信接口1150以及传感器1170可通过通信总线1105彼此通信。
处理器1110对语音信号与噪声信号进行合成,基于通过对语音信号与噪声信号进行合成而获得的合成信号来生成特征向量,并且基于生成的特征向量来构造与说话者对应的注册db。
存储器1130包括包含特征向量的注册db。存储器1130可以是易失性存储器或非易失性存储器。
传感器1170包括例如被配置为接收说话者的语音信号的声学传感器。传感器1170可收集各种声音信息的集合。
根据示例,处理器1110可基于语音信号(例如,未与噪声信号合成的语音信号)来生成第二特征向量,并且基于特征向量和第二特征向量中的至少一个来构造注册db。处理器1110对合成信号执行域变换,并且从域变换的结果提取特征向量。处理器1110将加性噪声信号添加到语音信号。处理器1110对语音信号和信道噪声信号执行卷积运算。处理器1110将合成信号分割成多个部分,并且提取与多个部分中的至少一个部分对应的至少一个部分特征向量。处理器1110将包括特征向量和第二特征向量中的至少一个的多个特征向量聚类成多个组,并且提取与多个组中的至少一组对应的至少一个代表性特征向量。
另外,处理器1110可执行以上参照图2至图7描述的方法中的至少一种方法(例如,所述方法中的任何一种或者任何两种或更多种方法的任何组合)或者与至少一种方法对应的算法。处理器1110可执行程序并控制注册设备1100。将由处理器1110执行的程序的代码可被存储在存储器1130中。注册设备1100可通过输入和输出装置(未示出)连接到外部装置(例如,个人计算机(pc)和网络),并且可与外部装置交换数据。注册设备1100可被设置为各种计算装置和/或系统(例如,智能电话、平板计算机、膝上型计算机、台式计算机、tv、可穿戴装置、安全系统、智能家居系统等),或者可被设置在各种计算装置和/或系统(例如,智能电话、平板计算机、膝上型计算机、台式计算机、tv、可穿戴装置、安全系统、智能家居系统等)中。
根据示例实施例,识别设备可包括处理器。识别设备还可包括存储器、通信接口以及传感器。处理器、存储器、通信接口以及传感器可通过通信总线彼此通信。因此,作为非限制性示例,识别设备可具有与图11中示出的注册设备1100的配置相似或相同的配置。
处理器可基于语音信号来生成至少一个输入特征向量,将输入特征向量与存储在注册db中的注册用户的至少一个注册特征向量进行比较,并且基于比较的结果来识别说话者。
存储器可包括包含特征向量的注册db。注册db可包括基于语音信号与噪声信号的合成信号而生成以用于注册用户的至少一个注册特征向量。存储器可以是易失性存储器或非易失性存储器。
传感器可包括被配置为接收说话者的语音信号并收集各种声音信息的集合的声学传感器。
根据一个示例,处理器可对说话者的语音信号执行域变换,并且从域变换的结果提取输入特征向量。处理器可对说话者的语音信号执行滑动窗口操作,使得输入特征向量的窗口大小等于注册特征向量的窗口大小。处理器可对说话者的语音信号执行fft,并且对fft的结果执行填充。
识别设备可被设置为各种计算装置和/或系统(例如,智能电话、平板计算机、膝上型计算机、台式计算机、tv、可穿戴装置、安全系统、智能家居系统等),或者可被设置在各种计算装置和/或系统(例如,智能电话、平板计算机、膝上型计算机、台式计算机、tv、可穿戴装置、安全系统、智能家居系统等)中。
图12示出使用多个通道的说话者验证方法的示例。参照图12,注册处理和测试处理可通过多个通道来执行。
注册设备可包括多个声学传感器,每个声学传感器包括通道。在此使用的通道指示确保信息或信号通过其将被发送的通道,每个通道可彼此独立,并且因此每个通道的信号可独立而没有干扰。在下文中,为了便于描述,将主要描述包括两个通道的环境的示例,但是示例也可应用于包括三个或更多个通道的其它环境。
参照图12,在注册处理中,注册设备的声学传感器分别接收将被注册的第一语音信号1210和将被注册的第二语音信号1211。第一语音信号1210和第二语音信号1211可以是从相同的声源同时生成的信号。例如,第一语音信号1210可以是通过位于注册设备的下端的麦克风输入的信号,第二语音信号1211可以是通过位于注册设备的上端的麦克风输入的信号。
可通过多个通道独立地执行将在使用多个通道的注册处理中执行的操作,并且可将以上参照图8描述的在使用单个通道的注册处理中执行的详细操作应用于使用多个通道的注册处理。例如,如图12中所示,注册设备通过对通过位于注册设备的下端的麦克风接收的第一语音信号1210与加性噪声1215和信道噪声1220进行合成,在阶段1225中对合成信号执行分割并且随后将在阶段1225中执行的分割的结果输入到特征向量生成器1230,来生成第一语音信号的注册特征向量。以相同的方式,注册设备独立地生成通过位于注册设备的上端的麦克风接收的第二语音信号1211的注册特征向量。也就是说,注册设备通过对通过位于注册设备上端的麦克风接收的第二语音信号1211与加性噪声1216和信道噪声1221进行合成,在阶段1226中对合成信号执行分割并且随后将在阶段1226中执行的分割的结果输入到第二特征向量生成器1231,来生成第二语音信号1211的注册特征向量。
注册设备基于在每个通道中生成的注册特征向量来提取代表性注册特征向量1240,并且基于提取的结果来构造注册db。由于注册特征向量针对每个通道被生成,所以更多的注册特征向量可被生成。这里,在此使用的注册特征向量可指示将被注册的特征向量,并且在此使用的代表性注册特征向量可指示可表示注册特征向量的将被注册的特征向量。
例如,以相同的方式执行注册处理,可针对每个通道来独立地执行测试处理。例如,如图所示,注册设备通过经由位于注册设备的下端的麦克风接收第一输入语音信号1245并经由位于注册设备的上端的麦克风接收第二输入语音信号1246,针对每个通道独立地生成输入特征向量。在这样的示例中,由于输入特征向量针对每个通道被生成,所以更多的输入特征向量可被生成。
例如,注册设备接收第一输入语音信号1245,并且在阶段1250中对第一输入语音信号1245执行滑动窗口操作,以使用特征向量生成器1255生成第一输入特征向量1260。另外,例如,注册设备接收第二输入语音信号1246,并且在阶段1251中对第二输入语音信号1246执行滑动窗口操作,以使用特征向量生成器1256生成第二输入特征向量1261。
在阶段1265中,注册设备将第一输入特征向量1260和第二输入特征向量1261中的任何一个或两者与注册特征向量1235或代表性注册特征向量1240进行比较。在阶段1270中,注册设备基于在阶段1265中执行的比较的结果来验证说话者。
图13示出通过通道选择的说话者验证方法的示例。
参照图13,注册设备包括多个声学传感器,每个声学传感器包括通道。在下文中,尽管为了便于描述将主要描述包括两个通道的环境的示例,但是示例也可应用于包括三个或更多个通道的其它环境。以上参照图1至图12提供的描述可适用于图13的示例,并且为了更加清楚和简洁,将省略重复的描述和详细的描述。
注册设备的声学传感器分别接收说话者的第一语音信号1310和说话者的第二语音信号1311。第一语音信号1310和第二语音信号1311对应于注册语音信号。在阶段1320中,注册设备预处理接收的语音信号1310和1311。
在一个示例中,注册设备基于语音信号1310与1311之间的差来估计噪声,并且通过从语音信号1310和1311中的每个减去噪声来获得去除噪声的信号。例如,语音信号1310和1311中的共同的部分可具有与说话者的语音对应的高概率,并且语音信号1310与1311之间的差可具有与噪声对应的高概率。因此,可基于语音信号1310与1311之间的差来估计噪声,并且可通过从说话者的语音信号1310和1311中的每个减去噪声来获得去除噪声的信号。
在另一示例中,注册设备从通过多个通道接收的说话者的语音信号中选择一个语音信号。当允许输入大小或更大的语音信号被输入到具有允许有限输入的注册设备的声学传感器时,由于注册设备的硬件规格,可能发生识别错误(例如,削波)。例如,当从非常靠近声学传感器的位置输入语音信号或者通过非常大声的话语输入语音信号时,可能发生这种削波。在使用单个通道的说话者识别方法中,由于这种削波,可能发生识别错误。然而,注册设备可针对每个部分从通过多个通道接收的说话者的语音信号之中选择一个语音信号,从而减少这种错误。
例如,当从靠近位于注册设备的下端的声学传感器的位置输入语音信号时,从位于注册设备的下端的声学传感器接收的语音信号1310可被削波,从位于注册设备的上端的声学传感器接收的语音信号1311可被正常输入。在这个示例中,在执行预处理的阶段1320中不发生削波的通过位于注册设备的上端的声学传感器接收的语音信号1311可被选择。因此,削波问题可被解决。
另外,注册设备可针对信号的每个部分从通过多个通道接收的说话者的语音信号之中选择一个语音信号。例如,注册设备可在第一部分选择语音信号1310,并且在第二部分选择语音信号1311。
对于由图13中的参考标号1330至参考标号1380指示的后续操作,可参照由图2中的参考标号220至参考标号270指示的用于说话者识别的注册系统的操作的描述。
图14示出针对由于注册设备10的位置和方向导致的话语改变鲁棒的方法的示例。
当注册设备通过单个通道接收语音信号时,因为由于注册设备的混响特性导致的话语的改变,所以可能发生识别错误。例如,在注册处理1400中,注册设备10的声学传感器14位于开放的空间,因此不存在由于桌子20的混响。在测试处理1450中,声学传感器14位于桌子20上,并且因此存在混响。在这个示例中,因为由于注册设备10的混响特性导致的话语的改变,所以可能发生识别错误。
然而,在注册设备10使用多个通道添加注册特征向量的情况下,注册设备10可基于注册设备10的方向来应用话语的改变,从而提高说话者识别率。例如,在注册处理1400中,布置在注册设备的下端的声学传感器14位于开放的空间并且布置在注册设备的上端的声学传感器16位于桌子20上,因此注册设备10可在与执行测试处理1450的环境相同的环境中执行注册。因此,当注册设备10使用多个通道时,基于注册设备10的混响特性的话语的改变可被考虑和应用。
另外,尽管注册设备10使用多个通道,但是在并行处理多个通道的环境(例如,多线程环境)中,在说话者识别中说话者识别速率可提高,而没有附加的时间延迟。
执行在本申请中描述的操作的图2、图4至图6、图8以及图10至图13中的预处理器430和530、神经网络440和540、特征向量生成器260、630、830、1015、1035、1230、1231、1255、1256和1370、处理器1110以及存储器1130通过被配置为执行在本申请中描述的由硬件组件执行的操作的硬件组件来实现。可用于执行在本申请中描述的操作的硬件组件的示例在适当的情况下包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行在本申请中描述的操作的任何其它电子组件。在其它示例中,执行在本申请中描述的操作的硬件组件中的一个或多个通过计算硬件(例如,通过一个或多个处理器或计算机)来实现。可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其它装置或装置的组合)来实现处理器或计算机。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行用于执行在本申请中描述的操作的指令或软件(诸如,操作系统(os)和在os上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见,单数术语“处理器”或“计算机”可用在本申请中描述的示例的描述中,但是在其它示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如,单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者处理器和控制器来实现,一个或多个其它硬件组件可通过一个或多个其它处理器,或者另外的处理器和另外的控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(sisd)多处理、单指令多数据(simd)多处理、多指令单数据(misd)多处理以及多指令多数据(mimd)多处理。
图1至图10和图12至图14中示出的执行在本申请中描述的操作的方法通过计算硬件(例如,通过一个或多个处理器或计算机)来执行,计算硬件被实现为如上所述地执行指令或软件,以执行在本申请中描述的由所述方法执行的操作。例如,单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器、或者处理器和控制器来执行,并且一个或多个其它操作可通过一个或多个其它处理器、或者另外的处理器和另外的控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)来实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任意组合,以单独地或共同地指示或配置一个或多个处理器或计算机如机器或专用计算机那样进行操作,以执行由如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括由一个或多个处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由一个或多个处理器或计算机使用解释器执行的高级代码。可基于附图中示出的框图和流程图以及说明书中的相应描述,使用任何编程语言编写指令或软件,其中,附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。
用于控制计算硬件(例如,一个或多个处理器或计算机)来实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(rom)、随机存取存储器(ram)、闪存、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-rlth、bd-re、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及任何其它装置,其中,所述任何其它装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给一个或多个处理器或计算机,使得一个或多个处理器和计算机能够执行指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得指令和软件以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式的方式被存储、访问和执行。
虽然本公开包括特定的示例,但是在理解本申请的公开之后将清楚,在不脱离权利要求和它们的等同物的精神和范围的情况下,可在这些示例中进行形式和细节上的各种改变。在此描述的示例仅被认为是描述性的,而不是为了限制的目的。每个示例中的特征或方面的描述将被认为可应用到其它示例中的相似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的系统、架构、装置或电路中的组件以不同方式被组合和/或被其它组件或它们的等同物替换或补充,则可实现适当的结果。因此,公开的范围不是由具体实施方式限定,而是由权利要求和它们的等同物限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在公开内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除