用于说话者识别的处理语音信号方法及实现其的电子装置与流程
本公开涉及处理语音信号以基于所接收的语音信号来执行说话者(speaker)识别的方法以及执行该方法的电子装置。
背景技术:
随着最近已经开发了执行各种功能的电子装置,诸如智能电话,已经引入了具有语音识别功能以改善可操作性的电子装置。语音识别功能允许通过识别来自用户的语音来容易地控制装置,而无需用户按下按钮或对触摸模块进行触摸。也就是说,在某些情况下,与物理地对用户界面进行触摸相比,与电子设备的语音交互可能更加方便。
由于语音识别功能,诸如智能电话的电子设备可以执行语音呼叫和文本消息发送而无需用户按下按钮,并且还可以执行诸如导航功能、互联网搜索功能和闹钟设置功能的各种功能。
随着语音识别技术的进展,已经引入了具有使用语音识别技术的说话者识别功能的电子装置。具体地,已经开发了下述电子装置:基于所接收的语音信号执行说话者识别并且基于说话者识别的结果执行随后的操作,例如,允许或限制电子装置的使用、或确定是否执行随后的语音识别的操作。
其中用户的隐私保护很重要的电子装置,例如移动电话,需要仅由作为移动电话的所有者的用户使用。也就是说,应当防止非所有者的未经授权的使用。在这种情况下,移动电话必须执行说话者识别,以便确定输入语音信号的说话者是否为登记用户。
作为另一示例,根据用户提供个性化服务的电子装置需要说话者识别。具体地,这样的电子装置可以通过执行说话者识别来标识用户,并且可以根据标识的结果来提供特定于该用户的个性化服务。
尽管说话者识别技术已经迅速地进展,但是当需要对与具有相似的语音特征的多个说话者分别地相对应的多个语音信号彼此进行区分时,电子装置的说话者识别准确性仍然不高。另外,由于说话者在其中说话的环境中生成的噪声,说话者识别准确性可能降低。
因此,需要开发一种用于在各种周围环境和/或操作环境中改善说话者识别准确性的方法和装置。
技术实现要素:
技术问题
如上所述,需要开发一种用于在各种周围环境和/或操作环境中改善说话者识别准确性的方法和装置。
有利效果
根据本公开的实施例的处理语音信号的方法和实施该方法的电子装置可以基于所接收的语音信号来改善说话者识别准确性。
具体地,根据本公开的实施例的处理语音信号的方法及其电子装置可以基于所接收的语音信号通过下述来改善说话者识别准确性:从发声的说话者的语音特征当中提取与参考值相比的语音特征,并且基于提取的语音特征建议推荐的文本。
具体地,根据本公开的实施例的处理语音信号的方法及其电子装置可以基于具有相似的语音特征的多个说话者当中的一个说话者发出的语音,在对具有相似的语音特征的多个说话者执行说话者识别时,来改善说话者识别性能。
另外,根据本公开的实施例的处理语音信号的方法及其电子装置可以克服由于在为说话者识别而接收语音信号时生成的噪声信号导致的说话者识别率(例如,说话者识别准确性)的降低。
具体地,根据本公开的实施例的处理语音信号的方法及其电子装置可以通过下述来改善说话者识别性能:适应地响应在其中执行说话者识别的操作环境和噪声环境中的改变,并且调整用于说话者识别的参考值或阈值中的至少一个。
附图说明
通过结合附图进行的以下描述,本公开的某些实施例的上述和其他方面、特征和优点将更加明显,在附图中:
图1a是用于描述根据本公开的实施例的执行说话者识别的电子装置的视图;
图1b是用于描述根据本公开的另一实施例的执行说话者识别的电子装置的视图;
图1c是用于描述根据本公开的另一实施例的执行说话者识别的电子装置的视图;
图1d是用于描述根据本公开的其他实施例的执行说话者识别的电子装置的视图;
图2是根据本公开的实施例的电子装置的框图;
图3是根据本公开的另一实施例的电子装置的框图;
图4是根据本公开的实施例的用于描述由电子装置执行的比较操作的视图;
图5是根据本公开的另一实施例的用于描述由电子装置执行的比较操作的视图;
图6是根据本公开的实施例的用于描述由电子装置执行的推荐语句输出操作的视图;
图7是根据本公开的实施例的处理语音信号的方法的流程图;
图8是根据本公开的另一实施例的处理语音信号的方法的流程图;
图9是根据本公开的实施例的、用于描述通过处理语音信号的方法执行的用于单个说话者识别的操作和执行相同操作的电子装置的图;
图10是根据本公开的另一实施例的处理语音信号的方法的流程图;
图11是根据本公开的实施例的、用于描述通过处理语音信号的方法执行的用于多个说话者识别的操作和执行相同操作的电子装置的图;
图12a是根据本公开的另一实施例的、用于描述通过处理语音信号的方法执行的用于多个说话者识别的操作和执行相同操作的电子装置的示图;
图12b是用于描述具有相似度的多个说话者之间的语音特征的视图;
图13是根据本公开的实施例的、用于描述用于增加具有相似度的多个说话者之间的语音辨别力的操作的视图;以及
图14是根据本公开的另一实施例的处理语音信号的方法的流程图。
具体实施方式
根据本公开的实施例的处理语音信号的方法和实施该方法的电子装置可以基于所接收的语音信号来改善说话者识别准确性。
具体地,根据本公开的实施例的处理语音信号的方法及其电子装置可以基于所接收的语音信号通过下述来改善说话者识别准确性:从发声的说话者的语音特征当中提取与参考值相比的语音特征,并且基于提取的语音特征建议推荐的文本。
具体地,根据本公开的实施例的处理语音信号的方法及其电子装置可以基于具有相似的语音特征的多个说话者当中的一个说话者发出的语音,在对具有相似的语音特征的多个说话者执行说话者识别时,来改善说话者识别性能。
另外,根据本公开的实施例的处理语音信号的方法及其电子装置可以克服由于在为说话者识别而接收语音信号时生成的噪声信号导致的说话者识别率(例如,说话者识别准确性)的降低。
具体地,根据本公开的实施例的处理语音信号的方法及其电子装置可以通过下述来改善说话者识别性能:适应地响应在其中执行说话者识别的操作环境和噪声环境中的改变,并且调整用于说话者识别的参考值或阈值中的至少一个。
额外的方面将在下面的描述中部分地阐述,并且部分地从描述中将是明显的,或者可以通过实践本公开的所呈现的实施例而习得。
根据本公开的一方面,一种在电子装置中处理语音信号用于说话者识别的方法可以包括:获得第一用户的语音信号;从语音信号中提取包括特征值的语音特征;将从第一用户的语音信号中提取的包括特征值的语音特征与预定参考值进行比较;选择对应于与预定参考值进行比较的第一用户的语音特征的第一用户特征;基于第一用户特征生成用于说话者识别的推荐短语;以及输出推荐短语。
比较语音特征可以包括将以预定单位(unit)从第一用户的语音信号中提取的多个单位声音特征中的每个与相对应的预定参考值进行比较,并且选择可以包括基于比较的结果来选择与相对应的预定参考值相差预定量或更多的、从第一用户的语音信号中提取的至少一个单位声音特征,作为第一用户特征。
比较可以包括将以预定单位从第一用户的语音信号中提取的多个单位声音特征中的每个与相对应的预定参考值进行比较;并且选择可以包括基于比较的结果来选择从第一用户的语音信号中提取的并且其与相对应的预定参考值的相似度低于预定百分比的至少一个单位声音特征作为第一用户特征。
可以以预定单位提取语音特征,而该预定单位可以是音素上下文,并且生成推荐短语可以包括生成推荐短语,以使得包括在第一用户特征中所包括的至少一个音素上下文的字母被包括在推荐短语中。
接收可以包括:从第一用户接收推荐短语;以及接收推荐短语作为登记的语音信号,并且通过使用登记的语音信号执行说话者识别。
预定参考值可以是以音素上下文为单位代表多个用户的平均语音特征的值。
电子装置可以由包括第一用户的多个用户共同地使用,并且预定参考值可以是表示从多个用户中所包括的第二用户的语音信号中提取的语音特征的值。
选择第一用户特征可以包括执行比较,以将从第一用户的语音信号中提取的音素上下文单位的语音特征与从第二用户的语音信号中提取的音素上下文单位的语音特征进行比较,并且提取作为比较的结果的、其第一用户的语音特征与第二用户的语音特征之间的差异超过预定范围的至少一个音素上下文作为第一用户特征。
该方法可以进一步包括:计算第一用户的语音特征与第二用户的语音特征之间的相似度;并且修改以下至少一项以便增加识别第一用户的语音和第二用户的语音的辨别力:第一用户的语音特征、第二用户的语音特征、用于识别第一用户的语音信号的模型或用于识别第二用户的语音信号的模型。
获得第一用户的语音信号可以包括:接收第一用户发出的语音信号和在其中第一用户发出语音信号的环境中生成的噪声信号;并且该方法还可以包括:提取作为噪声信号的特征的噪声特征;基于噪声特征,调整被应用于执行说话者识别的阈值或被应用于第一用户的语音信号中包括的预定单位声音的权重值中的至少一个;以及根据调整的阈值或权重值中的至少一个执行说话者识别。
获得第一用户的语音信号可以包括:接收第一用户发出的语音信号和在其中第一用户发出语音信号的环境中生成的噪声信号,其中,该方法还包括:提取噪声信号的信号特征;以及基于作为噪声信号的特征的噪声特征,调整说话者识别模型,以使要识别的语音信号不被噪声信号掩盖(masked)。
根据本公开的另一方面,提供了一种用于处理语音信号以执行说话者识别的电子装置,并且该电子装置可以包括:接收器,被配置为获得第一用户的语音信号;控制器,被配置为:从语音信号中提取包括特征值的语音特征,将从第一用户的语音信号中提取的包括特征值的语音特征与预定参考值进行比较,选择对应于与参考值进行比较的第一用户的语音特征的第一用户特征,并且基于第一用户特征生成用于说话者识别的推荐短语;以及输出器,被配置为输出推荐短语。
控制器可以进一步被配置为:将以预定单位从第一用户的语音信号中提取的多个单位声音特征中的每个与相对应的预定参考值进行比较;并且选择与相对应的预定参考值相差预定量或更多的、从第一用户的语音信号中提取的至少一个单位声音特征作为第一用户特征。
控制器可以进一步被配置为:将以预定单位从第一用户的语音信号中提取的多个单位声音特征中的每个与相对应的预定参考值进行比较,并且提取从第一用户的语音信号中提取的并且其与相对应的参考值的相似度低于预定百分比的至少一个单位声音特征作为第一用户特征。
当以预定单位提取语音特征时,预定单位可以是音素上下文,并且控制器可以进一步被配置为生成推荐短语,以使得包括在第一用户特征中所包括的至少一个音素上下文的字母被包括在推荐短语中。
预定参考值可以是代以表音素上下文为单位的多个用户的平均语音特征的值。
电子装置可以被配置为对包括第一用户的多个用户执行说话者识别,并且其中,预定参考值是表示从多个用户中所包括的第二用户的语音信号中提取的语音特征的值。
控制器可以进一步被配置为:执行比较,以将从第一用户的语音信号中提取的音素上下文单位的语音特征与从第二用户的语音信号中提取出的音素上下文单位的语音特征进行比较;并且提取作为比较的结果的、第一用户的语音特征与第二用户的语音特征之间的差异超过预定范围的至少一个音素上下文作为第一用户特征。
接收器还可被配置为接收第一用户发出的语音信号和在其中第一用户发出语音信号的环境中生成的噪声信号,其中,控制器还被配置为提取噪声信号的信号特征,基于噪声信号的信号特征来调整被应用于执行说话者识别的阈值或被应用于第一用户的语音信号中包括的预定单位声音的权重值中的至少一个,以及根据调整的阈值或权重中的至少一个执行说话者识别。
根据本公开的另一方面,一种非暂时性计算机可读记录介质可以在其上体现有包括计算机可执行指令的程序,该计算机可执行指令用于执行在电子装置中处理语音信号以用于说话者识别的方法,该方法包括:获得第一用户的语音信号;从语音信号中提取包括特征值的语音特征;将从第一用户的语音信号中提取的包括特征值的语音特征与预定参考值进行比较;选择对应于与参考值进行比较的第一用户的语音特征的第一用户特征;基于第一用户特征生成用于说话者识别的推荐短语;以及输出推荐短语。
根据本公开的另一方面,一种在电子装置中处理语音信号以用于说话者识别的方法,可以包括:获得第一用户的语音信号;从语音信号中提取多个语音特征,每个语音特征包括特征值;将从第一用户的语音信号中提取的每个特征值与预定参考值进行比较;选择多个语音特征中的、与相对应的预定参考值相差预定量或更多的第一用户特征;基于第一用户特征生成用于说话者识别的推荐短语;以及经由显示器或扬声器(speaker)输出推荐短语。
该方法可以进一步包括选择与相对应的预定参考值相差预定量或更多的第二用户特征;以及生成推荐短语是基于第一用户特征和第二用户特征。
该方法可以进一步包括,其中,第一用户特征是单个音素,并且推荐短语包括单个音素。
该方法可以进一步包括,其中,第一用户特征是音素上下文,并且推荐短语包括音素上下文。
该方法可以进一步包括,其中,第一用户特征是三音素(tri-phoneme),并且推荐短语包括三音素。
该方法可以进一步包括,其中,比较包括计算特征值中的每个相对于预定参考值的相似度百分比。
该方法可以进一步包括:从第一用户接收推荐短语;以及基于所接收的推荐短语来标识第一用户。
该方法可以进一步包括,其中,预定参考值是多个用户的平均语音特征。
本发明的实施方式
本申请基于2018年02月02日向韩国知识产权局提交的韩国专利申请第10-2018-0013430号并且根据35u.s.c.§119要求其优先权,该韩国专利申请的公开内容通过引用整体合并于此。
现在将参考附图更加全面地描述本公开,以使本领域的普通技术人员能够执行本公开而不具有任何困难。然而,本公开可以体现为许多不同的形式来,并且不应被解释为限于这里阐述的实施例。另外,附图中与详细描述无关的部件被省略以确保本公开的清楚性。附图中相同的附图标记指示相同的元件。
贯穿说明书,将理解的是,当元件被称为连接到另一元件时,其可以直接地连接到该另一元件,或者电连接到该另一元件而其间具有居间的元件。将进一步理解的是,当部件包括或包含元件时,除非另外定义,否则该部件可以进一步包括其他元件,而不排除其他元件。
贯穿本说明书,在本公开的一些实施例中或在本公开的一实施例中的短语不必都指代相同的实施例。
可以就功能块组件和各种处理步骤而言来描述本公开的一些实施例。功能块中的一些或全部可以由被配置为执行特定功能的任何数量的硬件和/或软件组件来实现。例如,本公开的功能块可以由一个或多个处理器或微处理器,或者用于预定功能的电路组件来实现。此外,例如,本公开的功能块可以采用任何编程或脚本语言来实施。功能块可以以在一个或多个处理器上执行的算法来实施。另外,本公开可以采用现有的用于电子配置、信号处理和/或数据处理的技术。术语模块和配置可以广泛地使用,并且不限于机械或物理元件。
此外,各个附图中所示的元件之间的连接线或连接器旨在表示元件之间的示例性功能关系和/或物理或逻辑耦合。应当注意,在实际设备中可能存在许多替代或附加的功能关系、物理连接或逻辑连接。
如本文所使用地,术语“和/或”包括相关联的所列项目中的一个或多个的任何和所有组合。诸如“……中的至少一个”的表达,当在元素列表之后时,修饰整个元素列表,而不修饰列表中的单个元素。
贯穿本公开,表达“a,b或c中的至少一个”指示仅a,仅b,仅c,a和b两者,a和c两者,b和c两者,a、b和c中的全部,或其变型。
现在将参考附图更全面地描述本公开,在附图中示出了本公开的实施例。
本公开的实施例涉及一种基于语音信号执行说话者识别的方法和装置。
在本公开的实施例中,可以接收音频信号,并且可以基于所接收的音频信号执行说话者登记和说话者识别。音频信号可以包括由说话者发出的语音信号。另外,所接收的音频信号可以包括由说话者发出的语音信号和在其中说话者讲话的环境中生成的噪声信号两者。
可以基于所接收的音频信号执行语音识别和说话者登记,并且可以基于在说话者登记完成之后所接收的语音信号来执行说话者识别。
根据本公开的实施例的电子装置可以是可以基于音频信号执行说话者识别的任何电子装置。具体地,根据本公开的实施例的电子装置可以通过接收包括人的语音的音频信号并且识别该音频信号来执行说话者识别功能。术语“说话者识别功能”指代执行以下操作的功能:基于识别出的语音信号执行说话者登记,基于识别出的语音信号确定说话者是否为登记的说话者,或者基于确定的结果确定是否执行随后的操作。
具体地,根据本公开的实施例的电子装置可以是移动计算设备或非移动计算设备,诸如但不限于:可穿戴设备、智能电话、平板型个人计算机(pc)、pc、个人数字助理(pda)、膝上型计算机、智能扬声器、媒体播放器、微型服务器、全球定位系统(gps)设备、电子书终端、数字广播终端、导航设备、信息亭(kiosk)、mp3播放器、数码相机、车辆的电子控制单元或中央信息显示器(cid)。另外,根据本公开的实施例的电子装置可以是由家用物联网(iot)平台可控制的家用电器,诸如tv、洗衣机、冰箱、微波炉或计算机。
具体地,根据本公开的实施例的电子装置可以被包括在或安装在移动计算设备或非移动计算设备中,诸如,可穿戴设备、智能电话、平板型pc、pc、pda、膝上型计算机、智能扬声器、媒体播放器、微型服务器、gps设备、电子书终端、数字广播终端、导航设备、信息亭、mp3播放器、数码相机、车辆的电子控制设备、或cid,或者iot平台可控制的家用电器。
将在根据本公开的实施例的电子装置是智能电话的假设下来描述图1a至图1d,但是相同的原理可以应用于其他类型的设备。在图1a至图1d中,相同的元件由相同的附图标记表示,并且将不给出重复的说明。
图1a是用于描述执行说话者识别的电子装置100的视图。
电子装置100可以接收由用户10发出的语音信号,并且可以基于所接收的语音信号执行说话者识别。
这里使用的术语“说话者识别”可以指代以下操作:基于所接收的语音信号分析发出语音信号的用户的独特(unique)特征,并且自动地确定说出所接收的语音信号的人。作为使用语音识别的说话者标识的说话者识别可以用于身份验证。
具体地,参考图1a,电子装置100可以首先接收用户10发出的语音信号,并且可以执行识别所接收的语音信号的语音识别操作。这里使用的术语“语音识别操作”指代将作为所接收的音频信号的语音信号检测或识别为用户的语音的操作。
电子装置100可以基于通过执行语音识别操作而识别的语音信号来执行说话者识别操作。
另外,可以将说话者登记作为说话者识别的前提来执行。例如,电子装置100可以基于用户10发出的语音信号来执行说话者登记。具体地,在用户10新购买电子装置100之后,用户10可以发出语音以用于用户登记。电子装置100可以通过将发出的语音登记为用于说话者识别的语音信号来完成用户登记。
在稍后的时间,当电子装置100接收语音信号以用于说话者识别时,电子装置100可以执行确定发出所接收的语音信号的说话者是否与登记的用户匹配的说话者识别操作。具体地,电子装置100可以执行比较,并且可以确定与所接收的用于说话者识别的语音信号相对应的语音特征与在说话者登记期间提取的语音特征是否相似或相同。电子装置100可以根据比较结果确定发出语音信号的说话者是否为登记的用户。
当作为说话者识别的结果,发出语音信号的说话者是登记的用户时,电子装置100可以识别随后接收的由用户10发出的语音信号,并且可以执行与所识别的语音信号相对应的操作。
另外,当作为说话者识别的结果,发出语音信号的说话者不是登记的用户时,电子装置100可以结束语音识别,而不执行额外的操作。具体地,电子装置100可以输出指示说话者不是登记的用户的音频或视觉消息,并且可以不执行与说话者发出的语音信号相对应的操作。
另外,除了说话者登记之外,可以出于各种目的执行说话者识别。例如,可以执行说话者识别以确定登记的说话者是否正确。另外,出于提供与所识别的说话者相对应的个性化服务的目的,可以执行说话者识别以指定谁是说话者。
另外,尽管在图1a中电子装置100执行说话者识别,用于执行说话者识别的操作可以通过电子装置100、服务器(未示出)或诸如可穿戴设备的另一电子装置(未示出)中的至少一个来执行,并且将参考图1b至图1d详细地描述。
参考图1b,说话者识别操作可以由电子装置100和语音识别服务器120执行。语音识别服务器120可以通过有线或无线方式连接到电子装置100。在图1b中,电子装置100和语音识别服务器120通过无线网络121彼此连接。无线网络121可以是遵循下述通信协议的网络,诸如蓝牙、无线局域网(wlan)(例如,wi-fi)、无线宽带(wibro)、全球接入微波互操作性(wimax)、码分多址(cdma)、4glte、毫米波或宽带码分多址(wcdma)。假设电子装置100和语音识别服务器120通过遵循wi-fi通信协议的网络发送/接收预定数据来描述以下内容。
具体地,电子装置100可以接收由用户10发出的语音信号,并且可以将所接收的语音信号发送到语音识别服务器120。语音识别服务器120可以将所接收的语音信号识别为用户10的语音,并且可以将语音识别的结果发送到电子装置100。电子装置100可以执行与所接收的语音识别的结果相对应的操作。
参考图1c,说话者识别操作可以由电子装置100和可穿戴设备130执行。可穿戴设备130可以是与电子装置100物理地分离并且通过有线或无线网络连接到电子装置100的另一电子装置。在图1c中,电子装置100和可穿戴设备130通过无线网络135彼此连接。
具体地,可穿戴设备130接收由用户10发出的语音信号。可穿戴设备130通过无线网络(例如,遵循蓝牙通信协议的无线网络135)将所接收的语音信号发送到电子装置100。电子装置100可以将语音信号识别为语音。
参考图1d,说话者识别操作可以由电子装置100、可穿戴设备130和语音识别服务器120执行。
具体地,作为外部电子装置的可穿戴设备130从用户10接收语音信号,并且将所接收的语音信号发送到电子装置100。电子装置100将所接收的语音信号发送到语音识别服务器120。语音识别服务器120可以对所接收的语音信号执行语音识别。
如上所述,可以通过使用电子装置(例如,电子装置100)、与电子装置相关联操作的可穿戴设备(例如,可穿戴设备130)、或可以通过预定通信网络连接到电子装置的服务器(例如,语音识别服务器120)中的至少一个,来执行用于说话者识别或说话者登记的语音识别操作。为了便于解释,将假设由电子装置执行语音识别操作来描述下述。
在执行语音识别操作时,准确地确定说话者是否为登记的用户是重要的。即,在执行说话者识别的电子装置中,重要的是改善说话者识别性能并且提高说话者识别成功率或说话者识别准确性。
将参考附图详细地描述根据本公开的实施例的处理语音信号的方法及其电子装置,其可以通过灵活地响应存在单个说话者、存在多个说话者或者在其中接收到噪声的环境中由说话者发出语音信号的任何情况来改善说话者识别性能。
图2是根据本公开的实施例的电子装置200的框图。
参考图2,根据本公开的实施例的电子装置200包括接收器210、控制器220和输出器230。电子装置200对应于图1a的电子装置100,并且因此,当描述电子装置200时,将不重复地描述与图1a中的元件相同的元件。
电子装置200处理语音信号以执行说话者登记或说话者识别。能够执行说话者登记或说话者识别的电子装置200可以被实施为各种类型中的任何。例如,电子装置200可以包括参考图1a至图1d所描述的电子装置100、可穿戴设备或服务器中的至少一个。例如,电子装置200可以形成为诸如智能电话的单个电子装置。电子装置也可以形成为智能扬声器。
为了执行说话者登记,必须对要登记的说话者发出的语音执行语音识别。即,为了执行说话者登记,执行说话者的语音识别。因此,在下文中,说话者登记或说话者识别两者将被称为“说话者识别”。
接收器210获得第一用户的语音信号。
具体地,接收器210可以获得音频信号。音频信号可以仅包括第一用户的语音信号。另外,音频信号可以包括第一用户的语音信号和在其中第一用户发声的环境中生成的噪声信号两者。当音频信号包括第一用户的语音信号和噪声信号两者时,接收器210可以通过执行语音识别操作从音频信号中仅提取第一用户的语音信号。
另外,接收器210可以通过诸如无线麦克风或有线麦克风的语音接收设备从第一用户直接地获得语音信号。接收器也可以被实施为具有有线或无线麦克风,或者有线或无线的多个麦克风。另外,接收器210可以通过通信模块(未示出)接收从外部语音接收设备(未示出)接收的第一用户的语音信号。外部语音接收设备可以是:独立于电子装置200的无线麦克风或有线麦克风、可以接收语音的外部电子装置(未示出)(例如,可穿戴设备)、或者接收和/或存储第一用户的语音信号的外部服务器(未示出)。
通信模块(未示出)可以通过有线/无线通信网络连接到与电子装置200物理地分离的外部语音接收设备(未示出),并且可以通过有线/无线通信网络接收语音信号。
另外,通信模块(未示出)可以被提供在接收器210中,或者可以被形成为与接收器210的分离模块,以及可以被包括在电子装置200中。具体地,通信模块(未示出)包括至少一个通信模块,诸如近程通信模块、有线通信模块、移动通信模块和广播接收模块。至少一个通信模块指代可以通过遵循诸如蓝牙、wlan(例如,wi-fi)、wibro、wimax、cdma或wcdma的通信协议的网络发送/接收数据的通信模块。这些模块中的任何可以实施为被配置为这样地通信的电路。例如,通信模块可以包括wi-fi通信电路或cdma通信电路。
例如,当外部语音接收设备(未示出)是通过蓝牙通信网络连接到电子装置200的可穿戴设备(未示出)时,可穿戴设备(未示出)可以接收第一用户发出的语音信号。可穿戴设备(未示出)可以通过蓝牙通信网络将所接收的语音信号发送到电子装置200。电子装置200的通信模块(未示出)(例如,蓝牙通信模块/电路)可以将所接收的语音信号发送到控制器220。
控制器220可以将从第一用户的语音信号中提取的语音特征与参考值进行比较,可以获得对应于与参考值进行比较的第一用户的语音特征的第一用户特征,以及可以基于第一用户特征生成用于说话者识别的推荐语句。具体地,控制器220可以从接收器210接收由第一用户发出的语音信号。控制器220可以从语音信号中提取语音特征。接下来,控制器220可以将提取的语音特征与参考值进行比较,可以获得对应于与参考值进行比较的第一用户的语音特征的第一用户特征,以及可以基于第一用户特征生成用于说话者识别的推荐语句。
具体地,控制器220可以包括至少一个处理器。控制器也可以是多核处理器。至少一个处理器中的每个可以通过执行至少一个指令来执行将在下面描述的至少一个操作。即,由控制器220执行的至少一个操作可以与由处理器(未示出)执行的至少一个操作相同。另外,控制器220可以通过控制提供在控制器220内部的至少一个处理器或提供在控制器220外部的至少一个处理器,来控制要执行的预定操作。预定操作可以包括:从第一用户的语音信号中提取语音特征的操作,将从第一用户的语音信号中提取的语音特征与参考值进行比较的操作,获得对应于与参考值进行比较的第一用户的语音特征的第一用户特征的操作,以及基于第一用户特征生成用于说话者识别的推荐语句的操作。
参考值可以是比较参考值,其用于提取由第一说话者发出的语音信号的预定单位声音,以便增加发出所接收的语音信号的第一说话者的辨别力。
以下将参考图4和图5详细地描述参考值。
控制器220可以获得与参考值进行比较的第一用户的语音特征作为第一用户特征。具体地,可以获得下述至少一个单位声音作为第一用户特征:其具有从第一用户的语音信号中提取的语音特征与参考值之间的大差异。具体地,可以获得下述至少一个单位声音作为第一用户特征:其从第一用户的语音信号中提取的语音特征与参考值之间的差异等于或大于预定范围。以下将参考图4和图5详细地描述第一特征。
控制器220可以生成推荐语句以包括在第一用户特征中所包括的至少一个单位声音。
另外,控制器220可以控制电子装置200的整体操作。
输出器230输出推荐语句。具体地,输出器230输出由控制器220生成的推荐语句,使得用户,例如第一用户,视觉上或听觉上识别推荐语句。
具体地,输出器230可以包括输出音频数据的音频设备(未示出)或输出图像数据的显示器(未示出)中的至少一个。即,输出器可以是扬声器、多个扬声器、或诸如lcd或oled的显示器屏幕、或者是至少一个扬声器和至少一个显示器的组合。
具体地,当输出器230包括音频设备(未示出)时,音频设备可以将推荐语句输出为用户可以听觉上识别的音频信号。替选地,当输出器230包括显示器(未示出)时,显示器可以输出包括推荐语句的用户界面屏幕。
图3是根据本公开的另一实施例的电子装置300的框图。
根据本公开的另一实施例的电子装置300可以对应于图2的电子装置200。另外,电子装置300中所包括的接收器310、控制器320和输出器330分别地对应于图2的电子装置200中所包括的接收器210、控制器220和输出器230。因此,当描述电子装置300中所包括的元件时,将不重复地描述与图2中的元件相同的元件。
参考图3,当与电子装置200相比时,电子装置300可以进一步包括存储器340或用户接口(interface)350中的至少一个。
对应于控制器220的控制器320可以包括至少一个处理器。至少一个处理器中的每个可以通过执行至少一个指令来执行至少一个操作。例如,控制器320包括处理器或多核处理器(未示出)。在这种情况下,由控制器220执行的至少一个操作可以与由处理器(未示出)执行的至少一个操作相同。
输出器330可以包括扬声器(未示出)或显示器(未示出)中的至少一个。扬声器(未示出)输出音频信号,使得用户听觉上识别预定信息。显示器(未示出)输出诸如屏幕的视频信号,使得用户视觉上识别预定信息。
另外,当将预定信息输出给用户时,输出器330可以仅输出音频信号或仅输出视频信号。另外,输出器330可以同时地输出音频信号和视频信号。
在本公开的实施例中,当控制器320通过合成生成为文本数据的推荐语句来生成音频信号时,扬声器(未示出)可以输出所生成的音频信号。替选地,当控制器320生成包括生成为文本数据的推荐语句的屏幕时,显示器332可以输出屏幕。
存储器340可以包括预定数据或程序中的至少一个,程序包括用于执行预定操作的指令。
在本公开的实施例中,存储器340可以存储被登记为电子装置300的用户的用户的语音信号、与用户发出的推荐语句相对应的语音信号、以及与为了对应于由输出器230输出的推荐语句而由用户发出的登记语句相对应的语音信号。
在本公开的实施例中,存储器340可以包括以下当中的至少一个类型的存储介质:闪存类型、硬盘类型、多媒体卡微型类型、卡类型存储器(例如,sd或xd存储器)、随机存取存储器(ram)、静态随机存取存储器(sram)、只读存储器(rom)、电可擦可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁存储器、磁盘和光盘。
用户接口350可以接收用于控制电子装置300的用户输入。用户接口350可以包括用户输入设备,该用户输入设备包括但不限于检测用户的触摸的触摸板、接收用户的按压操作的按钮或按钮阵列、接收用户的旋转操作的滚轮、键盘和圆顶开关(domeswitch)。
在本公开的实施例中,用户接口350可以接收触摸输入或按钮输入,其接受由输出器330输出的推荐语句。
现在将详细地描述本公开中使用的语音特征。
在本公开的实施例中,控制器320可以获得与参考值进行比较的第一用户的语音特征作为第一用户特征。
为了执行语音识别或基于语音识别的说话者识别,语音特征可以包括用于将人类声音与非人类声音(例如,噪声,动物声音或人造声音)相区分的特征值。具体地,语音特征可以从被识别为语音的语音信号中提取并且可以通过使用特征向量来表示。具体地,语音特征可以通过使用对于说话者识别很强的、用于说话者识别的特征向量来表示。
例如,电子装置300可以实时接收音频信号。电子装置300可以将所接收的音频信号划分为预定长度的帧单位,并且可以处理被划分为帧单位的音频信号。电子装置300可以从划分为帧单位的音频信号中以帧为单位检测语音信号。音频信号可以是包括说话者的语音信号和噪声信号的信号,并且语音信号可以是与说话者发出的语音相对应的信号。
具体地,电子装置300可以从语音信号中提取对于说话者识别强的、用于说话者识别的特征向量。电子装置300可以通过将基于时域的语音信号转换为基于频域的信号并且修改基于频域的信号的频率能量来提取用于说话者识别的特征向量。
例如,用于说话者识别的特征向量可以是但不限于,梅尔倒频谱系数(mfcc)或滤波器组能量,并且可以以各种方式中的任何从语音信号中提取。
电子装置300可以确定语音信号的说话者是否为登记的说话者。电子装置300可以基于从语音信号中提取的特征信息来生成指示发出语音信号的说话者的说话者信息,并且可以基于所生成的说话者信息来确定发出语音信号的说话者是否为登记的说话者。
这里使用的术语“登记说话者”可以是电子装置300的主要用户。例如,当电子装置300是如图1a至图1d中的智能电话时,智能电话的所有者可以是登记的说话者。电子装置300可以基于用户输入来登记说话者,或者可以将作为登记的说话者的预定说话者存储为默认值。电子装置300可以存储一个说话者作为登记的说话者,或者可以存储多个说话者作为登记的说话者。
在本公开的实施例中,电子装置300可以将特定的说话者的语音特征存储为登记的说话者信息。
可以针对每个预定单位声音提取语音特征。综合地考虑位于相对应的音素之前和之后的音素,预定单位声音可以是单音素、或者音素上下文。另外,考虑位于相对应的音素之前的一个音素和位于相对应的音素之后的一个音素,音素上下文可以是三音素。在下文中,具有预定单位的声音将被称为“单位声音”。即,单位声音可以是单音素、音素上下文或三音素。
另外,语音特征可以通过使用i向量值来表示。具体地,当将从语音信号中提取的声学参数的分布建模为高斯混合模型(gmm)时,通过从连接高斯平均值所形成的gmm超向量减去通用背景模型(ubm)而获得的信息可以表示为i向量与变换矩阵(诸如,总可变性变换矩阵)的乘积。因为ubm是通过使用指示多个各种说话者的语音特征的大数据而获得的值,并且总可变性变换矩阵是根据用于说话者识别的模型(例如,gmm)而确定的值,所以可以通过获得说话者的语音信号来获得i向量。另外,许多方法被用于获得i向量并且对于说话者识别领域的普通技术人员来说是熟知的,因此将不给出其详细说明。
如上所述,一旦获得语音信号,就可以从所获得的语音信号获得i向量,并且可以将i向量表示为根据每个单位声音而变化的值。
在本公开的实施例中,控制器320可以将以预定单位从第一用户的语音信号中提取的多个单位声音中的每个与具有预定单位的参考值进行比较。预定单位可以是单音素或音素上下文。可以通过使用i向量或与i向量相对应的值来表示作为单位声音的语音特征的每个单位声音特征。接下来,控制器320可以基于比较结果,来提取从第一用户的语音信号中提取的并且具有与参考值的低相似度的至少一个单位声音特征作为第一用户特征。可以根据参考值和与参考值相对应的语音特征之间的差异是否等于或大于预定范围来确定与参考值的相似度是否低。另外,可以基于电子装置300的语音识别的可靠性、语音识别性能、语音识别准确性、语音分数和产品规格来确定预定范围。替选地,可以通过以参考值和与参考值相对应的语音特征之间的差异增大的顺序提取预定数量的单位声音,来确定与参考值的相似度是否低。可以在电子装置300或语音识别服务器(未示出)中生成与语音识别率相对应的语音分数,使得语音分数与语音识别率成比例。
将参考图4描述当将单音素用作单位声音时控制器320的比较操作,并且将参考图5描述当音素上下文用作单位声音时控制器320的比较操作。
图4是根据本公开的实施例的用于描述由电子装置300执行的比较操作的视图。
在本公开的实施例中,当电子装置300的主要用户存在时,例如,当电子装置300是智能电话时,登记的说话者可以是单个说话者。在这种情况下,电子装置300可以通过提取登记的说话者的特征来执行说话者识别。因此,当将从讲话的说话者的语音信号中提取的语音特征与对应于多个说话者的语音特征进行比较,并且与多个说话者的语音特征清楚地相区分的、发声的说话者的语音特征被使用时,可以更加容易地执行说话者识别。
在图4中,x轴表示可以从语音信号中提取的多个单位声音,并且y轴表示从语音信号中提取的语音特征的特征值。尽管在图4中将单音素示出为沿x轴的单位声音,但是沿x轴的单位声音可以是音素上下文。
另外,沿y轴的特征值可以是与i向量相对应的值。
图4的曲线图410可以是与一参考值或多个参考值相对应的曲线图。例如,曲线图410可以是示出了普通说话者的语音信号的一般和平均语音特征的曲线图。另外,曲线图410可以是示出使用电子装置300的多个说话者当中、除了发出语音信号的第一用户之外的说话者的语音特征的曲线图。曲线图415是示出使用电子装置300的特定说话者(例如,第一用户)的一个或多个语音特征的曲线图。
一个或多个参考值可以根据是对单个说话者还是对多个说话者执行说话者识别而变化。
首先,将描述与电子装置300对单个说话者执行说话者识别的情况相对应的参考值。
例如,当电子装置300是智能电话时,曲线图415可以是示出从作为智能电话的所有者的第一用户发出的语音信号中提取的语音特征的曲线图。具体地,当电子装置300是主要由单个说话者使用的产品时,电子装置300可以将指示多个用户的平均语音特征的值用作参考值。
具体地,控制器320可以通过使用指示多个用户的平均语音特征的参考值,针对每个单位声音将发出语音信号的第一用户的语音特征与多个用户的平均语音特征进行比较,并且可以提取作为比较的结果的具有较大差异的至少一个单位声音作为第一用户特征。
具体地,当单位声音是音素上下文时,参考值可以是以音素上下文为单位代表多个用户的平均语音特征的值。另外,当单位声音是单音素时,参考值可以是以单音素为单位代表多个用户的平均语音特征的值。
此外,参考值可以在电子装置300中设置,并且可以由电子装置300的制造商、销售商或用户中的至少一个来设置和输入。
具体地,参考值可以根据下述而变化:电子装置300要识别的用户是单个说话者还是多个说话者,并且当用户是多个说话者时,在多个说话者之间是否存在语音特征的相似度。例如,当电子装置300是需要对单个说话者执行说话者识别的电子产品时,参考值可以是指示多个各种说话者的平均语音特征的值。
参考图4,当将示出一般说话者的语音信号的一般和平均语音特征的曲线图410与作为第一用户的语音特征的曲线图415彼此比较时,具有等于或大于预定范围的差异的单位声音可以被提取作为第一用户特征。考虑到电子装置300的准确性、语音识别性能、语音得分等,超过预定范围的差异可以是足够大以识别不同说话者的差异。
例如,当在图4的部分420、430、440和450处参考值与第一用户的语音特征清楚地相区分时,例如,当参考值与第一用户的语音特征之间的差异超过预定范围时,电子装置300的控制器320可以提取部分420、430、430和450中的单位声音,例如d,k,r和w,作为第一个用户特征。
控制器320可以生成推荐语句,使得包括第一用户特征中所包括的单位声音的字母,例如单音素或音素上下文,被包括在推荐语句中。
因此,当将从讲话的说话者的语音信号中提取的语音特征与对应于多个说话者的语音特征进行比较,并且与多个说话者的语音特征清楚地相区分的、讲话的说话者的语音特征被使用时,可以更加容易地执行说话者识别。
接下来,将描述与电子装置300对多个说话者执行说话者识别的情况相对应的参考值和比较操作。
在本公开的实施例中,当存在电子装置300的多个用户时,例如,当电子装置300是家中的数字电视时,登记的说话者可以是在家中一起生活的多个说话者。例如,将被识别为控制数字电视的人们可能是在家中一起生活的家庭成员。
在这种情况下,电子装置300需要在要被识别的多个说话者之间清楚地进行区分。具体地,共同地使用由家庭iot平台可控制的家用电器的用户可以是家庭成员。然而,当家庭成员具有相似的语音特征时,必须区分地识别具有相似的语音特征的多个说话者,从而降低说话者的识别率。例如,当家庭成员包括两个相似年龄的姐妹时,两个姐妹的语音特征可能彼此相似。替选地,当家庭成员包括父亲和成年的儿子时,父亲和成年的儿子的语音特征可能彼此相似。在这种情况下,当执行第一用户的说话者识别时应用的参考值可以是指示具有相似语音特征并且使用电子装置300的另一说话者的语音特征的值。在这种情况下,图4的曲线图410可以示出指示使用电子装置300的另一说话者的语音特征的值。
即,当电子装置300对包括第一用户的多个用户执行说话者识别时,参考值可以是指示从包括在多个用户中的第二用户的语音信号中提取的语音特征的值。优选地,第二用户可以具有与第一用户的语音相似度。下面将参考图1、图12a和图12b详细地描述使用具有语音相似度的另一用户的语音特征的情况。
图5是根据本公开的实施例的用于描述由电子装置300执行的比较操作的曲线图。
在图5中,曲线图510和曲线图520可以分别地对应于曲线图410和曲线图415。因此,当描述图5的元件时,将不重复地描述与图4中的元件相同的元件。
参考图5,x轴表示可以从语音信号中提取的多个单位声音,并且y轴表示从语音信号中提取的语音特征的特征值。虽然,图4示出单音素作为沿x轴的单位声音,图5示出了与音素上下文相对应的状态id作为沿x轴的单位声音。
当电子装置300使用音素上下文而不是单音素作为单位声音时,电子装置300可以识别更加精细的声音种类。因此,电子装置300可以通过使用与音素上下文相对应的语音特征来更加准确地执行语音识别和说话者识别。
具体地,在图5中,x轴可以表示单位声音,每个单位声音具有与音素上下文相对应的状态id单位,并且曲线图510和曲线图520中的y轴可以是i向量值。音素上下文可以是三音素。
在图5中,曲线图530以均方根(rms)示出曲线图510与曲线图520之间的差异,曲线图510示出从第一用户发出的语音信号中提取的语音特征,曲线图520示出示出参考值。在这种情况下,可以获得与其中rms超过预定阈值的部分531、532、533、534和535相对应的音素上下文作为第一用户特征。也就是说,可以获得具有2862、3390、4214、5025和6083的状态id的音素上下文作为第一用户特征。
接下来,控制器320可以生成推荐语句,使得包括在第一用户特征中所包括的音素上下文的字母被包括在推荐语句中。
图6是根据本公开的实施例的用于描述由电子装置620执行的推荐语句输出操作的视图。在图6中,第一用户601可以对应于图1a至图3的第一用户,并且电子装置620可以对应于图3的电子装置300。
控制器320可以生成推荐语句,使得与第一用户特征中所包括的至少一个单位声音相对应的字母被包括在推荐语句中。推荐语句可以是词语,短语或语句。将假设单位声音是诸如“?”或“?”的音素上下文来描述图6的实施例。
例如,当控制器320提取与o、p、s、a和m相对应的单位声音作为第一用户特征时,控制器320可以作为的生成包括o,p,s,a和m的推荐语句“opensesame”,并且可以控制输出所生成的推荐语句。
参考图6,第一用户601可以请求电子装置620生成并且输出推荐语句。这里,图6的电子装置620对应于图3的电子装置300。例如,当第一用户601发出“嗨,bixby,你能推荐语句吗?”610时,电子装置620可以对第一用户601发出的“嗨,bixby,你能推荐语句吗?”610执行语音识别,并且可以执行用于生成所请求的推荐语句的操作。因此,电子装置620可以生成作为推荐语句的“opensesame”22,可以通过在电子装置620内部提供的扬声器(未示出)作为音频信号输出生成的“opensesame”22。
另外,电子装置620可以通过在电子装置620内部提供的显示器(未示出)输出指示推荐语句的文本消息621。
第一用户601可以通过发出推荐语句来登记用于说话者识别的语音信号。
具体地,当第一用户601发出推荐语句时,电子装置300可以接收由第一用户601发出的推荐语句作为登记的语音信号,并且可以通过使用登记的语音信号来执行说话者识别。例如,第一用户601可以发出“opensesame”630,并且电子装置620接收第一用户发出的语音信号,诸如“opensesame”630。具体地,电子装置620可以从登记的语音信号中提取语音特征,并且可以获得登记的语音特征。电子装置620可以将登记的语音特征存储在存储器340中。在接收到登记的语音信号并且完成用户登记之后,当在稍后的时间执行说话者识别时,电子装置620可以通过确定说话者是否与登记的用户匹配来执行说话者识别。
在上面,已经描述了推荐语句生成操作用于说话者登记以将第一用户登记为特定说话者的情况。
推荐语句生成操作还可以用于登记密码短语。具体地,为了设置用于用户认证或访问许可的密码短语,如设置到电子装置620的密码、图案和/或关键字,电子装置620可以执行推荐语句生成操作。例如,当电子装置620是智能电话时,第一用户601可以发出密码短语,而不是输入密码或图案,以便解锁锁定屏幕。电子装置620可以接收由第一用户601发出的密码短语,并且可以在所接收的密码短语与登记的密码短语匹配时解锁锁定屏幕。
如上所述,当推荐语句用于登记密码短语时,电子装置620可以生成用于说话者登记的推荐语句,并且然后可以生成用于密码短语登记的推荐语句。具体地,为了将第一用户601登记为主要用户,电子装置620可以执行说话者登记。因此,电子装置620可以生成用于说话者登记的推荐语句,并且可以将推荐语句提供给第一用户601。当第一用户601的说话者识别完成时,电子装置620可以生成用于密码短语登记的推荐语句,并且然后可以将推荐语句提供给第一用户601。
如参考图1a至图6所描述地,根据本公开的实施例的电子装置200或300可以提取作为第一用户的语音特征的第一用户特征,该第一用户特征可以增加通过使用与使用电子装置200或300的说话者的范围相对应的参考值要识别的用户的辨别力;并且可以基于提取的第一用户特征来生成和输出推荐语句。
根据本公开的实施例,用于更加精确地和准确地区分要识别的说话者的推荐语句可以被生成并且被提供给用户。用户可以通过使用输出的推荐语句来登记用于说话者识别的语音,从而改善电子装置200、300或620的说话者识别性能并且改善说话者识别准确性。
图7是根据本公开的实施例的处理语音信号的方法700的流程图。根据图7中示出的根据本公开的实施例的方法700可以包括由参考图1a至图6描述的电子装置100、200或300执行的操作。因此,方法700可以具有与图1a至图6的电子装置100、200或300的技术精神相同的技术精神。因此,当描述方法700时,将不给出对先前描述的方面的重复说明。
将假设方法700包括由图3的电子装置300执行的操作来描述下述。
参考图7,方法700是用于在电子装置300中执行说话者识别的方法。本文中使用的术语“说话者识别”可以被解释为包括以下两者:(i)用于说话者登记的语音识别和(ii)被执行以确定发出语音信号的说话者是否为登记的用户的说话者识别。
在操作s710中,获得第一用户的语音信号。操作s710可以在控制器320的控制下由接收器310执行。替选地,可以通过可以与电子装置300相关联地操作的外部电子装置(未示出),例如可穿戴设备或外部麦克风,来执行操作s710。
在操作s720中,将从语音信号中提取的语音特征与参考值进行比较,以获得对应于与参考值进行比较的第一用户的语音特征的第一用户特征。操作s720可以由控制器320执行。
具体地,可以从在操作s710中获得的第一用户的语音信号中提取语音特征。可以针对每个单位声音提取语音特征。单位声音可以是单音素、音素上下文或三音素。具体地,可以提取与第一用户发出的语音信号中所包括的多个单位声音相对应的多个语音特征。可以将分别地与多个单位声音相对应的多个语音特征与分别地与多个单位声音相对应的多个参考值进行比较,并且基于比较结果、具有与参考值的大的差异的语音特征可以被提取为第一用户特征。已经参考参考图4和图5描述了提取具有与参考值的大的差异的语音特征作为第一用户特征的操作,并且因此,将不给出其详细说明。
在操作s730中,基于在操作s720中获得的第一用户特征来生成用于说话者识别的推荐语句。操作s730可以由控制器320执行。具体地,可以生成推荐语句以包括在操作s720中获得的第一用户特征中所包括的至少一个单位声音。如图6所示,第一用户特征可以包括o、p、s、a和m。因此,在操作s730中,可以生成包括o、p、s、a和m的“opensesame”作为推荐语句。
在操作s740中,输出在操作s730中生成的推荐语句。操作s740可以由输出器330执行。具体地,操作s740可以在控制器320的控制下由输出器330执行。图8是根据本公开另一实施例的处理语音信号的方法的流程图。
图9是根据本公开实施例的用于描述通过处理语音信号的方法及其电子装置执行的用于单个说话者识别的操作的图。
例如,当电子装置300是主要由一个特定用户(例如,电子装置300的所有者)使用的产品(例如,智能电话、可穿戴设备、智能扬声器、pc或平板型pc)时,需要通过使用电子装置300的所有者(即,特定用户)的语音来执行说话者识别操作。在这种情况下,用于获得第一用户特征的参考值可以是与多个用户的平均语音特征相对应的值。
将参考图8和图9描述用于特定用户而不是多个用户的说话者识别的方法和装置。
参考图8,根据本公开的实施例的处理语音信号的方法800中包括的操作s810、s830和s840分别地对应于图7的方法700中包括的操作s710、s730和s740。因此,当描述方法800时,将不给出重复的说明。操作s815和s820可以对应于操作s720,将对其进行详细描述。
图9示出了执行用于说话者识别的操作的功能块。具体地,块920中的操作是由电子装置300或语音识别服务器(未示出)中的至少一个执行的用于说话者识别的操作。与图9的功能块相对应的操作可以由一个物理芯片、模块或处理器执行。替选地,与图9的功能块相对应的操作可以由多个芯片、模块或处理器执行。将假设图9的块920包括在电子装置300的控制器320中来描述下述。
参考图8和图9,在操作s810中,获得第一用户的语音信号901。基本语音和环境噪声可以被包括在第一用户的语音信号901中。因此,控制器320通过对语音信号901的噪声进行滤波来去除语音信号901中包括的环境噪声,以获得第一用户的纯语音信号。“环境噪声”可以包括在其中说话者发声的环境中可以生成的所有噪声信号,并且可以被称为“噪声信号”。具体地,噪声信号可以是例如风声、其他说话者的发声、以及在其中说话者发声的环境中生成的机械声。
在操作s815中,将从第一用户的语音信号中提取的语音特征与参考值进行比较。具体地,在块操作910中,控制器320从第一用户的语音信号中提取语音特征。参考值是与多个用户的平均语音特征相对应的值。另外,参考值可以是与每个单位声音相对应的值,并且可以存在分别地与多个单位声音相对应的多个参考值。具体地,当每个单位声音是音素上下文时,参考值可以是以音素上下文为单位代表多个用户的平均语音特征的值。另外,当每个单位声音是单音素时,参考值可以是以单音素为单位表示多个用户的平均语音特征的值。
接下来,在操作s820中,获得对应于与参考值进行比较的与第一用户的语音特征的第一用户特征。如参考图4和图5所描述地,可以基于参考值与第一用户的语音特征之间的差异来确定与参考值进行比较的第一用户的语音特征。
在操作s830中,控制器320基于第一用户特征来生成推荐语句。具体地,在块操作920中,可以生成推荐语句以包括在操作s820中获得的第一用户特征中所包括的至少一个单位声音。
在操作s840中,控制器320可以控制所生成的推荐语句经由显示器或扬声器作为视觉或听觉信息输出。替选地,控制器可以控制所生成的推荐语句经由显示器和扬声器作为视觉和听觉信息两者输出。因此,电子装置300可以将推荐语句提供给第一用户。
接下来,当第一用户发出推荐语句时,可以接收作为与第一用户发出的推荐语句相对应的语音信号的登记的语音信号,并且可以通过使用登记的语音信号来执行说话者识别(操作未示出)。具体地,接收器310可以接收登记的语音信号,并且可以将所接收的登记的语音信号发送到控制器320。控制器320可以从登记的语音信号中提取语音特征,并且可以将提取的语音特征存储为第一用户的登记的特征。当在稍后的时间第一用户发出登记的语音信号以用于用户认证或语音控制时,说话者标识引擎930(参见图9)可以对登记的语音信号执行语音识别。
具体地,说话者标识引擎930可以基于第一用户的登记的特征与从所接收的语音中提取的语音特征之间的相似度来标识发出语音信号的说话者是否为第一用户。相似度可以根据说话者识别准确性、说话者识别的可靠性、语音分数和产品规格而变化。例如,当考虑到语音识别性能,相似度等于或大于95%时,电子装置300可以确定发出语音信号的说话者是第一用户。
控制器320可以输出说话者标识引擎930的说话者标识结果940。例如,当执行说话者识别操作以用于用户认证时,控制器320可以控制扬声器或显示器将表明“说话者与登记的用户匹配”的消息传达为被输出为语音或图像,使得用户知道说话者认证结果。替选地,当执行说话者标识操作以执行预定应用时,控制器320可以根据说话者标识结果940来确定是否执行预定应用。具体地,当发出语音的说话者是登记的用户时,控制器320可以授权许可执行预定应用;而当发出语音的说话者不是登记的用户时,控制器320可以拒绝许可执行预定应用。
另外,根据本公开的实施例的方法700或800可以进一步包括基于环境噪声来标识发出语音的说话者是否为登记的用户的操作(未示出)。
具体地,在块操作950中,控制器320可以基于环境噪声来调节说话者标识引擎930。另外,说话者标识引擎930可以包括说话者识别模型,该说话者识别模型基于所接收的语音信号的语音特征来执行说话者识别。说话者识别模型可以基于将所接收的语音信号的语音特征与参考值(或阈值)进行比较之后获得的结果,来确定所识别的说话者是否正确。另外,根据识别出的说话者是否正确,控制器320可以根据说话者标识结果940确定是否执行预定应用。
由控制器320的接收器310接收的环境噪声被称为“噪声信号”。具体地,控制器320可以提取噪声信号的信号特征。控制器320可以基于噪声信号的信号特征,调整被应用于执行说话者识别的参考值(或阈值)或者被应用于第一用户的语音信号中包括的预定单位声音的权重值中的至少一个。
具体地,说话者标识引擎930的调整可以通过以下中的至少一个来执行:操作(i),调整说话者标识引擎930所使用的参考值(或阈值);或操作(ii),调整被应用于与参考值进行比较的第一用户的语音信号中包括的预定单位声音的权重值。
参考值是用于确定所接收的语音信号是否为登记的用户的语音信号的基础。即,作为确定所接收的语音信号是否具有登记的说话者的语音特征的基础的参考值也可以被称为阈值。当所接收的语音信号的特征值等于或大于参考值时,控制器320可以确定与所接收的语音信号相对应的说话者与登记的说话者相同。具体地,可以针对每个单位声音执行语音信号的特征值与参考值之间的比较操作。
控制器320可以分析环境噪声,并且可以基于分析的环境噪声的噪声特征来调整用于确定发出语音的说话者是否为登记的用户的参考值(或阈值)。具体地,控制器320可以获得噪声信号的语音特征,并且可以基于噪声特征来增大或减小包括在说话者标识引擎930中的说话者识别模型中的参考值。例如,控制器320可以增加或减少参考值,使得所接收的语音信号不被噪声信号掩盖。
另外,控制器320可以分析环境噪声,并且可以基于分析的环境噪声的噪声特征来调整要应用于从发声的说话者的语音信号中提取的语音特征的权重值。控制器320可以将调整的权重值应用于从发声的说话者的语音信号中提取的语音特征,可以将应用了权重值的语音特征与参考值进行比较,以及可以确定发出语音的说话者是否为登记的用户。
例如,说话者识别可以在车辆中执行。在车辆中,可能存在诸如车辆引擎声音或导航引导声音的噪声。在这种环境下,电子设备30可以执行说话者识别以操纵车辆中的预定菜单。车辆中生成的噪声可以是具有高信噪比(snr)和低频率的常规噪声(例如,车辆引擎声音)。因此,控制器320可以减小参考值,并且可以将权重值应用于与所接收的语音信号中的塞擦音(affricatesound)和摩擦音(frictionalsound)相对应的语音特征。具体地,可以将超过1的权重值应用于与所接收的语音信号中的塞擦音和摩擦音相对应的语音特征,并且可以将应用了权重值的语音特征与参考值进行比较。塞擦音和摩擦音可以是未被车辆中生成的噪声掩盖的单位声音,即,与车辆中生成的噪声相区分的单位声音。
作为另一示例,可以在安静的起居室环境中执行说话者识别。因为在安静的起居室环境中不生成噪声,所以控制器320可以增加参考值。控制器320可以将增加的参考值与所接收的语音信号的语音特征进行比较。
作为另一示例,说话者识别可以在具有不规则噪声的环境中执行,该不规则的噪声具有诸如厨房的金属声或餐具碰撞声的高频率。在这种环境下,控制器320可以减小与整体单位声音相对应的参考值。控制器320可以将权重值应用于作为与厨房中生成的噪声相区分的单位声音的浊音和元音的语音特征。具体地,控制器320可以将超过1的权重值应用于与浊音和元音相对应的语音特征,并且可以将应用了权重值的语音特征与参考值进行比较。
作为另一示例,可以在诸如咖啡馆的许多人谈话的环境中执行说话者识别。除了要识别的说话者以外的人的语音可以被认为是噪声。在这种环境下,存在来自除了说话者以外的人的大量背景噪声。因此,控制器320可以减小与整体单位声音相对应的参考值。另外,控制器320可以不调整权重值。因此,控制器320可以针对每个单位声音将减小的参考值与所接收的语音信号的语音特征进行比较。
如上所述,可以基于在其中执行说话者识别的环境中生成的噪声的特征来调整说话者标识引擎930,并且可以通过使用调整的说话者标识引擎930来执行说话者识别操作。
因此,根据本公开的实施例的电子装置300可以在任何噪声环境中准确地执行说话者标识操作。
当存在共享预定电子装置的多个用户时,将参考图10和图11详细地描述由电子装置执行的说话者识别操作。
图10是根据本公开的另一实施例的处理语音信号的方法的流程图。
图11是根据本公开的实施例的用于描述通过处理语音信号的方法及其电子装置所执行的用于多个说话者识别的操作的图。
例如,在家庭中一起生活的多个用户(例如,家庭成员或室友)可以共同地使用预定电子装置,诸如电视、电冰箱或洗衣机。在这种情况下,登记到预定电子装置的说话者可以是所有家庭成员。因此,预定电子装置必须登记和识别每个家庭成员,并且必须通过将作为多个家庭成员当中的一个用户的第一用户与其他用户相区分来执行说话者登记和识别。在这种情况下,用于获得第一用户特征的参考值可以是与家庭成员当中的至少一个用户的语音特征相对应的值,或者是与家庭成员的平均语音特征相对应的值。
参考图10,根据本公开的实施例的处理语音信号的方法1000中包括的操作s1010、s1030和s1040分别地对应于图7的方法700中包括的操作s710、s730和s740。因此,当描述方法1000时,将不给出重复的说明。操作s1015和s1020可以对应于操作s720,将对其进行详细描述。另外,尽管参考图9描述的根据环境噪声来调整说话者标识引擎的操作(或步骤)未被包括在图10的方法1000中,但是参考图9描述的根据环境噪声来调整说话者标识引擎的操作可以在方法1000的操作s1040之后额外地执行。
图11示出了执行用于说话者识别的操作的功能块。具体地,图11中所示的块操作1110、1155、1140、1150和1160是通过电子装置300或语音识别服务器(未示出)中的至少一个针对说话者识别而执行的操作。具体地,块操作1110、1155、1140、1150和1160可以由电子装置300的控制器320执行。
与图11的功能块相对应的操作可以由一个物理芯片、模块或处理器执行。替选地,与图11的功能块相对应的操作可以由多个芯片、模块或处理器执行。
将假设电子装置300的控制器320执行图11的块操作来描述下述。
当在家庭中一起生活的家庭成员共同地使用电子装置(例如,电视)时,可以执行说话者登记和说话者识别以控制或使用该电子装置。例如,当家庭成员包括父亲、母亲、年长的女儿和年幼的女儿时,作为电子装置的电视必须登记并且识别父亲、母亲、年长的女儿和年幼的女儿中的所有人。两姐妹(即,年长的女儿和年幼的女儿)之间的语音相似度可能高。通常,当语音相似度高时,可能难以准确地、相区分地识别说话者。在图10和图11的实施例中,可以执行操作s1050以通过准确地区分具有高语音相似度的多个说话者来登记和识别说话者。
参考图10和图11,在操作s1010中,获得第一用户的语音信号。“第一用户”可以对应于图11中所示的“第一发声者”。
在操作s1015中,将从第一用户的语音信号中提取的语音特征与参考值进行比较。
当电子装置300由包括第一用户的多个用户共同地使用时,参考值可以是指示从包括在多个用户中的第二用户的语音信号中提取的语音特征的值。具体地,当电子装置300对包括第一用户的多个用户执行说话者登记和说话者识别时,参考值可以对应于指示从包括在多个用户中的第二用户的语音信号中提取的语音特征的值。另外,在以上示例中,要由电子装置300识别的多个用户可以是家庭成员。家庭成员中包括的第一用户和第二用户可以具有语音相似度。
另外,参考值可以是与共同地使用电子装置300的多个用户当中的第一用户以外的用户的平均语音特征相对应的值。另外,参考值可以是与共同地使用电子装置300的多个用户之中的具有语音相似度的至少两个或更多个用户的平均语音特征相对应的值。例如,家庭成员当中,母亲和两个女儿(年长的女儿和年幼的小女儿)的口音、讲话方式或嗓音中的至少一个可能相似。在这种情况下,母亲和两个女儿(年长的女儿和年幼的女儿)之间可能存在语音相似度。在以上示例中,当年长的女儿是第一用户时,参考值可以是与母亲和年幼的女儿的平均语音特征相对应的值。
另外,第二用户可以是作为说话者已经被登记到电子装置300的用户。具体地,电子装置300可以登记使用电子装置300的多个用户之一的第二用户,并且然后可以对第一用户执行说话者登记。可以通过使用已经被登记为说话者的第二用户的语音特征值来提取第一用户的说话者登记所需的语音特征值。
接下来,在操作s1020中,获得作为第一用户的语音特征的第一用户特征。如参考图4和图5所描述地,可以基于参考值与第一用户的语音特征之间的差异来确定与参考值进行比较的第一用户的语音特征。具体地,控制器320可以将从第一用户的语音信号中提取的音素上下文单位的语音特征与从第二用户的语音信号中提取的音素上下文单位的语音特征进行比较,并且可以提取作为比较的结果其第一用户的语音特征与第二用户的语音特征之间的差异超过预定范围的至少一个音素上下文来作为第一用户特征。
在操作s1030中,控制器320基于在操作s1020中获得的第一用户特征来生成推荐语句。具体地,控制器320可以生成推荐语句以包括在操作s1020中获得的第一用户特征中所包括的至少一个单位声音。
在操作s1040中,控制器320可以控制所生成的推荐语句被输出为视觉或听觉信息。因此,电子装置300可以将推荐语句提供给第一用户。
接下来,当第一用户发出推荐语句时,可以接收作为与第一用户发出的推荐语句相对应的语音信号的登记的语音信号,以及可以通过使用登记的语音信号来执行说话者识别。
另外,可以进一步执行操作s1050以增加说话者识别率。
具体地,在操作s1050中,当在第一用户的语音特征和第二用户的语音特征之间存在相似度时,可以控制增加识别第一用户的语音和第二用户的语音的辨别力。
具体地,当第一用户的语音特征与第二用户的语音特征之间存在相似度时,为了增加识别第一用户的语音和第二用户的语音的辨别力,可以修改以下中的至少一个:第一用户的语音特征、第二用户的语音特征、作为用于识别第一用户的语音信号的模型的“第一发声者特征模型”或作为用于识别第二用户的语音信号的模型的“第二发声者特征模型”。接下来,可以通过使用修改的以下中的至少一个来执行说话者识别:第一用户的语音特征、第二用户的语音特征、作为用于识别第一用户的语音信号的模型的“第一发声者特征模型”或作为用于识别第二用户的语音信号的模型的“第二发声者特征模型”。
具体地,参考图11,说话者标识引擎1110可以对应于图9的说话者标识引擎930。
说话者标识引擎1110可以接收多个用户中的每个的语音。多个用户可以包括“第一发声者”和“第二发声者”,并且第一发声者和第二发声者可以分别地对应于第一用户和第二用户。说话者标识引擎1110可以提取作为第一发声者的第一用户的语音特征,并且可以提取作为第二发声者的第二用户的语音特征。说话者标识引擎1110可以基于第一发声者的语音特征来生成第一发声者的特征模型。说话者标识引擎1110可以基于第二发声者的语音特征来生成第二发声者的特征模型。具体地,说话者标识引擎1110可以主要生成主要第一发声者特征模型1120和主要第二发声者特征模型1130。主要第一发声者特征模型1120和主要第二发声者特征模型1130可以是基于未修改的第一发声者的语音特征和第二发声者的语音特征而生成的模型。
接下来,在块操作1140中,基于第一发声者的语音特征和第二发声者的语音特征来测量第一发声者和第二发声者之间的语音相似度。
图12a是根据本公开的另一实施例的用于描述通过处理语音信号的方法及其电子装置执行的用于多个说话者识别的操作的曲线图。在图12a中,单位声音是诸如a、b、c或d的单音素,但是该操作也可以用多音素来执行。
参考图12a,曲线图1210示出第一发声者的语音特征,并且曲线图1215示出第二发声者的语音特征。例如,在共同地使用电子装置300的家庭成员当中,第一发声者可以是年长的女儿,而第二发声者可以是年幼的女儿。
可以基于与要彼此比较的多个发声者相对应的多个语音特征之间的差异来确定语音相似度。具体地,当作为要彼此比较的多个发声者的第一发声者和第二发声者的语音特征之间的差等于或小于预定阈值时,可以确定在第一发声者和第二发声者之间存在语音相似度。
参考图12a的部分1220,存在单位声音h、g、h、l、j和k,其在曲线图1210中的第一发声者的语音特征与在曲线图1215中的第二发声者的语音特征之间的差异等于或大于预定范围。可以基于其在曲线图1210中的第一发声者的语音特征与在曲线图1215中的第二发声者的语音特征之间的差异等于或大于预定范围的单位声音的数量、每个差异的特定值或差异的总和来确定是否存在语音相似度。另外,当基于曲线图1210中的第一发声者的语音特征和曲线图1215中的第二发声者的语音特征来执行说话者识别时,可以基于语音识别的错误概率、语音识别准确性等来确定是否存在语音相似度。
替选地,当基于语音特征生成用于对发声者进行分类的大的说话者组模型时,可以根据在大的说话者组模型中的相同组中是否包括发声者来确定语音相似度。此外,可以基于大的说话者组模型中发声者之间的距离来确定语音相似度。将参考图12b详细地描述大的说话者组模型。
将假设基于大的说话者组模型确定说话者之间的语音相似度来描述下述。具体地,将在基于在大的说话者组模型中说话者之间的距离确定说话者之间的语音相似度的假设下来描述下述。
图12b是用于描述具有相似度的多个说话者者之间的语音特征的视图。图11的“第一发声者”和“第二发声者”对应于图12b的“第二说话者”和“第三说话者”。
参考图12b,可以多维地表示大的说话者组模型1230。大的说话者组模型1230的维度可以是指示说话者的语音特征的特征值的维度。例如,当i向量用作指示说话者的语音特征的特征值时,大的说话者组模型1230的维度可以与i向量的维度相同。例如,当i向量被三维地表示时,大的说话者组模型1230可以被三维地表示。
在图12b中,大的说话者组模型1230表示在具有x轴和y轴的二维空间中。
参考图12b,示出了包括多个用户(例如,共同地使用电子装置300的家庭成员1240)的大的说话者组模型1230。例如,家庭成员1240可以包括父亲(第一说话者)、母亲(第二说话者)、年长的女儿(第三说话者)和年幼的女儿(第四说话者)。
大的说话者组模型1230基于说话者的语音特征对包括相似语音特征的说话者进行分组。具体地,包括在大的说话者组模型1230中的单元1211、1212和1213可以分类具有相似语音特征的说话者。具体地,年长的女儿(第二说话者)和年幼的女儿(第三说话者)可以被包括在大的说话者组模型1230的相同单元1212中,并且因此可以确定年长的女儿(第二说话者)和年幼的女儿(第三说话者)具有语音相似度。另外,第一说话者和第四说话者被包括在不同的单元中,并且因此可以确定第一说话者和第四说话者不具有语音相似度。
一旦确定存在语音相似度,控制器320就可以修改说话者的特征模型,以通过辨别力增强模块1150来增加具有语音相似度的多个说话者之间的语音辨别力。因此,控制器320可以将主要第一发声者特征模型1120修改为辅助第一发声者特征模型1165,并且将主要第二发声者特征模型1130修改为辅助第二发声者特征模型1170。具体地,辨别力增强模块1150可以通过使用大的说话者组模型1157将主要第一发声者特征模型1120修改为辅助第一发声者特征模型1165,并且将主要第二发声者特征模型1130修改为辅助第二发声者特征模型1170。大的说话者组模型1157可以被生成和/或被存储在电子装置300中。
替选地,大的说话者组模型1157可以存储在通过有线/无线通信网络连接到电子装置300的服务器或外部装置中。在这种情况下,电子装置300可以通过有线/无线通信网络访问大的说话者组模型1157。
将参考图13详细地描述基于大的说话者组模型1157的特征模型的修改。
图13是根据本公开实施例的用于描述在具有相似度的多个说话者之间增加语音辨别力的操作的视图。在图13和图12b中,相同的元件由相同的附图标记表示。
参考图13,框1310是其中包括第二说话者和第三说话者的单元1212的放大视图,并且第二说话者可以对应于单元1212中的点1315,并且第三说话者可以对应于单元1212中的点1316。
在大的说话者组模型中,可以确定随着说话者之间的距离增加,说话者之间的语音相似度减小。另外,可以确定随着说话者之间的距离减小,说话者之间的语音相似度增加。在下文中,可以确定当大的说话者组模型中的说话者之间的距离等于或小于预定阈值时,在说话者之间存在语音相似度。具体地,参考单元1212,因为分别地对应于第二说话者和第三说话者的点1315和点1316之间的距离等于或小于预定阈值,所以可以确定第二说话者和第三说话者之间存在语音相似度。
因为第二说话者和第三说话者之间存在语音相似度,所以控制器320可以修改第二说话者和第三说话者的特征模型或语音特征中的至少一个,使得分别地对应于第二说话者和第三说话者的点1315和点1316之间的距离等于或大于预定阈值,并且因此,确定第二说话者和第三说话者之间不存在语音相似度。
具体地,辨别力增强模块1150可以修改第二说话者和第三说话者的特征模型或语音特征值中的至少一个,使得分别地对应于第二说话者和第三说话者的点1315和点1316之间的距离等于或大于预定阈值,以成为分别地对应于第二说话者和第三说话者的点1335和点1336之间的距离1331。可能存在许多修改特征模型和语音特征值的方法。例如,可以通过将对语音特征值设置权重值并且将权重值乘以原始语音特征值来调整语音特征值。替选地,当提取与说话者的语音相对应的特征模型时,可以通过排除与具有最高语音相似度的至少一个单位声音相对应的语音特征来调整特征模型。替选地,通过改变指示语音特征的i向量的参考轴(例如,x轴和/或y轴)的位置,可以在大的说话者组模型的不同单元中包括两个说话者。
由于辨别力增强模块1150的辨别力增加操作,分别地对应于第二说话者和第三说话者的点1335和点1336之间的距离1331大于调整之前的点1315和点1316之间的距离。因此,可以确定在第二说话者和第三说话者之间不存在语音相似度。
辅助第一发声者特征模型1165可以对应于与第二说话者(年长的女儿)的调整的语音特征相对应的点1335,并且辅助第二发声者特征模型1170可以对应于与第三说话者(年幼的女儿)的调整的语音特征相对应的点1336。当稍后对年长的女儿或年幼的女儿执行说话者识别时,可以通过使用调整的特征模型执行说话者识别来提高说话者识别准确性。
图14是根据本公开的另一实施例的处理语音信号的方法的流程图。图14的方法1400的操作s1410、s1420、s1430和s1440分别地对应于图7的操作s710、s720、s730和s740,并且因此将不给出重复的说明。
参考图14,在操作s1410中,获得第一用户的语音信号。
在操作s1420中,将从第一用户的语音信号中提取的语音特征与参考值进行比较,以获得对应于与参考值进行比较的第一用户的语音特征的第一用户特征。
接下来,在操作s1430中,基于在操作s1420中获得的第一用户特征来生成用于说话者识别的推荐语句。
在操作s1440中,输出在操作s1430中生成的推荐语句。
接下来,在操作s1450中,当第一用户发出推荐语句时,可以接收作为与第一用户发出的推荐语句相对应的语音信号的登记的语音信号。
在操作s1450中接收的语音信号中可以包括噪声信号和纯语音信号。作为除了第一用户的语音以外的任何音频信号的并且在其中第一用户发声的环境中生成的“噪声信号”可以包括环境噪声。
在操作s1460中,可以基于第一用户的语音特征和噪声信号的语音特征来调整被应用于执行说话者识别的阈值或权重值中的至少一个。操作s1460可以由控制器320执行并且对应于基于图9的环境噪声的块操作950,因此将不给出其详细说明。
接下来,在操作s1470中,可以基于在操作s1460中调整的值来执行说话者识别。操作s1470可以由控制器320执行。具体地,操作s1460可以由图9的说话者标识引擎930执行。具体地,可以基于在执行说话者识别的环境中生成的噪声的特征来调整说话者标识引擎930,并且可以通过使用调整的说话者标识引擎930来执行说话者识别操作。
根据本公开的实施例的处理语音信号以用于说话者识别的方法及其电子装置可以改善说话者识别准确性。
具体地,根据本公开的实施例的处理语音信号以用于说话者识别的方法及其电子装置当在对具有相似语音特征的多个说话者执行说话者识别时,可以基于多个说话者当中的一个说话者发出的语音来改善说话者识别性能。
另外,根据本公开的实施例的处理语音信号以用于说话者识别的方法及其电子装置可以提高由于针对说话者识别接收语音信号时生成的噪声信号导致的说话者识别率,例如说话者识别准确性。
具体地,根据本公开的实施例的处理语音信号以用于说话者识别的方法及其电子装置可以通过下述来改善说话者识别性能:适应地响应在其中执行说话者识别的操作环境和噪声环境中的改变。
本公开的实施例可以被实施为包括计算机可执行指令(诸如由计算机执行的程序模块)的记录介质。记录介质可以是非暂时性的。具体地,记录介质可以是存储程序的记录介质,该程序包括用于执行根据本公开实施例的处理语音信号的方法的指令。
计算机可读记录介质可以是可由计算机访问的任意可用介质,并且其示例包括所有易失性和非易失性介质以及可分离和不可分离的介质。此外,计算机可读记录介质的示例可以包括计算机存储介质和通信介质。计算机存储介质的示例包括所有易失性和非易失性介质以及可分离和不可分离的介质,其已经通过任意方法或技术实施,以用于存储诸如计算机可读指令、数据结构、程序模块和其他数据的信息。通信介质通常包括计算机可读指令、数据结构、程序模块、调制数据信号的其他数据或另一种传输机制,并且其示例包括任意信息传输介质。另外,本公开的实施例可以被实施为计算机程序或包括由计算机可执行的指令(诸如,由计算机执行的计算机程序)的计算机程序产品。
本文中示出和描述的特定实施方式是本公开的说明性示例,并且不意图以任何方式另外地限制本公开的范围。为了简洁起见,可以不详细描述根据现有技术的电子配置、控制系统、软件开发以及系统的其他功能方面。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除