语音输入装置、语音输入方法及记录介质与流程

2021-01-28 16:01:16|

290|

起点商标网

本公开涉及语音输入装置、语音输入方法及记录介质。

背景技术：

例如在专利文献1中公开了一种语音识别装置，具备：语音输入开始操作机构，通过用户的操作使得能够进行语音输入操作；语音输入机构，取得用户的语音；发言开始时间学习数据保持机构，保持学习了从用户通过语音输入开始操作机构进行操作的时刻直到用户实际开始发言为止的时间而得到的发言开始学习时间；以及语音识别机构，对计测时间与来自发言开始时间学习数据保持机构的发言开始学习时间进行比较，判定进行了时间计测的语音是否是用户的输入语音，在是用户的输入语音时进行语音识别。

根据该语音识别装置，通过按每个用户进行学习，并使用学习的发言开始时间，能够识别语音是否是用户的。

在先技术文献

专利文献

专利文献1：日本特开2006－313261号公报

技术实现要素：

发明所要解决的课题

但是，在专利文献1所公开的技术中，需要预先学习从用户进行语音输入装置的操作的时刻直到用户实际开始发言为止的期间。因此，在以往的语音识别装置中，由于学习引起的计算量有可能增大。

于是，本公开的目的在于，提供能够通过简易的处理来识别说话者从而抑制计算量的增大的语音输入装置、语音输入方法及记录介质。

用于解决课题的手段

本公开的一个方式所涉及的语音输入装置具备：取得部，取得1个以上的说话者发言时的各个语音；存储部，存储所述取得部所取得的所述1个以上的说话者的发言的所述各个语音；触发输入部，被输入触发；发言开始检测部，在所述触发输入部每次被输入所述触发时，根据所述存储部中存储的所述各个语音检测开始发言的开始位置；以及说话者识别部，至少基于所述触发输入部被输入所述触发的第1时刻、以及所述发言开始检测部根据所述各个语音检测出的发言的开始位置的第2时刻，从所述1个以上的说话者之中识别某一个说话者。

此外，这些之中的一部分的具体的方式也可以使用系统、方法、集成电路、计算机程序或者计算机可读取的cd－rom等记录介质实现，也可以使用系统、方法、集成电路、计算机程序及记录介质的任意组合实现。

发明效果

根据本公开的语音输入装置等，能够通过简易的处理来识别说话者从而抑制计算量的增大。

附图说明

图1是表示实施方式中的说话者识别装置的外观、以及基于说话者的发言的说话者识别装置的使用场面的一例的图。

图2a是表示实施方式中的说话者识别装置的一例的框图。

图2b是表示实施方式中的其他的说话者识别装置的一例的框图。

图3是表示在第1说话者发言了的情况下的说话者识别装置的动作的流程图。

图4是对第1说话者发言的情况和第2说话者发言的情况下的发言的每个语音的第1时刻和第2时刻的时序进行例示的图。

图5是表示在第2说话者发言了的情况下的说话者识别装置的动作的流程图。

图6是表示实施方式中的说话者识别装置的说话者识别部中的动作的流程图。

附图标记说明：

1说话者识别装置(语音输入装置)

21取得部

22存储部

23触发输入部

24发言开始检测部

25发言时机登记部

26说话者识别部

具体实施方式

由此，例如根据检测到由1个以上的说话者之中的说话者进行的触发的第1时刻、与说话者发言的语音的第2时刻之间的时间上的前后关系，能够从1个以上的说话者之中识别某一个说话者。也就是说，即使不对从第1时刻直到第2时刻的期间进行学习，也能够识别取得部所取得的语音的说话者是1个以上的说话者之中的哪一个说话者。

因此，根据该语音输入装置，能够通过简易的处理来识别说话者从而抑制计算量的增大。

特别是，语音输入装置能够基于发言相对于第1时刻的时机来识别语音的说话者。因此，根据语音输入装置，能够通过简单的操作识别语音的说话者。另外，由于语音输入装置的操作变得简单，能够抑制在语音输入装置上配置多个按钮等的语音输入装置的复杂化。因此，根据该语音输入装置，例如在触发输入部是按钮的情况下，即使是1个按钮也能够识别是1个以上的说话者之中的哪一个说话者，因此能够使语音输入装置的构成更为简易。

本公开的其他方式所涉及的语音输入方法包含：取得1个以上的说话者发言时的各个语音；将所取得的所述1个以上的说话者的发言的所述各个语音存储至存储部；被输入触发；在所述触发每次被输入时，根据所述存储部中存储的所述各个语音检测开始发言的开始位置；以及至少基于所述触发被输入的第1时刻、以及根据所述各个语音检测出的发言的开始位置的第2时刻，从所述1个以上的说话者之中识别某一个说话者。

在该语音输入方法中，也具有与上述的语音输入装置同样的作用效果。

另外，本公开的其他方式所涉及的记录介质是记录了用于使计算机执行语音输入方法的程序的计算机可读取的非易失性的记录介质。

在该记录介质中，也具有与上述的语音输入装置同样的作用效果。

本公开的其他方式所涉及的语音输入装置具备：发言时机登记部，至少对所述第1时刻与所述第2时刻中的哪一个时刻是靠前的时间进行登记，所述说话者识别部基于所述第1时刻、所述第2时刻、以及所述发言时机登记部表示所述第2时刻相对于所述第1时刻的时机的多个登记信息，从所述1个以上的说话者之中识别某一个说话者。

由此，作为1个以上的说话者所期望的条件，能够预先登记第1时刻与第2时刻的时间上的前后关系。因此，说话者识别部仅通过判定第1时刻及第2时刻的时间上的前后关系是否在登记信息中被示出，就能够从1个以上的说话者之中识别某一个说话者。结果，根据该语音输入装置，能够通过简易的处理更切实地识别说话者。

在本公开的其他方式所涉及的语音输入装置中，所述发言时机登记部在对所述1个以上的说话者的各个发言的时机进行登记时，登记第1登记信息，该第1登记信息是将第1时间信息与所述1个以上的说话者之中的某一个说话者建立了关联的登记信息，所述第1时间信息表示与所述触发输入部被输入所述触发的所述第1时刻相比，开始发言的开始位置的所述第2时刻是更靠后的时间，登记第2登记信息，该第2登记信息是将第2时间信息与所述1个以上的说话者之中的其他的某一个说话者建立了关联的登记信息，所述第2时间信息表示与所述触发输入部被输入所述触发的所述第1时刻相比，开始发言的开始位置的所述第2时刻是更靠前的时间。

由此，说话者能够登记在开始发言前输入触发这样的条件，或者登记在开始了发言之后输入触发这样的条件。像这样，如果说话者预先登记了条件，则语音输入装置不进行学习就能够简易而且切实地识别说话者。

在本公开的其他方式所涉及的语音输入装置中，所述说话者识别部计算所述第2时刻相对于所述第1时刻的时机，将计算出的表示时机的结果与所述多个登记信息对照，在与所述第1时刻相比所述第2时刻是更靠后的时间的情况下，判定为发言的说话者是第1说话者，在与所述第1时刻相比所述第2时刻是更靠前的时间的情况下，判定为发言的说话者是与所述第1说话者不同的第2说话者。

由此，说话者识别部根据触发输入部被输入的第1时刻、以及发言开始检测部所检测的第2时刻，能够计算第2时刻相对于第1时刻的时机。由此，说话者识别部能够计算第1时刻是比第2时刻更靠前的时间还是更靠后的时间这样的表示时机的结果。结果，说话者识别部通过对计算出的表示时机的结果与多个登记信息进行比较，能够更切实地识别是1个以上的说话者之中的哪一个说话者。

另外，在存在多个说话者的情况下，例如对从第1时刻直到第2时刻的期间进行登记，即使存在多个说话者，也能够识别是哪一个说话者。

在本公开的其他方式所涉及的语音输入装置中，所述触发输入部是受理预先设定的语音的输入的语音输入接口，预先设定的语音被作为所述触发输入至所述触发输入部。

由此，仅通过说话者发出如唤醒词等的预先设定的语音，语音输入装置就能够进行魔术词识别，并执行说话者的识别。因此，语音输入装置的操作性优异。

在本公开的其他方式所涉及的语音输入装置中，所述触发输入部是所述语音输入装置上设置的操作按钮，受理的操作输入被作为所述触发输入至所述触发输入部。

由此，通过说话者对触发输入部进行操作，能够切实地将触发输入至触发输入部。

此外，这些之中的一部分的具体的方式也可以使用系统、方法、集成电路、计算机程序或者计算机可读取的cd－rom等记录介质实现，也可以使用系统、方法、集成电路、计算机程序或记录介质的任意组合实现。

以下说明的实施方式均表示本公开的一具体例。以下的实施方式中示出的数值、形状、材料、构成要素、构成要素的配置位置及连接方式、步骤、步骤的顺序等是一例，其意图不在于限定本公开。此外，关于以下实施方式中的构成要素之中独立权利要求中未记载的构成要素，作为任意的构成要素而被说明。另外在全部实施方式中，也能够组合各自的内容。

以下，关于本公开的一个方式所涉及的语音输入装置、语音输入方法及记录介质，参照附图具体说明。

(实施方式)

＜构成：说话者识别装置1＞

图1是表示实施方式中的说话者识别装置1的外观、以及基于说话者的发言的说话者识别装置1的使用场面的一例的图。在图1中例示了如下情形：多个说话者共享说话者识别装置1，在发言时使用说话者识别装置1。

如图1所示，说话者识别装置1是取得1个以上的说话者所发言的语音，基于所取得的语音，识别是1个以上的说话者之中的哪一个说话者的装置。也就是说，说话者识别装置1取得1个以上的说话者各自所发言的各个语音，按取得的各个语音识别说话者。说话者识别装置1是语音输入装置的一例。

此外，说话者识别装置1也可以取得发言者与会话对象之间的会话，基于取得的会话，识别是发言者和会话对象之中的哪一个说话者。

在本实施方式中，说话者识别装置1取得1个以上的说话者各自所发言的各个语音，基于取得的各个语音和被输入的触发的各自的时机(定时)，识别说话者。

在本实施方式的图1中，例示了如下情形：作为多个说话者的第1说话者和第2说话者各自使用说话者识别装置1，各个说话者进行发言。例如，也可以在第1说话者的语音识别结束之后，第2说话者使用由二点划线示出的说话者识别装置1。也就是说，说话者识别装置1既可以由各个说话者在各自的定时及事件中使用，也可以由第1说话者和第2说话者在会话时同时使用。第1说话者及第2说话者是说话者的一例。此外，第2说话者也可以是第1说话者的会话对象。

在此，第1说话者和第2说话者既可以通过相同的语言发言，也可以跨不同的2个语言间进行发言。在该情况下，说话者识别装置1在第1说话者发言的第1语言与第2说话者发言的第2语言这相同的或者不同的2个语言间，按第1说话者和第2说话者所发言的各个语音，识别是第1说话者还是第2说话者。例如，第1语言及第2语言是日语、英语、法语、德语、汉语等。

在本实施方式中，将第1说话者作为说话者识别装置1的拥有者，成为向说话者识别装置1的触发的输入、以及与说话者的发言相对于被输入的触发的时机相关的登记，主要由第1说话者进行。也就是说，第1说话者是理解了说话者识别装置1的操作方法的说话者识别装置1的使用者。

在本实施方式中，说话者在向说话者识别装置1输入了触发之后发言，由此说话者识别装置1例如识别第1说话者进行了发言。另外，在其他的说话者发言之后，说话者识别装置1被输入触发，由此说话者识别装置1例如识别第2说话者进行了发言。

说话者识别装置1是智能电话及平板电脑终端等能够由第1说话者便携的便携终端。

图2a是表示实施方式中的说话者识别装置1的框图。

如图2a所示，说话者识别装置1具有发言时机登记部25、取得部21、存储部22、触发输入部23、发言开始检测部24、说话者识别部26、输出部31和电源部35。

[发言时机登记部25]

发言时机登记部25至少对第1时刻和第2时刻中的哪一个时刻是靠前的时间进行登记。具体而言，发言时机登记部25是对1个以上的说话者的各个发言相对于触发的输入的时机进行登记的登记装置。

发言时机登记部25能够通过1个以上的说话者的操作设定期望的条件，并对设定的条件进行登记。具体而言，发言时机登记部25在对1个以上的说话者的各个发言的时机进行登记时，登记第1登记信息，该第1登记信息是将第1时间信息与1个以上的说话者之中的某一个说话者建立了关联的登记信息，该第1时间信息表示与触发输入部23被输入触发的第1时刻相比，开始发言的开始位置的第2时刻是更靠后的时间。示出具体例，设定在向触发输入部23输入触发之后第1说话者开始发言这样的条件，发言时机登记部25登记将表示所设定的条件的第1时间信息与标签a建立了关联的第1登记信息。发言时机登记部25中收纳有存储器，存储所设定的第1登记信息。此外，发言时机登记部25所设定的第1登记信息也可以被存储于存储部22。

另外，发言时机登记部25在对各个发言的时机进行登记时，登记第2登记信息，该第2登记信息是将第2时间信息与1个以上的说话者之中的其他的某一个说话者建立了关联的登记信息，该第2时间信息表示与触发输入部23被输入触发的第1时刻相比，开始发言的开始位置的第2时刻是更靠前的时间。示出具体例，设定在向触发输入部23输入触发之前第2说话者开始发言这样的条件，发言时机登记部25登记将表示所设定的条件的第2时间信息与标签b建立了关联的第2登记信息。在发言时机登记部25中收纳有存储器，存储所设定的第2登记信息。此外，发言时机登记部25所设定的第2登记信息也可以被存储于存储部22。

例如，在第1说话者以标签a中设定的第1登记信息的条件发言的情况下，如果第1说话者促使第2说话者以标签b中设定的第2登记信息的条件发言(事先在第1说话者与第2说话者之间决定使用的条件)，则能够由不同的说话者以不同的条件发言。因此，如果通过发言时机登记部25分别登记发言的条件，则成为说话者识别部26进行说话者识别的判断材料。

发言时机登记部25将登记的第1登记信息及第2登记信息等多个登记信息向说话者识别部26输出。

此外，发言时机登记部25能够设定从向触发输入部23输入触发的第1时刻直到说话者进行发言的第2时刻为止的期间。也就是说，发言时机登记部25也可以将如下条件作为登记信息登记：从向触发输入部23输入触发的第1时刻起○○秒后或者○○秒以后说话者开始发言。另外，发言时机登记部25也可以将如下条件作为登记信息登记：从说话者开始发言起○○秒后或者○○秒以后向触发输入部23输入触发。换言之，发言时机登记部25也可以将第2时刻设定为从第1时刻起○○秒后或者○○秒以后，将第1时刻设定为从第2时刻起○○秒后或者○○秒以后，并将设定的信息作为登记信息登记。在此“○○”是任意的数字，不一定必须表示同一时间。

此外，发言时机登记部25也可以将触发向触发输入部23的连续输入时间的长度作为登记信息登记。例如，在触发输入部23是操作按钮的情况下，如果将与说话者的发言的定时相应地长按操作按钮的(向触发输入部23连续输入的)时间的长度也事先由发言时机登记部25登记，则说话者识别部26还能够将登记的长按的时间作为识别说话者的判断材料使用。

例如，发言时机登记部25也可以将如下条件作为登记信息登记：从向触发输入部23输入触发的第1时刻起○○秒后或者○○秒以后，向触发输入部23持续〇〇秒钟输入触发。另外，发言时机登记部25也可以将如下条件作为登记信息登记：从说话者开始发言起○○秒后或者○○秒以后，向触发输入部23持续〇〇秒钟输入触发。

[取得部21]

取得部21取得1个以上的说话者发言时的语音。也就是说，取得部21取得1个以上的说话者各自发言的语音，将取得的说话者所发言的语音转换为语音信号，并将转换而得到的语音信号向存储部22输出。

取得部21是通过将语音转换为语音信号来取得语音信号的麦克风部。此外，取得部21也可以是与麦克风电连接的输入接口。也就是说，取得部21也可以从麦克风取得语音信号。另外，取得部21也可以是由多个麦克风构成的麦克风阵列部。取得部21只要能够对说话者识别装置1的周围存在的说话者的语音进行收音即可，因此关于说话者识别装置1中的取得部21的配置不特别限定。

[存储部22]

存储部22存储取得部21所取得的1个以上的说话者的各个语音的语音信息。具体而言，存储部22存储由取得部21取得的语音信号所表示的语音的语音信息。也就是说，在存储部22中，自动地存储1个以上的说话者各自发言的语音的语音信息。

另外，存储部22在说话者识别装置1启动时重新开始录音。另外，存储部22也可以在说话者识别装置1启动后，从说话者最初向触发输入部23输入触发的时刻开始录音。也就是说，也可以通过说话者最初向触发输入部23输入触发，存储部22开始语音的录音。另外，也可以通过向触发输入部23输入触发，存储部22使语音的录音中止或者停止。

此外，存储部22中存储的容量存在极限，因此存储部22中存储的语音信息如果达到了规定容量，也可以自动地从早的语音数据开始删除。也就是说，在语音信息中，也可以附加说话者的语音、以及表示日期时间的信息(时间戳)。存储部22基于表示日期时间的信息，删除早的语音信息。

另外，存储部22由hdd(harddiskdrive：硬盘驱动器)或者半导体存储器等构成。

[触发输入部23]

由说话者向触发输入部23输入触发。示出具体例，触发输入部23例如在第1说话者发言前从说话者受理预先设定的触发的输入。另外，触发输入部23例如在第2说话者发言后从说话者受理预先设定的触发的输入。也就是说，触发输入部23在第1说话者的情况下在第1说话者发言前受理触发的输入，在第2说话者的情况下在第2说话者发言后受理触发的输入。触发输入部23在1个以上的说话者各自每次发言时，受理来自说话者的触发的输入。

此外，触发输入部23通过来自说话者的操作输入，既可以开始向存储部22的语音的录音，也可以使向存储部22的语音的录音中止或者停止。

触发输入部23如果检测到输入的触发，则生成输入信号，将生成的输入信号向发言开始检测部24及说话者识别部26输出。在输入信号中包含表示第1时刻的信息(时间戳)。

在本实施方式中，触发输入部23是说话者识别装置1上设置的1个操作按钮。在该情况下，受理了说话者对操作按钮的按下而产生的操作输入被作为触发输入至触发输入部23。也就是说，在本实施方式中，触发是说话者向触发输入部23操作输入的输入信号。此外，触发输入部23也可以在说话者识别装置1上设置2个以上。

此外，触发输入部23也可以是与说话者识别装置1的显示部33一体设置的触摸传感器。在该情况下，也可以在说话者识别装置1的显示部33上，显示作为用于受理说话者的操作输入的操作按钮的触发输入部23。

图2b是表示实施方式中的其他的说话者识别装置1的一例的框图。

如图2b所示，触发输入部23a也可以是受理预先设定的语音的输入的语音输入接口。在该情况下，经由取得部21a将预先设定的语音作为触发输入至触发输入部23a。也就是说，在该情况下，作为触发，向触发输入部23a输入的说话者所发言的语音成为输入信号。在此，预先设定的语音是唤醒词等。说话者识别装置1如果事先设定为在唤醒词例如是“ok！○○，××”的情况下是第1说话者以及在唤醒词例如是“○○，ok！××”的情况下是第2说话者，则在说话者发言“ok！○○，××”的情况下识别为第1说话者，在发言“○○，ok！××”的情况下识别为第2说话者。此外，如果触发输入部23a是语音输入接口，则通过按语音的每个内容设定说话者，能够从第1说话者和第2说话者中切实地识别各个说话者。

[发言开始检测部24]

如图1及图2a所示，发言开始检测部24是在触发输入部23每次被输入触发时，根据存储部22中存储的各个语音检测开始发言的开始位置的检测装置。

具体而言，发言开始检测部24在存储部22中存储的各个语音信息的语音中，检测在从说话者向触发输入部23输入触发的第1时刻到经过规定期间的时刻之间由第1说话者发言的、且通过第1说话者的发言而存储的语音信息所示的语音的开始位置。也就是说，发言开始检测部24在从触发输入部23检测到触发的输入的第1时刻到经过规定期间的时刻之间，检测作为第1说话者所发言的语音的发言开始的第2时刻的开始位置。

另外，发言开始检测部24在存储部22中存储的各个语音信息的语音中，检测从说话者向触发输入部23输入触发的第1时刻到比第1时刻早规定期间的时刻之间由第2说话者开始发言的、且通过第2说话者的发言而存储的语音信息所示的语音的开始位置。也就是说，发言开始检测部24在从第1时刻到比第1时刻早规定期间的时刻之间，检测作为第2说话者所发言的语音的发言开始的第2时刻的开始位置。

发言开始检测部24按各个语音，生成表示语音的开始位置的开始位置信息，将生成的开始位置信息向说话者识别部26输出。开始位置信息是表示作为说话者所发言的语音的发言开始时刻的开始位置的信息(时间戳)。

[说话者识别部26]

说话者识别部26是基于触发输入部23被输入触发的第1时刻、发言开始检测部24根据各个语音检测出的发言的开始位置的第2时刻、以及发言时机登记部25表示第2时刻相对于第1时刻的时机的多个登记信息，从1个以上的说话者之中识别某一个说话者的装置。

具体而言，说话者识别部26如果从触发输入部23取得了第1时刻被示出的输入信号，从发言开始检测部24取得了开始位置信息，则计算第2时刻相对于第1时刻的时机。也就是说，说话者识别部26对开始位置信息所示的第2时刻相对于输入信号所示的第1时刻的时间上的前后关系进行比较并计算。说话者识别部26所计算出的结果成为表示第2时刻相对于第1时刻的时机的结果。

另外，说话者识别部26如果从发言时机登记部25取得了登记信息，则将计算出的表示第2时刻相对于第1时刻的时机的结果与多个登记信息对照，在与第1时刻相比第2时刻是更靠后的时间的情况下，判定为发言的说话者是第1说话者，确定说话者。另外，说话者识别部26将表示该时机的结果与多个登记信息对照，在与第1时刻相比第2时刻是更靠前的时间的情况下，判定为发言的说话者是第2说话者，确定说话者。

更具体而言，说话者识别部26根据作为从触发输入部23受理了触发的输入的第1时刻前后的期间的规定期间中的1个以上的说话者所发言的各个语音，判定是哪一个说话者。说话者识别部26以第1时刻作为基点，在从第1时刻到比第1时刻早规定期间的时刻之间，或者在从该第1时刻到经过规定期间的时刻之间，从存储部22中存储的各个语音之中选择说话者所发言的最近(最新)的语音。说话者识别部26利用所选择的语音，识别某一个说话者。

在此，规定期间例如是1秒、2秒等的数秒钟，例如也可以是10秒钟。由此，说话者识别部26基于1个以上的说话者各自最近发言的各个语音的第1时刻和第2时刻，识别说话者。这是为了避免如下问题：基于过早的语音，即使说话者识别部26识别出说话者，也无法准确地识别最近发言的说话者。

说话者识别部26将包含对说话者进行识别的结果在内的结果信息向输出部31输出。结果信息包含表示从1个以上的说话者之中识别出的某一个说话者的信息。例如，结果信息包含：表示通过说话者的发言而存储的语音信息是识别出的第1说话者的信息，或者表示通过说话者的发言而存储的语音信息是识别出的第2说话者的信息。

[显示部33]

显示部33例如是液晶面板或者有机el面板等的监视器。显示部33将从说话者识别部26取得的结果信息所示的说话者作为文本文显示。例如，如果说话者发言，则显示部33进行显示以表示发言的说话者是第1说话者。另外，如果说话者发言，则显示部33进行显示以表示发言的说话者是第2说话者。显示部33是输出部31的一例。

此外，说话者识别装置1也可以具有语音输出部。在该情况下，语音输出部也可以是将从说话者识别部26取得的结果信息所示的说话者作为语音输出的扬声器。也就是说，在说话者发言了的情况下，语音输出部输出表示结果信息所示的说话者是第1说话者的语音。另外，在说话者发言了的情况下，语音输出部输出表示结果信息所示的说话者是第2说话者的语音。语音输出部为输出部31的一例。

[电源部35]

电源部35例如是一次电池或者二次电池等，经由布线与发言时机登记部25、取得部21、存储部22、触发输入部23、发言开始检测部24、说话者识别部26及输出部31等电连接。电源部35向发言时机登记部25、取得部21、存储部22、触发输入部23、发言开始检测部24、说话者识别部26及输出部31等供给电力。

＜动作＞

说明如上构成的说话者识别装置1所进行的动作。

图3是表示在第1说话者发言了的情况下的说话者识别装置1的动作的流程图。图4是对第1说话者发言的情况和第2说话者发言的情况下的发言的每个语音的第1时刻和第2时刻的时序进行例示的图。

在图3及图4中，在发言时机登记部25中设为，将表示在说话者向触发输入部23输入触发后第1说话者开始发言这样的条件的第1时间信息与标签a建立了关联的第1登记信息，被登记在发言时机登记部25的存储器中。另外，发言时机登记部25设为：将表示在说话者向触发输入部23输入触发前第2说话者开始发言这样的条件的第2时间信息与标签b建立了关联的第2登记信息，被登记在发言时机登记部25的存储器中。

如图2a、图3及图4所示，首先，触发输入部23被输入用于取得部21开始取得各个语音的触发。也就是说，触发输入部23在一方的说话者发言前，受理由说话者预先设定的触发的输入。由此，触发输入部23检测从说话者输入的触发(s11)。触发输入部23如果检测出触发的输入，则生成输入信号，并将生成的输入信号向发言开始检测部24及说话者识别部26输出。

接下来，取得部21取得一方的说话者所发言的语音(s12)。取得部21将取得的一方的说话者所发言的语音转换为语音信号，并将转换而得到的语音信号向存储部22输出。

接下来，存储部22存储取得部21所取得的语音信号所表示的语音的语音信息(s13)。也就是说，在存储部22中，自动地存储一方的说话者所发言的最近的语音的语音信息。

接下来，发言开始检测部24如果从触发输入部23取得了输入信号，则在存储部22中存储的语音信息的语音中，对开始发言的开始位置(第2时刻)进行检测(s14)。具体而言，发言开始检测部24检测说话者刚向触发输入部23输入了触发后由一方的说话者发言的、且通过一方的说话者的发言而存储的语音信息所示的语音的开始位置。发言开始检测部24生成表示语音的开始位置的开始位置信息，并将生成的开始位置信息向说话者识别部26输出。

接下来，说话者识别部26基于触发输入部23被输入触发的第1时刻、发言开始检测部24根据各个语音检测出的发言的开始位置的第2时刻、以及发言时机登记部25表示第2时刻相对于第1时刻的时机的多个登记信息，从第1说话者及第2说话者之中识别某一个说话者(s15)。在图3中，第1时刻是与第2时刻相比时间更早的时刻，因此说话者识别部26将开始位置信息的语音(发言的语音)识别为第1说话者。也就是说，说话者识别部26将一方的说话者识别为第1说话者。

接下来，说话者识别部26将包含识别出第1说话者的结果在内的结果信息向输出部31输出(s16)。

然后，说话者识别装置1结束处理。

图5是表示在第2说话者发言了的情况下的说话者识别装置1的动作的流程图。关于与图3同样的处理适宜省略说明。

如图2a、图4及图5所示，首先，取得部21取得另一方的说话者所发言的语音(s21)。取得部21将取得的另一方的说话者所发言的语音转换为语音信号，并将转换而得到的语音信号向存储部22输出。

接下来，触发输入部23被输入用于取得部21开始取得各个语音的触发。也就是说，触发输入部23在另一方的说话者发言之后，受理由说话者预先设定的触发的输入。由此，触发输入部23对从说话者输入的触发进行检测(s22)。触发输入部23如果检测出触发的输入，则生成输入信号，并将生成的输入信号向发言开始检测部24及说话者识别部26输出。

接下来，存储部22存储取得部21所取得的语音信号所表示的语音的语音信息(s13)。也就是说，在存储部22中，自动地存储另一方的说话者所发言的最近的语音的语音信息。

接下来，发言开始检测部24如果从触发输入部23取得了输入信号，则在存储部22中存储的语音信息的语音中，对开始发言的开始位置(第2时刻)进行检测(s14)。具体而言，发言开始检测部24检测说话者刚要向触发输入部23输入触发前由另一方的说话者发言的、且通过另一方的说话者的发言而存储的语音信息所示的语音的开始位置。发言开始检测部24生成表示语音的开始位置的开始位置信息，并将生成的开始位置信息向说话者识别部26输出。

接下来，说话者识别部26基于触发输入部23被输入触发的第1时刻、发言开始检测部24根据各个语音检测出的发言的开始位置的第2时刻、以及发言时机登记部25表示第2时刻相对于第1时刻的时机的多个登记信息，从第1说话者及第2说话者之中识别某一个说话者(s15)。在图5中，第2时刻是与第1时刻相比时间更早的时刻，因此说话者识别部26将开始位置信息的语音识别为第2说话者。也就是说，说话者识别部26将另一方的说话者识别为第2说话者。

接下来，说话者识别部26将包含识别出第2说话者的结果在内的结果信息向输出部31输出(s16)。

然后，说话者识别装置1结束处理。

图6是表示实施方式中的说话者识别装置1的说话者识别部26中的动作的流程图。

如图3、图5及图6所示，首先，说话者识别部26如果从触发输入部23取得了第1时刻被示出的输入信号，从发言开始检测部24取得了第2时刻被示出的开始位置信息，则计算第2时刻相对于第1时刻的时机(s31)。也就是说，说话者识别部26对第2时刻相对于第1时刻的时间上的前后关系进行比较并计算。

说话者识别部26将计算出的表示第2时刻相对于第1时刻的时机的结果与登记信息对照，判定第1时刻是否是比第2时刻更靠前的时间(s32)。

在第1时刻是比第2时刻更靠前的时间的情况下，说话者识别部26判定为与登记信息中的第1登记信息所示的内容相同(s32：是)，判定为发言的说话者是第1说话者(s33)。

说话者识别部26将包含从第1说话者及第2说话者之中识别出第1说话者的结果在内的结果信息向显示部输出。然后，说话者识别部26结束处理。

在第1时刻是比第2时刻更靠后的时间的情况下，说话者识别部26判定为与登记信息中的第2登记信息所示的内容相同(s32：否)，判定为发言的说话者是第2说话者(s34)。

说话者识别部26将包含从第1说话者及第2说话者之中识别出第2说话者的结果在内的结果信息向显示部输出。然后，说话者识别部26结束处理。

＜作用效果＞

接下来，说明本实施方式中的说话者识别装置1的作用效果。

如上，本实施方式中的说话者识别装置1具备：取得部21，取得1个以上的说话者发言时的各个语音；存储部22，存储取得部21所取得的1个以上的说话者的发言的各个语音；触发输入部23，被输入触发；发言开始检测部24，在触发输入部23每次被输入触发时，根据存储部22中存储的各个语音检测开始发言的开始位置；以及说话者识别部26，至少基于触发输入部23被输入触发的第1时刻、以及发言开始检测部24根据各个语音检测出的发言的开始位置的第2时刻，从1个以上的说话者之中识别某一个说话者。

由此，例如根据检测出由1个以上的说话者之中的说话者进行的触发的第1时刻与说话者所发言的语音的第2时刻之间的时间上的前后关系，能够从1个以上的说话者之中识别某一个说话者。也就是说，即使不对从第1时刻直到第2时刻的期间进行学习，也能够识别取得部21所取得的语音的说话者是1个以上的说话者之中的哪一个说话者。

因此，根据该说话者识别装置1，能够通过简易的处理来识别说话者从而抑制计算量的增大。

特别是，说话者识别装置1能够基于发言相对于第1时刻的时机，识别语音的说话者。因此，根据说话者识别装置1，能够通过简单的操作识别语音的说话者。另外，说话者识别装置1的操作变得简单，因此能够抑制在说话者识别装置1上配置多个按钮等的说话者识别装置1的复杂化。因此，根据该语音输入装置1，例如在触发输入部23是按钮的情况下，即使是1个按钮也能够识别是1个以上的说话者之中的哪一个说话者，因此能够使语音输入装置1的构成更加简易。

另外，本实施方式中的语音输入方法包含：取得1个以上的说话者发言时的各个语音；将取得的1个以上的说话者的发言的各个语音存储至存储部22；被输入触发；在触发每次被输入时，根据存储部22中存储的各个语音检测开始发言的开始位置；以及至少基于触发被输入的第1时刻、以及根据各个语音检测出的发言的开始位置的第2时刻，从1个以上的说话者之中识别某一个说话者。

在该语音输入方法中，也具有与上述的说话者识别装置1同样的作用效果。

另外，本实施方式中的记录介质是记录了用于使计算机执行语音输入方法的程序的计算机可读取的非易失性的记录介质。

在该记录介质中，也具有与上述的说话者识别装置1同样的作用效果。

另外，本实施方式中的说话者识别装置1具备：发言时机登记部25，至少对第1时刻和第2时刻中的哪一个时刻是靠前的时间进行登记。另外，说话者识别部26基于第1时刻、第2时刻、以及发言时机登记部25表示第2时刻相对于第1时刻的时机的多个登记信息，从1个以上的说话者之中识别某一个说话者。

由此，作为1个以上的说话者所期望的条件，能够预先登记第1时刻与第2时刻的时间上的前后关系。因此，说话者识别部26仅通过判定第1时刻及第2时刻的时间上的前后关系是否在登记信息中被示出，就能够从1个以上的说话者之中识别某一个说话者。结果，根据该说话者识别装置1，能够通过简易的处理更切实地识别说话者。

另外，在本实施方式中的说话者识别装置1中，发言时机登记部25在对1个以上的说话者的各个发言的时机进行登记时，登记第1登记信息，该第1登记信息是将第1时间信息与1个以上的说话者之中的某一个说话者建立了关联的登记信息，该第1时间信息表示与触发输入部23被输入触发的第1时刻相比，开始发言的开始位置的第2时刻是更靠后的时间。另外，发言时机登记部25在对各个发言的时机进行登记时，登记第2登记信息，该第2登记信息是将第2时间信息与1个以上的说话者之中的其他的某一个说话者建立了关联的登记信息，该第2时间信息表示与触发输入部23被输入触发的第1时刻相比，开始发言的开始位置的第2时刻是更靠前的时间。

由此，说话者能够登记在开始发言前输入触发这样的条件，或者登记在开始了发言之后输入触发这样的条件。像这样，如果说话者预先登记了条件，则说话者识别装置1无需学习就能够简易而且切实地识别说话者。

另外，在本实施方式中的说话者识别装置1中，说话者识别部26计算第2时刻相对于第1时刻的时机，将计算出的表示时机的结果与多个登记信息对照，在与第1时刻相比第2时刻是更靠后的时间的情况下，判定为发言的说话者是第1说话者，在与第1时刻相比第2时刻是更靠前的时间的情况下，判定为发言的说话者是与第1说话者不同的第2说话者。

由此，说话者识别部26根据向触发输入部23输入的第1时刻、以及发言开始检测部24所检测出的第2时刻，能够计算第2时刻相对于第1时刻的时机。由此，说话者识别部26能够计算第1时刻是比第2时刻更靠前的时间还是更靠后的时间这样的表示时机的结果。结果，说话者识别部26通过对计算出的表示时机的结果与多个登记信息进行比较，能够更切实地识别是1个以上的说话者之中的哪一个说话者。

另外，在存在多个说话者的情况下，例如通过对从第1时刻直到第2时刻的期间进行登记，即使存在多个说话者，也能够识别是哪一个说话者。

另外，在本实施方式中的说话者识别装置1中，触发输入部23是受理预先设定的语音的输入的语音输入接口。另外，预先设定的语音作为触发被输入至触发输入部23。

由此，仅通过说话者发出如唤醒词等的预先设定的语音，说话者识别装置1就能够进行魔术词识别，并执行说话者的识别。因此，说话者识别装置1的操作性优异。

另外，在本实施方式中的说话者识别装置1中，触发输入部23是说话者识别装置1上设置的操作按钮。另外，受理的操作输入作为触发被输入至触发输入部23。

由此，通过说话者对触发输入部23进行操作，能够向触发输入部23切实地输入触发。

(其他变形例等)

以上，关于本公开基于实施方式进行了说明，但本公开不限定于这些实施方式等。

例如，在上述各实施方式所涉及的语音输入装置、语音输入方法及记录介质中，也可以基于取得部所取得的语音，估计说话者相对于语音输入装置的方向。在该情况下，也可以使用麦克风阵列部的取得部，估计说话者各自发言的相对于语音输入装置的声源方向。具体而言，语音输入装置也可以计算语音到达取得部中的各个麦克风的时间差(相位差)，例如通过延迟时间估计法等估计声源方向。

另外，在上述各实施方式所涉及的语音输入装置、语音输入方法及记录介质中，语音输入装置也可以通过对取得部所取得的说话者的语音的区间进行检测，从而如果以规定期间以上检测出取得部无法取得说话者的语音的期间，则自动地使录音中止或者停止。

另外，上述各实施方式所涉及的语音输入方法也可以通过利用了计算机的程序实现，这样的程序被存储于存储装置。

另外，上述各实施方式所涉及的语音输入装置、语音输入方法及其程序中包含的各处理部典型地以作为集成电路的lsi实现。这些既可以个别地作为单芯片，也可以以包含一部分或者全部的方式作为单芯片。

另外，形成集成电路不限于lsi，也可以由专用电路或者通用处理器实现。也可以利用在制造lsi后能够编程的fpga(fieldprogrammablegatearray：现场可编程逻辑门阵列)，或者可重构lsi内部的电路单元的连接及设定的可重构处理器。

此外，在上述各实施方式中，各构成要素也可以由专用的硬件构成，或者通过执行适于各构成要素的软件程序实现。各构成要素也可以通过由cpu或者处理器等程序执行部将硬盘或者半导体存储器等记录介质中记录的软件程序读出并执行来实现。

另外，上述中使用的数字全部都是为了具体说明本公开而例示的，本公开的实施方式不限于例示的数字。

另外，框图中的功能模块的分割是一例，也可以将多个功能模块作为一个功能模块实现，或者将一个功能模块分割为多个，或者将一部分功能转移至其他功能模块。另外，也可以将具有相似的功能的多个功能模块的功能，由单一的硬件或者软件并列或者分时地处理。

另外，流程图中的各步骤被执行的顺序是为了具体说明本公开而例示的，也可以是上述以外的顺序。另外，上述步骤的一部分也可以与其他步骤同时(并行)地执行。

本领域技术人员针对实施方式实施所想到的各种变形而得到的其他方式、在不脱离本公开的主旨的范围内对实施方式中的构成要素及功能任意组合而实现的方式，也包含在本公开中。

工业实用性

本公开能够适用于为了确定多个说话者的各个发言是哪个说话者而使用的语音输入装置、语音输入方法及存储介质。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签：信息存储语音芯片时间计算

上一篇一种语音误唤醒的规避方法及电子设备与流程

下一篇阈值调整装置、阈值调整方法以及记录介质与流程

热门咨询

热门标签

热门产品

tips