语音识别装置、语音识别方法及记录介质与流程

2021-01-28 16:01:49|

290|

起点商标网

本公开涉及语音识别装置、语音识别方法及记录介质。

背景技术：

例如在专利文献1中公开了一种语音识别装置，具备：发言定时指示取得机构，取得用户对发言定时的指示；语音信号保持机构，对输入的语音信号进行保持，在由发言定时指示取得机构取得了发言开始的指示的情况下，输出所保持的语音信号及其后输入的语音信号；发言区间检测机构，根据由语音信号保持机构输出的语音信号检测发言区间；以及误操作检测机构，对发言区间的时刻信息与发言定时的指示的有无及时刻信息进行比较，作为用户的误操作进行检测。

在该语音识别装置中，通过对用户的误操作进行检测，能够将检测出的误操作向用户通知。

在先技术文献

专利文献

专利文献1：日本特许第5375423号公报

技术实现要素：

发明所要解决的课题

但是，在专利文献1公开的技术中，例如在第1说话者是语音识别装置的拥有者的情况下，第1说话者由于理解了自身拥有的语音识别装置的使用方法，能够进行正确的操作以使语音识别装置对自身的发言进行识别。因此，第1说话者从自身所发言的语音的开始到结束，都能够使语音识别装置识别。但是，第1说话者的会话对象的第2说话者不知道语音识别装置的使用方法，第1说话者无法认识到第2说话者所发言的定时。因此，第1说话者难以从第2说话者所发言的语音的开始到结束都使语音识别装置识别。由此，无法充分地对第2说话者所发言的语音进行语音识别，因此第1说话者需要再次促使第2说话者发言。

于是，本公开鉴于上述的缘由而做出，其目的在于，提供能够通过切实地取得会话对象的语音从而对会话对象的语音进行语音识别的语音识别装置、语音识别方法及记录介质。

用于解决课题的手段

本公开的一个方式所涉及的语音识别装置是供第1说话者与作为所述第1说话者的会话对象的1个以上的第2说话者进行会话的语音识别装置，具备：取得部，取得所述第1说话者及所述1个以上的第2说话者的会话的各个语音；存储部，存储所述取得部所取得的所述第1说话者及所述1个以上的第2说话者的会话的所述各个语音；输入部，至少受理来自所述第1说话者的操作输入；发言开始检测部，与向所述输入部的操作输入相应地，根据所述存储部中存储的所述各个语音按每个语音检测开始发言的开始位置；发言者区别部，基于按每个语音设定的、受理了向所述输入部的操作输入的第1时刻以及表示所述发言开始检测部根据所述各个语音检测出的发言的开始位置的第2时刻，从所述第1说话者及所述1个以上的第2说话者之中，区别是向所述输入部进行了操作输入的所述第1说话者还是未向所述输入部进行操作输入的所述1个以上的第2说话者，由所述发言者区别部进行了所述区别的处理的所述第1说话者及所述1个以上的第2说话者的所述各个语音中的开始位置以后的语音供语音识别部进行语音识别。

此外，这些之中的一部分的具体的方式也可以使用系统、方法、集成电路、计算机程序或者计算机可读取的cd－rom等记录介质实现，也可以使用系统、方法、集成电路、计算机程序及记录介质的任意组合实现。

发明效果

根据本公开的语音识别装置等，能够通过切实地取得会话对象的语音，对会话对象的语音进行语音识别。

附图说明

图1a是表示搭载了实施方式1中的语音识别装置的语音翻译装置的外观、以及第1说话者和第2说话者的语音翻译装置的使用场面的一例的图。

图1b是表示实施方式1中的其他的语音翻译装置的外观的一例的图。

图2是表示实施方式1中的语音翻译装置的框图。

图3是表示第1说话者发言的情况下的语音翻译装置的动作的流程图。

图4是对第1说话者与第2说话者会话时的第1时刻和第2时刻的时序进行例示的图。

图5是表示第2说话者发言的情况下的语音翻译装置的动作的流程图。

图6是表示实施方式1中的语音翻译装置的发言者区别部中的动作的流程图。

图7是表示实施方式2中的语音翻译装置的框图。

附图标记说明：

10、10a语音识别装置

21取得部

22存储部

23发言开始检测部

24输入部

25发言者区别部

26、51语音识别部

29通信部。

具体实施方式

本公开的一个方式所涉及的语音识别装置是供第1说话者与作为所述第1说话者的会话对象的1个以上的第2说话者进行会话的语音识别装置，具备：取得部，取得所述第1说话者及所述1个以上的第2说话者的会话的各个语音，存储部，存储所述取得部所取得的所述第1说话者及所述1个以上的第2说话者的会话的所述各个语音；输入部，至少受理来自所述第1说话者的操作输入；发言开始检测部，与向所述输入部的操作输入相应地，根据所述存储部中存储的所述各个语音按每个语音检测开始发言的开始位置；发言者区别部，基于按每个语音设定的、受理了向所述输入部的操作输入的第1时刻以及表示所述发言开始检测部根据所述各个语音检测出的发言的开始位置的第2时刻，从所述第1说话者及所述1个以上的第2说话者之中，区别是向所述输入部进行了操作输入的所述第1说话者还是未向所述输入部进行操作输入的所述1个以上的第2说话者；由所述发言者区别部进行了所述区别的处理的所述第1说话者及所述1个以上的第2说话者的所述各个语音中的开始位置以后的语音供语音识别部进行语音识别。

于是，根据本公开，第1说话者及1个以上的第2说话者的会话的各个语音被存储于存储部，因此能够根据存储的语音区别是第1说话者还是第2说话者。由此，语音识别部能够从存储部读出被进行了区别的处理的第1说话者及第2说话者的各个语音并进行语音识别。也就是说，如果在第1说话者向输入部进行了操作输入后第1说话者发言，则语音识别部能够对第1说话者所发言的语音进行语音识别。另外，通常在第1说话者的发言结束后第2说话者开始发言，因此通过与第2说话者的发言相应地由说话者向输入部进行操作输入，语音识别部能够对第2说话者所发言的语音进行语音识别。

因此，在该语音识别装置中，能够通过切实地取得会话对象的语音，从而对会话对象的语音进行语音识别。

另外，本公开的其他方式所涉及的语音识别方法是供第1说话者与作为所述第1说话者的会话对象的1个以上的第2说话者进行会话的语音识别方法，包含：取得所述第1说话者及所述1个以上的第2说话者的会话的各个语音；将取得的所述第1说话者及所述1个以上的第2说话者的会话的所述各个语音存储至存储部；至少受理从所述第1说话者向输入部的操作输入；与向所述输入部的操作输入相应地，根据所述存储部中存储的所述各个语音按每个语音检测开始发言的开始位置；基于按每个语音设定的、受理了向所述输入部的操作输入的第1时刻以及表示根据所述各个语音检测出的发言的开始位置的第2时刻，从所述第1说话者及所述1个以上的第2说话者之中，区别是向所述输入部进行了操作输入的所述第1说话者还是未向所述输入部进行操作输入的所述1个以上的第2说话者；以及被进行了所述区别的处理的所述第1说话者及所述1个以上的第2说话者的所述各个语音中的开始位置以后的语音用于语音识别。

在该语音识别方法中，也具有与上述的语音识别装置同样的作用效果。

另外，本公开的其他方式所涉及的记录介质是记录了用于使计算机执行语音识别方法的程序的计算机可读取的非易失性的记录介质。

在该记录介质中，也具有与上述的语音识别装置同样的作用效果。

另外，在本公开的其他方式所涉及的语音识别装置中，所述发言者区别部对按所述第1说话者及所述1个以上的第2说话者的会话的所述各个语音设定的所述第1时刻与所述第2时刻进行比较，在所述第1时刻是与所述第2时刻相比时间更早的时刻的情况下，从所述第1说话者及所述1个以上的第2说话者之中区别所述第1说话者，在所述第2时刻是与所述第1时刻相比时间更早的时刻的情况下，从所述第1说话者及所述1个以上的第2说话者之中区别1个以上的所述第2说话者。

由此，例如在第1说话者是语音识别装置的拥有者的情况下，第1说话者理解了所拥有的语音识别装置的使用方法，因此在向输入部进行了操作输入后开始发言。也就是说，受理了由第1说话者向输入部的操作输入的第1时刻，与第1说话者开始发言的第2时刻相比时间更早，因此发言者区别部能够从第1说话者及1个以上的第2说话者之中区别第1说话者。另外，第1说话者无法认识到第2说话者发言的定时，因此从第2说话者开始发言之后向输入部进行操作输入。也就是说，受理了由第1说话者向输入部的操作输入的第1时刻，与第2说话者开始发言的第2时刻相比时间更晚，因此发言者区别部能够从第1说话者及1个以上的第2说话者之中区别第2说话者。

像这样，发言者区别部能够准确地区别距第1时刻最近的发言的说话者是第1说话者还是第2说话者。因此，在该语音识别装置中，能够更加切实地取得第2说话者的语音，因此能够对第2说话者的语音进行语音识别。

另外，在本公开的其他方式所涉及的语音识别装置中，在从所述第1说话者及所述1个以上的第2说话者之中区别了所述第1说话者的情况下，所述语音识别部对所述第1说话者所发言的语音进行语音识别，在从所述第1说话者及所述1个以上的第2说话者之中区别了第2说话者的情况下，所述语音识别部对所述第2说话者所发言的语音进行语音识别。

由此，通过发言者区别部区别所发言的说话者是第1说话者还是第2说话者，语音识别部能够更加切实地对第1说话者及第2说话者所发言的各个语音进行语音识别。

另外，在本公开的其他方式所涉及的语音识别装置中，所述发言者区别部根据作为所述输入部受理了操作输入的所述第1时刻前后的期间的规定期间中的所述第1说话者及所述1个以上的第2说话者的会话的所述各个语音，区别是所述第1说话者还是所述1个以上的第2说话者。

由此，为了区别是第1说话者还是第2说话者，能够设置以第1时刻作为基点的规定期间。因此，能够区别在从第1说话者进行了操作输入的第1时刻到比第1时刻早规定期间的时刻之间、或者从该第1时刻到经过规定期间的时刻之间说话者所发言的最近的语音是第1说话者还是第2说话者。由此，能够对第1说话者及第2说话者的各个语音分别地进行识别。因此，在该语音识别装置中，能够准确地区别是第1说话者还是第2说话者。

另外，在本公开的其他方式所涉及的语音识别装置中，在针对向所述输入部进行了操作输入的所述第1说话者所发言的语音进行了语音识别后，所述存储部为了存储所述1个以上的第2说话者的语音，开始存储所述取得部所取得的所述各个语音。

通常，第2说话者在第1说话者的发言结束并理解了第1说话者的语音的内容后开始发言。在对第1说话者所发言的语音进行了语音识别后，在第2说话者发言前开始录音，因此存储部能够切实地存储第2说话者所发言的语音。另外，至少从第1说话者结束发言的时刻到存储部开始录音之间，语音识别装置能够使语音的存储中断。因此，能够抑制用于使存储部进行存储的语音识别装置的电力消耗。

另外，本公开的其他方式所涉及的语音识别装置具备能够与具有所述语音识别部的云服务器进行通信的通信部，所述通信部将由所述发言者区别部进行了所述区别的处理的所述第1说话者及所述1个以上的第2说话者的所述各个语音发送至所述云服务器，接收所述云服务器的所述语音识别部对所述各个语音的开始位置以后的语音进行了语音识别而得到的结果。

由此，云服务器对第1说话者及1个以上的第2说话者所发言的各个语音进行语音识别，因此能够减轻语音识别装置的处理负担。

另外，本公开的其他方式所涉及的语音识别装置具备：对由所述发言者区别部进行了所述区别的处理的所述第1说话者及所述1个以上的第2说话者的所述各个语音中的开始位置以后的语音进行语音识别的所述语音识别部。

由此，语音识别装置进行语音识别，因此不需要向外部的云服务器发送语音，因此能够抑制语音识别装置与云服务器之间的通信量的增加。

另外，在本公开的其他方式所涉及的语音识别装置中，所述输入部是在所述语音识别装置上设置的1个操作按钮。

由此，第1说话者能够简易地进行语音识别装置的操作。

另外，在本公开的其他方式所涉及的语音识别装置中，所述输入部在所述第1说话者及所述1个以上的第2说话者各自每次发言时，受理来自所述第1说话者的操作输入。

由此，通过尽可能避免向第2说话者委托操作输入，由第1说话者积极地向语音识别装置进行操作输入，能够从第1说话者及第2说话者之中切实地区别一方的说话者。

此外，这些之中的一部分的具体的方式也可以使用系统、方法、集成电路、计算机程序或者计算机可读取的cd－rom等记录介质实现，也可以使用系统、方法、集成电路、计算机程序或者记录介质的任意组合实现。

以下说明的实施方式均表示本公开的一具体例。以下的实施方式中示出的数值、形状、材料、构成要素、构成要素的配置位置及连接方式、步骤、步骤的顺序等是一例，意图不在于限定本公开。此外，关于以下实施方式中的构成要素之中独立权利要求中未记载的构成要素，作为任意的构成要素而被说明。另外在全部实施方式中，也能够组合各自的内容。

以下，关于本公开的一个方式所涉及的语音识别装置、语音识别方法及记录介质，参照附图具体说明。

(实施方式1)

＜构成：语音翻译装置1＞

图1a是表示搭载了实施方式1中的语音识别装置10的语音翻译装置1的外观、以及第1说话者和第2说话者的语音翻译装置1的使用场面的一例的图。

如图1a所示，语音翻译装置1是对以第1语言发言的第1说话者与以第2语言发言的1个以上的第2说话者之间的会话进行识别，并对识别出的会话双向进行翻译的装置。也就是说，语音翻译装置1在第1说话者与1个以上的第2说话者的不同的2个语言之间，对第1说话者和1个以上的第2说话者所发言的各个语音进行识别，并将识别出的发言内容翻译为对方的语言。第1语言是与第2语言不同的语言。第1语言及第2语言是日语、英语、法语、德语、汉语等。在本实施方式中，例示1名第1说话者与1名第2说话者面对面进行会话的情形。

在本实施方式中，将第1说话者作为语音翻译装置1的拥有者，向语音翻译装置1的操作输入主要由第1说话者进行。也就是说，第1说话者是理解了语音翻译装置1的操作方法的语音翻译装置1的使用者。

在本实施方式中，在第1说话者发言前，第1说话者向语音翻译装置1进行操作输入，由此语音翻译装置1对第1说话者以第1语言发言的语音进行识别。语音翻译装置1如果识别了第1说话者以第1语言发言的语音，则将识别的该语音通过作为第1语言的第1文本文(字符)显示，而且，显示将第1语言的该语音翻译为第2语言而得到的作为第2语言的第2文本文(字符)，并且将翻译出的作为第2语言的第2文本文通过语音输出。像这样，语音翻译装置1将语音识别出的第1文本文、翻译出的第2文本文、以及翻译出的第2文本文的语音同时输出。

另外，在本实施方式中，在第2说话者发言之后，第1说话者向语音翻译装置1进行操作输入，由此语音翻译装置1对第2说话者以第2语言发言的语音进行识别。语音翻译装置1如果识别了第2说话者以第2语言发言的语音，则将识别出的该语音通过作为第2语言的第2文本文显示，而且，显示将第2语言的该语音翻译为第1语言而得到的第1文本文，并且将翻译出的第1文本文通过语音输出。像这样，语音翻译装置1将语音识别出的第2文本文、翻译出的第1文本文、以及翻译出的第1文本文的语音同时输出。

第1说话者和第2说话者使用语音翻译装置1面对面地会话，或者左右并排地会话。因此，语音翻译装置1也可以变更显示形态。

语音翻译装置1是智能电话及平板电脑终端等能够由第1说话者便携的便携终端。

接下来，说明语音翻译装置1的具体的构成。

图2是表示实施方式1中的语音翻译装置1的框图。

如图2所示，语音翻译装置1具有语音识别装置10、翻译处理部32、显示部33、语音输出部34和电源部35。

[语音识别装置10]

语音识别装置10是供第1说话者与作为第1说话者的会话对象的1个以上的第2说话者进行会话的装置，是对以第1语言发言的第1说话者与以第2语言发言的第2说话者之间的会话即语音进行语音识别的装置。

语音识别装置10具备输入部24、取得部21、存储部22、发言开始检测部23、发言者区别部25和语音识别部26。

输入部24是至少受理来自第1说话者的操作输入的操作输入部。具体而言，输入部24在第1说话者发言时，在刚要发言前受理来自第1说话者的操作输入，或者在第2说话者发言时，在刚发言后受理来自第1说话者的操作输入。也就是说，输入部24在第1说话者及1个以上的第2说话者各自每次发言时，受理来自第1说话者的操作输入。向输入部24的操作输入成为是否对第1说话者及1个以上的第2说话者的会话的各个语音进行语音识别的触发。

另外，输入部24通过来自第1说话者的操作输入，也可以设为开始向存储部22进行语音的录音的触发，还可以设为使向存储部22的语音的录音中止或者停止的触发。

输入部24生成与操作输入相应的输入信号，将生成的输入信号向发言开始检测部23输出。另外，输入部24生成包含受理了来自第1说话者的操作输入的第1时刻在内的输入信号，将生成的输入信号向发言者区别部25输出。在输入信号中包含表示第1时刻的信息(时间戳)。

例如，输入部24是语音识别装置10上设置的1个操作按钮。输入部24也可以在语音识别装置10上设有两个以上。此外，在本实施方式中，输入部24是与语音翻译装置1的显示部33一体设置的触摸传感器。在该情况下，如图1b所示，在语音翻译装置1的显示部33上，也可以显示多个作为受理第1说话者的操作输入的操作按钮的输入部24。图1b是表示实施方式1中的其他的语音翻译装置的外观的一例的图。

如图1a所示，取得部21取得第1说话者及1个以上的第2说话者的会话的各个语音。具体而言，取得部21取得第1说话者及1个以上的第2说话者的会话中各自所发言的语音，将包含所取得的说话者所发言的语音在内的声音转换为语音信号，并将转换而得到的语音信号向存储部22输出。

取得部21是通过转换为包含语音的语音信号来取得语音信号的麦克风部。此外，取得部21也可以是与麦克风电连接的输入接口。也就是说，取得部21也可以从麦克风取得语音信号。也可以是由多个麦克风构成的麦克风阵列部。取得部21只要能够对语音识别装置10的周围存在的说话者的语音进行收音即可，因此关于语音翻译装置1中的取得部21的配置不特别限定。

存储部22存储取得部21所取得的第1说话者及1个以上的第2说话者的会话的各个语音。具体而言，存储部22存储由取得部21取得的语音信号中包含的语音的语音信息。也就是说，在存储部22中，自动地存储包含第1说话者及1个以上的第2说话者的会话中各自发言的语音在内的语音信息。

存储部22在语音识别装置10启动时，也就是说语音翻译装置1启动时，重新开始录音。另外，存储部22也可以在语音翻译装置1启动后，从第1说话者最初向输入部24进行了操作输入的时刻开始录音。也就是说，也可以通过向输入部24的操作输入，存储部22开始语音的录音。另外，也可以通过向输入部24的操作输入，存储部22使语音的录音中止或者停止。

另外，存储部22例如在针对向输入部24进行了操作输入的第1说话者所发言的语音进行了语音识别之后，为了存储第2说话者的语音，开始对取得部21所取得的语音进行存储。也就是说，存储部22至少在从存储了第1说话者所发言的语音的语音信息后直到该语音的语音识别后之间，不存储取得部21所取得的声音。

此外，存储部22中存储的容量存在极限，因此存储部22中存储的语音信息如果达到了规定容量，也可以自动地从早的语音数据开始删除。也就是说，在语音信息中也可以附加说话者的语音、以及表示日期时间的信息(时间戳)。

另外，存储部22由hdd(harddiskdrive：硬盘驱动器)或者半导体存储器等构成。

发言开始检测部23是在由第1说话者向输入部24进行了操作输入后，与向输入部的操作输入相应地，根据存储部22中存储的各个语音按每个语音检测开始发言的开始位置的检测装置。具体而言，发言开始检测部23在存储部22中存储的各个语音中，检测从第1说话者向输入部24进行了操作输入的第1时刻到经过规定期间的时刻之间由第1说话者发言的、且通过第1说话者的发言而存储的语音信息所示的语音的开始位置。也就是说，发言开始检测部23在从向输入部24的操作输入完成时的第1时刻到经过规定期间的时刻之间，检测作为第1说话者所发言的语音的发言开始的第2时刻的开始位置。

另外，发言开始检测部23在存储部22中存储的各个语音中，检测从第1说话者向输入部24进行了操作输入的第1时刻到比第1时刻早规定期间的时刻之间由第2说话者开始发言的、且通过第2说话者的发言而存储的语音信息所示的语音的开始位置。也就是说，发言开始检测部23在从向输入部24的操作输入完成时的第1时刻到比第1时刻早规定期间的时刻之间，检测作为第2说话者所发言的语音的发言开始的第2时刻的开始位置。

发言开始检测部23生成表示语音的开始位置的开始位置信息，并将生成的开始位置信息向发言者区别部25及语音识别部26输出。开始位置信息是表示作为第1说话者所发言的语音的发言开始时刻的开始位置的信息(时间戳)，是表示作为第2说话者所发言的语音的发言开始时刻的开始位置的信息(时间戳)。

发言者区别部25如果从输入部24取得了输入信号，则基于按每个语音设定的、受理了第1说话者向输入部24的操作输入的第1时刻以及发言开始检测部23根据各个语音检测出的发言的开始位置的第2时刻，区别是向输入部24进行了操作输入的第1说话者，还是未向输入部24进行操作输入的第2说话者。

具体而言，发言者区别部25对按第1说话者及1个以上的第2说话者的会话的各个语音设定的第1时刻与第2时刻进行比较。更具体而言，发言者区别部25对从输入部24取得的输入信号中包含的第1时刻，与作为该第1时刻前后的期间的规定期间内的语音的发言开始位置即第2时刻进行比较。由此，发言者区别部25区别是第1说话者还是第2说话者。

举例而言，发言者区别部25在第1时刻是与第2时刻相比时间更早的时刻的情况下，判定为第1说话者所发言的语音被输入至语音识别装置10(存储至存储部22)，从第1说话者及第2说话者之中区别第1说话者。另外，发言者区别部25在第2时刻是与第1时刻相比时间更早的时刻的情况下，判定为第2说话者所发言的语音被输入至语音识别装置10(被存储至存储部22)，从第1说话者及第2说话者之中区别第2说话者。

另外，发言者区别部25根据作为输入部24从第1说话者受理了操作输入的第1时刻前后的期间的规定期间中的第1说话者及1个以上的第2说话者所发言的各个语音，区别是第1说话者还是第2说话者。具体而言，在1个以上的第1说话者与1个以上的第2说话者进行会话中，发言者区别部25以输入部24受理了操作输入的第1时刻作为基点，在从第1时刻到比第1时刻早规定期间的时刻之间，或者在从该第1时刻到经过规定期间的时刻之间，从存储部22中存储的各个语音之中选择说话者所发言的最近的语音。发言者区别部25利用所选择的语音，区别是第1说话者还是第2说话者。在此，规定期间例如是1秒、2秒等的数秒钟，例如也可以是10秒钟。由此，发言者区别部25基于第1说话者及1个以上的第2说话者各自最近发言的各个语音的第1时刻和第2时刻，区别是第1说话者还是第2说话者。这是为了避免如下问题：基于过于早的语音，即使发言者区别部25区别了是第1说话者还是第2说话者，但也无法准确地区别最近发言的说话者是第1说话者还是第2说话者。

发言者区别部25将包含区别出说话者的结果的结果信息向语音识别部26输出。结果信息包含：表示通过第1说话者的发言而存储的语音信息是区别出的第1说话者的信息、或者表示通过第2说话者的发言而存储的语音信息是区别出的第2说话者的信息。

语音识别部26如果从发言者区别部25取得了结果信息，并且从发言开始检测部23取得了开始位置信息，则基于结果信息和开始位置信息，对由发言者区别部25进行了区别的处理的第1说话者及1个以上的第2说话者的各个语音中的开始位置以后的语音进行语音识别。更具体而言，语音识别部26在从第1说话者及1个以上的第2说话者之中区别了第1说话者的情况下，对区别出的第1说话者最近发言的语音的语音信息所示的该语音通过第1语言进行语音识别。另外，语音识别部26在从第1说话者及1个以上的第2说话者之中区别了第2说话者的情况下，对区别出的第2说话者最近发言的语音的语音信息所示的该语音通过第2语言进行语音识别。语音识别指的是，语音识别部26对说话者所发言的语音的内容通过第1语言及第2语言进行识别。表示识别出的该语音的内容的第1文本文及第2文本文由语音识别部26生成。语音识别部26将生成的第1文本文及第2文本文向翻译处理部32输出。

[翻译处理部32]

翻译处理部32基于从语音识别部26取得的文本文，将文本文所示的被识别出的语言(识别语言)翻译为其他语言，生成通过翻译出的作为其他语言的翻译语言所示的文本文。

具体而言，翻译处理部32如果从语音识别部26取得了第1文本文，则从第1文本文所示的第1语言翻译为第2语言，生成被翻译为第2语言的第2文本文。翻译处理部32对第2文本文的内容进行识别，生成表示所识别出的第2文本文的内容的第2语言的翻译语音。翻译处理部32将生成的第1文本文及第2文本文向显示部33输出，并且将表示所生成的第2语言的翻译语音的信息向语音输出部34输出。

另外，翻译处理部32如果从语音识别部26取得了第2文本文，则从第2文本文所示的第2语言翻译为第1语言，生成被翻译为第1语言的第1文本文。翻译处理部32对第1文本文的内容进行识别，生成表示所识别出的第1文本文的内容的第1语言的翻译语音。翻译处理部32将生成的第2文本文及第1文本文向显示部33输出，并且将表示所生成的第1语言的翻译语音的信息向语音输出部34输出。

此外，语音翻译装置1也可以不具有翻译处理部32，也可以是云服务器具有翻译处理部32。在该情况下，语音翻译装置1也可以经由网络与云服务器以能够通信的方式连接，将语音识别装置10语音识别出的第1文本文或者第2文本文向云服务器发送。另外，语音翻译装置1也可以接收翻译出的第2文本文或者第1文本文、以及翻译语音，将接收的第2文本文或者第1文本文向显示部33输出，将接收的翻译语音向语音输出部34输出。

[显示部33]

显示部33例如是液晶面板或者有机el面板等的监视器。显示部33显示从翻译处理部32取得的第1文本文及第2文本文。

显示部33与第1说话者和第2说话者相对于语音识别装置10的位置关系相应地，对显示第1文本文及第2文本文的画面布局进行变更。例如，如果第1说话者发言，则显示部33在位于第1说话者侧的显示部33的区域显示被语音识别出的第1文本文，在位于第2说话者侧的显示部33的区域显示被翻译出的第2文本文。另外，如果第2说话者发言，则显示部33在位于第2说话者侧的显示部33的区域显示被语音识别的第2文本文，在位于第1说话者侧的显示部33的区域显示被翻译出的第1文本文。在这些情况下，显示部33以第1文本文与第2文本文的字符的朝向颠倒的方式显示。此外，显示部33在第1说话者与第2说话者左右并排地会话的情况下，以第1文本文与第2文本文的字符的朝向相同的方式显示。

[语音输出部34]

语音输出部34是输出从翻译处理部32取得的表示翻译语音的信息所示的翻译语音的扬声器。也就是说，语音输出部34在第1说话者发言的情况下，再现并输出与显示部33上显示的第2文本文同样的内容的翻译语音。另外，语音输出部34在第2说话者发言的情况下，再现并输出与显示部33上显示的第1文本文同样的内容的翻译语音。

[电源部35]

电源部35例如是一次电池或者二次电池等，经由布线与语音识别装置10、翻译处理部32、显示部33及语音输出部34等电连接。电源部35向语音识别装置10、翻译处理部32、显示部33及语音输出部34等供给电力。此外，在本实施方式中，电源部35设在语音翻译装置1，但也可以设在语音识别装置10。

＜动作＞

说明如上构成的语音翻译装置1所进行的动作。

图3是表示实施方式1中的语音翻译装置1的动作的流程图。图4是对第1说话者与第2说话者会话时的第1时刻和第2时刻的时序进行例示的图。在图3及图4中，设想第1说话者与第2说话者一对一会话的情况。另外，设想语音翻译装置1的拥有者作为第1说话者，第1说话者作为主体进行语音翻译装置1的操作的情况。另外，在语音翻译装置1中，预先设定第1说话者以第1语言进行发言，预先设定第2说话者以第2语言进行发言。

如图1a、图3及图4所示，首先，在第1说话者与第2说话者进行会话时，第1说话者在发出语音前，针对输入部24进行操作输入。也就是说，输入部24受理来自第1说话者的操作输入(s11)。具体而言，输入部24生成与受理的操作输入相应的输入信号，将生成的输入信号向发言开始检测部23输出。另外，输入部24生成包含受理了来自第1说话者的操作输入的第1时刻在内的输入信号，将生成的输入信号向发言者区别部25输出。

接下来，第1说话者是语音识别装置10的拥有者，当然理解了自身发言的定时，因此在针对输入部24进行了操作输入之后开始发言。语音识别装置10在第1说话者与第2说话者进行会话时，取得一方的说话者所发言的语音(s12)。也就是说，如果一方的说话者发言，则取得部21取得一方的说话者所发言的语音。取得部21转换为包含取得的一方的说话者所发言的语音在内的语音信号，将转换而得到的语音信号向存储部22输出。

接下来，存储部22存储步骤s12中由取得部21取得的语音信号中包含的语音的语音信息(s13)。也就是说，在存储部22中，自动地存储一方的说话者所发言的最近的语音的语音信息。

接下来，发言开始检测部23如果从输入部24取得了输入信号，则在步骤s13中被存储至存储部22的语音中，检测开始发言的开始位置(第2时刻)(s14)。具体而言，发言开始检测部23检测在第1说话者刚向输入部24进行了操作输入后由一方的说话者发言的、且通过一方的说话者的发言而存储的语音信息所示的语音的开始位置。

发言开始检测部23生成表示语音的开始位置的开始位置信息，将生成的开始位置信息向发言者区别部25及语音识别部26输出。

接下来，发言者区别部25如果从输入部24取得了输入信号，则基于按每个语音设定的第1时刻和第2时刻，区别一方的说话者是向输入部24进行了操作输入的第1说话者还是未向输入部24进行操作输入的第2说话者(s15a)。具体而言，发言者区别部25对第1时刻与第2时刻进行比较。也就是说，发言者区别部25判定第1时刻是否是与第2时刻相比时间更早的时刻。

例如，发言者区别部25在第1时刻是与第2时刻相比时间更早的时刻的情况下，判定为作为一方的说话者的第1说话者所发言的语音被输入至语音识别装置10(存储至存储部22)，从第1说话者及第2说话者之中区别第1说话者。另外，发言者区别部25在第2时刻是与第1时刻相比时间更早的时刻的情况下，判定为作为另一方的说话者的第2说话者所发言的语音被输入至语音识别装置10(存储至存储部22)，从第1说话者及第2说话者之中区别第2说话者。

在此，由于第1时刻是与第2时刻相比时间更早的时刻，因此发言者区别部25判定为第1说话者所发言的语音被输入至语音识别装置10(存储至存储部22)，从第1说话者及第2说话者之中区别第1说话者。发言者区别部25将包含区别出说话者的结果的结果信息向语音识别部26输出。结果信息包含表示步骤s12的语音信息是被区别的第1说话者的信息。

接下来，语音识别部26如果从发言者区别部25取得了结果信息，并且从发言开始检测部23取得了开始位置信息，则基于结果信息和开始位置信息，对由发言者区别部25进行了区别的处理的第1说话者的语音进行语音识别(s16)。

具体而言，语音识别部26经由发言开始检测部23从存储部22取得第1说话者最近发言的步骤s12的语音的语音信息。语音识别部26对经由发言开始检测部23从存储部22取得的语音信息所示的第1说话者所发言的该语音进行语音识别。

更具体而言，语音识别部26对第1说话者所发言的语音的内容通过第1语言进行识别，生成表示识别出的该语音的内容的第1文本文。也就是说，该第1文本文的内容与第1说话者所发言的语音的内容一致，通过第1语言表示。语音识别部26将生成的第1文本文向翻译处理部32输出。

翻译处理部32如果从语音识别部26取得了第1文本文，则从第1语言翻译为第2语言，生成被翻译为第2语言的第2文本文。也就是说，通过第2语言表示的第2文本文的内容与通过第1语言表示的第1文本文的内容一致。

翻译处理部32对第2文本文的内容进行识别，生成表示所识别出的第2文本文的内容的第2语言的翻译语音。

翻译处理部32将生成的第1文本文及第2文本文向显示部33输出，并且将表示所生成的第2语言的翻译语音的信息向语音输出部34输出。

显示部33显示从翻译处理部32取得的第1文本文及第2文本文(s17)。具体而言，显示部33在位于第1说话者侧的画面上显示第1文本文，在位于第2说话者侧的画面上显示第2文本文。显示部33相对于第1说话者以第1文本文的字符的朝向作为正向来显示，以便第1说话者阅读第1文本文，相对于第2说话者以第2文本文的字符的朝向作为正向来显示，以便第2说话者阅读第2文本文。也就是说，第1文本文的字符的朝向相对于第2文本文的字符的朝向颠倒。

另外，语音输出部34输出从翻译处理部32取得的表示第2语言的翻译语音的信息所示的第2语言的翻译语音(s18)。也就是说，语音输出部34输出从第1语言翻译为第2语言而得到的翻译语音。由此，听到第2语言的翻译语音的第2说话者能够理解第1说话者所发言的语音。另外，在显示部33上通过第2文本文显示，因此第2说话者能够也通过字符切实地理解第1说话者所发言的语音。

接下来，关于第2说话者发言的情况，使用图5进行说明。图5是表示第2说话者发言的情况下的语音翻译装置的动作的流程图。关于与图3同样的处理适宜省略说明。

如图1a、图4及图5所示，首先，第1说话者无法认识到作为说话者的第2说话者发言的定时，因此在第2说话者发言之后，针对输入部24进行操作输入。

首先，语音识别装置10在第1说话者与第2说话者进行会话时，取得另一方的说话者所发言的语音(s21)。也就是说，如果另一方的说话者发言，则取得部21取得另一方的说话者所发言的语音。取得部21转换为包含取得的另一方的说话者所发言的语音在内的语音信号，并将转换而得到的语音信号向存储部22输出。

接下来，另一方的说话者通过基于第2语言的语音发言。第1说话者在第1说话者与第2说话者进行会话时，在另一方的说话者发出语音之后，针对输入部24进行操作输入。也就是说，输入部24受理来自第1说话者的操作输入(s22)。具体而言，输入部24将与受理的操作输入相应的输入信号向发言开始检测部23输出，将包含受理了操作输入的时刻(第1时刻)的输入信号向发言者区别部25输出。

接下来，存储部22存储步骤s21中由取得部21取得的语音信号中包含的语音的语音信息(s13)。也就是说，在存储部22中，自动地存储另一方的说话者所发言的最近的语音的语音信息。

接下来，发言开始检测部23检测第1说话者刚向输入部24进行操作输入前另一方的说话者所发言的、且通过另一方的说话者的发言而存储的语音信息所示的语音的开始位置(第2时刻)(s14)。

发言开始检测部23生成表示语音的开始位置的开始位置信息，并将生成的开始位置信息向发言者区别部25及语音识别部26输出。

接下来，发言者区别部25对第1时刻与第2时刻进行比较，判定第1时刻是否是与第2时刻相比时间更早的时刻，从而区别另一方的说话者是第1说话者还是第2说话者(s15b)。

在此，第2时刻是与第1时刻相比时间更早的时刻，因此发言者区别部25判定为作为另一方的说话者的第2说话者所发言的语音被输入至语音识别装置10(存储至存储部22)，从第1说话者及第2说话者之中区别第2说话者。发言者区别部25将包含区别出说话者的结果的结果信息向语音识别部26输出。结果信息包含表示步骤s21的语音信息是区别出的第2说话者的信息。

接下来，语音识别部26如果从发言者区别部25取得了结果信息，并且从发言开始检测部23取得了开始位置信息，则基于结果信息和开始位置信息，对由发言者区别部25进行了区别的处理的第2说话者的语音进行语音识别(s16)。

具体而言，语音识别部26经由发言开始检测部23从存储部22取得第2说话者最近发言的步骤s21的语音的语音信息。语音识别部26对经由发言开始检测部23从存储部22取得的语音信息所示的第2说话者所发言的该语音进行语音识别。

更具体而言，语音识别部26对第2说话者所发言的语音的内容通过第2语言进行识别，生成表示所识别出的该语音的内容的第2文本文。也就是说，该第2文本文的内容与第2说话者所发言的语音的内容一致，通过第2语言表示。语音识别部26将生成的第2文本文向翻译处理部32输出。

翻译处理部32如果从语音识别部26取得了第2文本文，则从第2语言翻译为第1语言，生成被翻译为第1语言的第1文本文。也就是说，通过第1语言表示的第1文本文的内容与通过第2语言表示的第2文本文的内容一致。

翻译处理部32对第1文本文的内容进行识别，生成表示所识别出的第1文本文的内容的第1语言的翻译语音。

翻译处理部32将生成的第2文本文及第1文本文向显示部33输出，并且将表示所生成的第1语言的翻译语音的信息向语音输出部34输出。

显示部33显示从翻译处理部32取得的第2文本文及第1文本文(s17)。具体而言，显示部33在位于第1说话者侧的画面上显示第1文本文，在位于第2说话者侧的画面上显示第2文本文。在显示部33上，相对于第1说话者以第1文本文的字符的朝向作为正向来显示，以便第1说话者阅读第1文本文，相对于第2说话者以第2文本文的字符的朝向作为正向来显示，以便第2说话者阅读第2文本文。也就是说，第1文本文的字符的朝向相对于第2文本文的字符的朝向颠倒。

另外，语音输出部34输出从翻译处理部32取得的表示第1语言的翻译语音的信息所示的第1语言的翻译语音(s18)。也就是说，语音输出部34输出从第2语言翻译为第1语言而得到的翻译语音。由此，听到第1语言的翻译语音的第1说话者能够理解第2说话者所发言的语音。另外，在显示部33上通过第1文本文显示，因此第1说话者能够也通过字符切实地理解第2说话者所发言的语音。

然后，语音翻译装置1结束处理。

图6是表示实施方式1中的语音翻译装置1的发言者区别部25中的动作的流程图。图6是关于图3的步骤s15a及图5的步骤s15b的处理具体地进行说明的流程图。

如图3、图5及图6所示，首先，发言者区别部25以输入部24受理了来自第1说话者的操作输入的第1时刻作为基点，在从第1时刻到比第1时刻早规定期间的时刻之间，或者从该第1时刻到经过规定期间的时刻之间，从存储部22中存储的各个语音之中选择说话者所发言的最近的语音(s31)。

接下来，发言者区别部25对第1说话者和第2说话者各自每次发言时被设定的第1时刻与第2时刻进行比较，判定第1时刻是否是与第2时刻相比时间更早的时刻(s32)。

发言者区别部25在判定为第1时刻是与第2时刻相比时间更早的时刻的情况下(s32：是)，从第1说话者及第2说话者之中区别第1说话者(s33)。也就是说，在第1时刻是与第2时刻相比时间更早的时刻的情况下，是由于第1说话者理解了自身发言的定时，所以第1时刻成为比第2时刻更早的时刻。由此，发言者区别部25基于第1时刻和第2时刻，能够从第1说话者及第2说话者之中区别第1说话者。

发言者区别部25将包含从第1说话者及第2说话者之中区别出第1说话者的结果的结果信息，向语音识别部26输出。然后，发言者区别部25结束处理。

另外，发言者区别部25在判定为第2时刻是与第1时刻相比时间更早的时刻的情况下(s32：否)，从第1说话者及第2说话者之中区别第2说话者(s34)。也就是说，在第2时刻是与第1时刻相比时间更早的时刻的情况下，是由于第1说话者无法理解第2说话者发言的定时，因此在第2说话者发言之后才向输入部24进行操作输入，所以第2时刻成为比第1时刻更早的时刻。由此，发言者区别部25基于第1时刻和第2时刻，能够从第1说话者及第2说话者之中区别第2说话者。

发言者区别部25将包含从第1说话者及第2说话者之中区别出第2说话者的结果的结果信息，向语音识别部26输出。然后，发言者区别部25结束处理。

＜作用效果＞

接下来，说明本实施方式中的语音识别装置10的作用效果。

如上所述，本实施方式中的语音识别装置10是供第1说话者与作为第1说话者的会话对象的1个以上的第2说话者进行会话的语音识别装置10，具备：取得部21，取得第1说话者及1个以上的第2说话者的会话的各个语音；存储部22，存储取得部21所取得的第1说话者及1个以上的第2说话者的会话的各个语音；输入部24，至少受理来自第1说话者的操作输入；发言开始检测部23，与向输入部24的操作输入相应地，根据存储部22中存储的各个语音按每个语音检测开始发言的开始位置；发言者区别部25，基于按每个语音设定的、受理了向输入部24的操作输入的第1时刻以及表示发言开始检测部23从各个语音检测出的发言的开始位置的第2时刻，从第1说话者及1个以上的第2说话者之中，区别是向输入部24进行了操作输入的第1说话者还是未向输入部24进行操作输入的1个以上的第2说话者。然后，由发言者区别部25进行了区别的处理的第1说话者及1个以上的第2说话者的各个语音中的开始位置以后的语音，供语音识别部26进行语音识别。

于是，在本实施方式中，第1说话者及1个以上的第2说话者的会话的各个语音被存储于存储部22，因此能够根据存储的语音区别是第1说话者还是第2说话者。由此，语音识别部26能够从存储部22读出被进行了区别的处理的第1说话者及第2说话者的会话的各个语音并进行语音识别。也就是说，如果在第1说话者向输入部24进行了操作输入之后第1说话者发言，则语音识别部26能够对第1说话者所发言的语音进行语音识别。另外，通常在第1说话者的发言结束后第2说话者开始发言，因此通过与第2说话者的发言相应地由第1说话者向输入部24进行操作输入，语音识别部26能够对第2说话者所发言的语音进行语音识别。

因此，在该语音识别装置10中，能够切实地取得第2说话者(会话对象)的语音，从而对第2说话者(会话对象)的语音进行语音识别。

另外，本实施方式中的语音识别方法是供第1说话者与作为第1说话者的会话对象的1个以上的第2说话者进行会话的语音识别方法，包含：取得第1说话者及1个以上的第2说话者的会话的各个语音；将取得的第1说话者及1个以上的第2说话者的会话的各个语音存储至存储部22；至少受理从第1说话者向输入部24的操作输入；与向输入部24的操作输入相应地，根据存储部22中存储的各个语音按每个语音检测开始发言的开始位置；基于按每个语音设定的、受理了向输入部24的操作输入的第1时刻以及表示根据各个语音检测出的发言的开始位置的第2时刻，从第1说话者及1个以上的第2说话者之中，区别是向输入部24进行了操作输入的第1说话者还是未向输入部24进行操作输入的1个以上的第2说话者；被进行了区别的处理的第1说话者及1个以上的第2说话者的各个语音中的开始位置以后的语音用于语音识别。

在该语音识别方法中，也具有与上述的语音识别装置10同样的作用效果。

另外，本实施方式中的记录介质是记录了用于使计算机执行语音识别方法的程序的计算机可读取的非易失性的记录介质。

在该记录介质中，也具有与上述的语音识别装置10同样的作用效果。

另外，在本实施方式中的语音识别装置10中，发言者区别部25对按第1说话者及1个以上的第2说话者的会话的各个语音设定的第1时刻与第2时刻进行比较，在第1时刻是与第2时刻相比时间更早的时刻的情况下，从第1说话者及1个以上的第2说话者之中区别第1说话者，在第2时刻是与第1时刻相比时间更早的时刻的情况下，从第1说话者及1个以上的第2说话者之中区别第2说话者。

由此，例如在第1说话者是语音识别装置10的拥有者的情况下，第1说话者理解了所拥有的语音识别装置10的使用方法，因此在向输入部24进行了操作输入之后开始发言。也就是说，受理了由第1说话者向输入部24的操作输入的第1时刻，与第1说话者开始发言的第2时刻相比时间更早，因此发言者区别部25能够从第1说话者及1个以上的第2说话者之中区别第1说话者。另外，第1说话者无法认识到第2说话者发言的定时，因此从第2说话者开始发言之后向输入部24进行操作输入。也就是说，受理了由第1说话者向输入部24的操作输入的第1时刻，与第2说话者开始发言的第2时刻相比时间更晚，因此发言者区别部25能够从第1说话者及1个以上的第2说话者之中区别第2说话者。

像这样，发言者区别部25能够准确地区别距第1时刻最近的发言的说话者是第1说话者还是第2说话者。因此，在该语音识别装置10中，能够更加切实地取得第2说话者的语音，因此能够对第2说话者的语音进行语音识别。

另外，在本实施方式中的语音识别装置10中，在从第1说话者及1个以上的第2说话者之中区别了第1说话者的情况下，语音识别部26对第1说话者所发言的语音进行语音识别，在从第1说话者及1个以上的第2说话者之中区别了第2说话者的情况下，语音识别部26对第2说话者所发言的语音进行语音识别。

由此，通过由发言者区别部25区别所发言的说话者是第1说话者还是第2说话者，语音识别部26能够更加切实地对第1说话者及第2说话者所发言的各个语音进行语音识别。

另外，在本实施方式中的语音识别装置10中，发言者区别部25根据作为输入部24受理了操作输入的第1时刻前后的期间的规定期间中的第1说话者及1个以上的第2说话者的会话的各个语音，区别是第1说话者还是第2说话者。

由此，为了区别是第1说话者还是第2说话者，能够设置以第1时刻作为基点的规定期间。因此，能够区别从第1说话者进行了操作输入的第1时刻到比第1时刻早规定期间的时刻之间、或者从该第1时刻到经过规定期间的时刻之间说话者所发言的最近的语音是第1说话者还是第2说话者。由此，能够对第1说话者及第2说话者的各个语音分别地进行识别。因此，在该语音识别装置10中，能够准确地区别是第1说话者还是第2说话者。

另外，在本实施方式中的语音识别装置10中，在针对向输入部24进行了操作输入的第1说话者所发言的语音进行了语音识别之后，存储部22为了存储所述第2说话者的语音，开始存储取得部21所取得的各个语音。

通常，第2说话者在第1说话者的发言结束并理解了第1说话者的语音的内容后，开始发言。在对第1说话者所发言的语音进行了语音识别后，在第2说话者发言前开始录音，因此存储部22能够切实地存储第2说话者所发言的语音。另外，至少在从第1说话者结束发言的时刻直到存储部22开始录音之间，语音识别装置10能够使语音的存储中断。因此，能够抑制用于使存储部22存储的语音识别装置10的电力消耗。

另外，本实施方式中的语音识别装置10具备：语音识别部26，对由发言者区别部25进行了区别的处理的第1说话者及1个以上的第2说话者的各个语音中的开始位置以后的语音进行语音识别。

由此，由语音识别装置10进行语音识别，因此不需要向外部的云服务器发送语音，因此能够抑制语音识别装置10与云服务器之间的通信量的增加。

另外，在本实施方式中的语音识别装置10中，输入部24是语音识别装置10上设置的1个操作按钮。

由此，第1说话者能够简易地进行语音识别装置10的操作。

另外，在本实施方式中的语音识别装置10中，输入部24在第1说话者及1个以上的第2说话者各自每次发言时，受理来自第1说话者的操作输入。

由此，通过尽可能避免向第2说话者委托操作输入，由第1说话者积极地向语音识别装置10进行操作输入，从而能够从第1说话者及第2说话者之中切实地区别一方的说话者。

(实施方式2)

＜构成＞

使用图7说明本实施方式的语音翻译装置1的构成。

图7是表示实施方式2中的语音翻译装置1的框图。

在实施方式1中，语音识别装置10具有语音识别部26，但在本实施方式中，语音识别部51设置于云服务器50，这一点与实施方式1不同。

本实施方式中的其他构成只要没有特别注明，则与实施方式1同样，针对同一构成赋予同一标记并省略与构成相关的详细说明。

如图7所示，语音识别装置10a除了输入部24、取得部21、存储部22、发言开始检测部23及发言者区别部25之外还具备通信部29。

发言者区别部25如果从第1说话者及第2说话者之中区别了一方的说话者，则将包含区别出说话者的结果的结果信息向存储部22输出。

存储部22如果取得了该结果信息，则将区别出的说话者最近发言的语音的语音信息向通信部29输出。

通信部29是与具有语音识别部51的云服务器50经由网络能够进行无线或者有线通信的通信模组。

通信部29将由发言者区别部25进行了区别的处理的第1说话者及1个以上的第2说话者的各个语音向云服务器50发送。具体而言，通信部29经由发言开始检测部23从存储部22，取得发言者区别部25所区别出的说话者在第1时刻的最近发言的语音的语音信息，并将取得的语音信息经由网络向云服务器50发送。

另外，通信部29接收云服务器50的语音识别部51对各个语音的开始位置以后的语音进行语音识别而得到的结果。具体而言，通信部29从云服务器50，接收作为对第1说话者及1个以上的第2说话者的各个语音进行语音识别而得到的结果的表示该语音的内容的第1文本文及第2文本文，并将接收的第1文本文及第2文本文向翻译处理部32输出。

此外，语音翻译装置1也可以不具有翻译处理部32，也可以由云服务器50还具有翻译处理部32。在该情况下，语音翻译装置1的语音识别装置10a也可以经由网络与云服务器50以能够通信的方式连接，语音识别装置10a将第1说话者及1个以上的第2说话者的各个语音向云服务器50发送。另外，语音翻译装置1也可以接收表示该语音的内容的第1文本文、第2文本文及翻译语音，将接收的第1文本文及第2文本文向显示部33输出，将接收的翻译语音向语音输出部34输出。

＜作用效果＞

接下来，说明本实施方式中的语音识别装置10a的作用效果。

如上所述，本实施方式中的语音识别装置10a具备能够与具有语音识别部51的云服务器50通信的通信部29，通信部29将由发言者区别部25进行了区别的处理的第1说话者及1个以上的第2说话者的各个语音向云服务器50发送，接收云服务器50的语音识别部51对各个语音的开始位置以后的语音进行语音识别而得到的结果。

由此，第1说话者及1个以上的第2说话者所发言的各个语音由云服务器50进行语音识别，因此能够减轻语音识别装置10a的处理负担。

另外，在本实施方式中，具有与实施方式1同样的作用效果。

(其他变形例等)

以上，关于本公开基于实施方式1、2进行了说明，但本公开不限定于这些实施方式1、2等。

例如，在上述各实施方式1、2所涉及的语音识别装置、语音识别方法及记录介质中，语音识别装置也可以通过在翻译开始时按下一次输入部，自动地进行与第1说话者和第2说话者的发言相应的语音识别、以及语音识别出的语言的翻译。

另外，在上述各实施方式1、2所涉及的语音识别装置、语音识别方法及记录介质中，也可以基于取得部所取得的语音，估计第1说话者及1个以上的第2说话者相对于语音翻译装置的方向。在该情况下，也可以使用麦克风阵列部的取得部，根据第1说话者及1个以上的第2说话者各自发言的语音，估计相对于语音翻译装置的声源方向。具体而言，语音识别装置也可以计算语音到达取得部中的各个麦克风的时间差(相位差)，例如通过延迟时间估计法等估计声源方向。

另外，在上述各实施方式1、2所涉及的语音识别装置、语音识别方法及记录介质中，语音识别装置也可以不搭载于语音翻译装置。例如，语音识别装置与语音翻译装置也可以是分别独立的装置。在该情况下，语音识别装置也可以具有电源部，语音翻译装置也可以具有翻译处理部、显示部、语音输出部及电源部。

另外，在上述各实施方式1、2所涉及的语音识别装置、语音识别方法及记录介质中，也可以通过将存储部所存储的第1说话者及1个以上的第2说话者的各个语音经由网络向云服务器发送，来保存于云服务器，也可以仅将识别该各个语音而得到的第1文本文及第2文本文经由网络向云服务器发送，来保存于云服务器。在该情况下，也可以将该各个语音、第1文本文及第2文本文等从存储部删除。

另外，在上述各实施方式1、2所涉及的语音识别装置、语音识别方法及记录介质中，语音识别装置也可以对取得部所取得的说话者的语音的区间进行检测，从而如果能够以规定期间以上检测出无法取得说话者的语音的期间，则自动地使录音中止或者停止。

另外，上述各实施方式1、2所涉及的语音识别方法也可以通过使用计算机的程序实现，这样的程序也可以存储于存储装置。

另外，上述各实施方式1、2所涉及的语音识别装置、语音识别方法及记录介质中包含的各处理部，典型地以作为集成电路的lsi实现。这些既可以个别地作为单芯片，也可以以包含一部分或者全部的方式作为单芯片。

另外，形成集成电路不限于lsi，也可以由专用电路或者通用处理器实现。也可以利用在制造lsi后能够编程的fpga(fieldprogrammablegatearray：现场可编程逻辑门阵列)，或者可重构lsi内部的电路单元的连接及设定的可重构处理器。

此外，在上述各实施方式1、2中，各构成要素也可以由专用的硬件构成，或者通过执行适于各构成要素的软件程序实现。各构成要素也可以通过由cpu或者处理器等程序执行部将硬盘或者半导体存储器等记录介质中记录的软件程序读出并执行来实现。

另外，上述使用的数字全部是为了具体说明本公开而例示的，本公开的实施方式1、2不限于例示的数字。

另外，框图中的功能模块的分割是一例，也可以将多个功能模块作为一个功能模块实现，或者将一个功能模块分割为多个，或者将一部分功能转移至其他功能模块。另外，也可以将具有相似的功能的多个功能模块的功能，由单一的硬件或者软件并列或者分时地处理。

另外，流程图中的各步骤被执行的顺序是为了具体说明本公开而例示的，也可以是上述以外的顺序。另外，上述步骤的一部分也可以与其他步骤同时(并行)地执行。

本领域技术人员针对实施方式1、2实施所想到的各种变形而得到的其他方式、在未脱离本公开的主旨的范围内对实施方式1、2中的构成要素及功能任意组合而实现的方式，也包含于本公开。

工业实用性

本公开能够适用于供说不同语言的多个说话者通过会话沟通意思而使用的语音识别装置、语音识别方法及记录介质。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签：语音识别自然语言处理语言翻译信息存储语音芯片

上一篇车载设备控制方法、车载设备控制装置和车载系统与流程

下一篇控制装置及其操作方法，和语音交互装置及其操作方法与流程

热门咨询

热门标签

热门产品

tips