多人对话系统和多人对话方法与流程
本发明涉及多人对话系统和多人对话方法,例如适合应用于与多人进行对话的多人对话系统和多人对话方法。
背景技术:
近年来,开发出了在公共空间一边与使用者进行语音的会话一边提供服务的对话引擎。对话引擎被实际安装为具备能够进行移动的机构的机器人、显示在显示器内的人物等。对话引擎通过麦克风、照相机等输入装置,检测使用者的要求和周围的状况,通过扬声器、显示器等输出装置,提示使用者所要求的信息。这时,需要根据从输入装置得到的各种信息,计算应该输出到输出装置的信息。将该一连串的系统称为对话系统。另外,将主要设想了语音的输入输出的对话系统称为语音对话系统。
在此,为了实现进行使用者的满足度高的对话的语音对话系统,需要各种技术。
作为基本要素技术,有高精度的语音识别技术、高质量的语音合成技术、管理对话的状况并生成适当的应答的对话控制技术等。
还经常使用以下的功能,即在对话引擎输出语音的过程中,也接受用户插嘴地发言的语音(强插功能)。这时,理想的是,对话控制部生成与该插嘴的定时对应的适当的应答。
另外,特别是公共空间的对话引擎,面对多个使用者的情况较多,要求在这样的状况下适当地进行行动。
例如在专利文献1中,公开了一种语音对话程序,其根据图像数据判别父母和孩子,判别父母与孩子是否正在对话,并提供基于过去检测出的孩子的活动内容的最新的话题。
另外,在专利文献2中,公开了一种多模态对话装置,其根据语音和图像推定使用者的人数、各使用者的人际关系等,如果在与某使用者的对话中被其他使用者关注,则向该使用者搭话或与其他使用者商量。
另一方面,广泛地普及了设想了一对一的语音对话、文本对话的自动应答系统、面向智能扬声器的对话系统、聊天机器人系统等。还提供了对应的内容生成系统,成为很多系统(服务)能够利用的状态。
现有技术文献
专利文献
专利文献1:日本特开2018-097185号公报
专利文献2:日本特开2011-215900号公报
发明要解决的问题
在以多个使用者为前提的环境中使对话引擎动作的情况下,在专利文献1和专利文献2记载的方法中,分别需要通过独自的方法制作对话内容,到导入为止需要时间,或成本增大。由此,要求使用现有的设想了与单独的使用者的对话的系统而适当地进行对话的多人对话系统。但是,如果使用现有的设想了与单独的使用者的对话的系统,则在以多个使用者为前提的环境中,存在对话会混乱的问题。
技术实现要素:
本发明就是考虑到以上点而提出的,提出一种多人对话系统,其在以多个使用者为前提的环境中,使用现有的设想了与单独的使用者的对话的系统,适当地进行对话。
解决方案
为了解决该问题,在本发明中,具备:存储部,其存储将使用者和与上述使用者所属的组对应的会话(session)关联起来的信息;输入部,其针对每个会话,将使用者的对话的内容变换为能够进行对话的对话系统的输入形式;控制部,其使用存储在上述存储部中的信息,指定与上述使用者所属的组对应的会话,并将由上述输入部变换后的使用者的对话的内容发送到上述对话系统,并接收从上述对话系统回信的对上述对话的应答;输出部,其将上述控制部接收到的应答变换为输出形式并进行输出。
根据上述结构,指定与组对应的会话并将使用者的对话的内容发送到对话系统,因此例如在以多个使用者为前提的环境中使用了现有的设想了与单独的使用者的对话的系统的情况下,也能够不使对话混乱地适当地控制对话。
发明效果
根据本发明,能够避免对话的混乱。
附图说明
图1是表示第一实施方式的多人对话系统的结构的一个例子的图。
图2是表示第一实施方式的对话引擎的结构的一个例子的图。
图3是表示第一实施方式的对话系统的结构的一个例子的图。
图4是表示第一实施方式的对话控制程序的处理的流程的一个例子的图。
图5是表示以实施方式的使用者组db的结构的一个例子的图。
图6是表示第二实施方式的对话引擎的结构的一个例子的图。
图7是表示第二实施方式的使用者组检测程序的处理的流程的一个例子的图。
图8是表示第二实施方式的对话控制程序的处理的流程的一个例子的图。
图9是表示第三实施方式的对话引擎的结构的一个例子的图。
图10是表示第三实施方式的对话控制程序的处理的流程的一个例子的图。
图11是表示第三实施方式的输入变换程序的处理的流程的一个例子的图。
图12是表示第三实施方式的输入变换规则db的结构的一个例子的图。
附图标记说明
100:多人对话系统;110:对话引擎;120:对话系统;130:使用者。
具体实施方式
以下,针对附图,详细说明本发明的一个实施方式。本实施方式涉及主要使用语音与多个使用者一边进行交流一边提供服务的对话系统。在本实施方式的多人对话系统中,具有在以多个使用者为前提的环境中使用现有的设想了与单独的使用者的对话的系统而适当地进行对话的结构。以下,说明该结构。
此外,在以下的说明中,有时在不区别地说明同种要素的情况下,使用包含分序号的附图标记中的共通部分(除了分序号以外的部分),在区别地说明同种要素的情况下,使用包含分序号的附图标记。例如,有时在不特别区别地说明使用者的情况下,记载为“使用者130”,在区别地说明各个使用者的情况下,如“使用者130-1”、“使用者130-2”那样地记载。
(1)第一实施方式
在图1中,100作为整体表示第一实施方式的多人对话系统。
图1是表示多人对话系统100的结构的一个例子的图。多人对话系统100构成为具备对话引擎110。此外,多人对话系统100也可以包括对话系统120等其他结构要素。
对话引擎110是机器人等,被配置在与多个使用者130(使用者130-1、使用者130-2、使用者130-3等)相同的空间中。对话引擎110通过无线lan(局域网)连接而与无线接入点140进行通信,能够与对话系统120收发任意的数据。
图2是表示对话引擎110的结构的一个例子的图。
对话引擎110具有与普通的计算机的结构相同的结构。更具体地说,对话引擎110具备cpu(中央处理单元)210、存储装置220、以及nic(网络接口卡)230。另外,对话引擎110具备麦克风240、照相机250、扬声器260、以及电动机270作为输入输出设备。各个组件能够通过总线280收发数据。
存储装置220(存储部的一个例子)是ram(随机存取存储器)、hdd(硬盘驱动器)等,作为程序具备语音识别程序221(输入部的一个例子)、语音合成程序222(输出部的一个例子)、对话控制程序223(控制部的一个例子)、电动机控制程序224(动作部的一个例子)、使用者组检测程序225(检测部的一个例子)。在对话引擎110的启动时,这些程序由存在于存储装置220内的未图示的os(操作系统)读入cpu210而被执行。
此外,对话引擎110的功能(输入部、输出部、控制部、动作部、检测部等)例如既可以通过由cpu210将程序读出到存储装置220并执行(软件)来实现,也可以通过专用的电路等硬件来实现,还可以组合软件和硬件地实现。另外,也可以通过能够与对话引擎110进行通信的其他计算机来实现对话引擎110的功能的一部分。
语音识别程序221从麦克风240接收语音波形,在检测出语音时,将检测出的语音变换为文本,测量发出该语音的声源的方向,将测量出的声源的方向与文本一起作为语音识别结果发送到对话控制程序223。
为了测量声源的方向,安装多个麦克风240,通过gcc-pha(generalizedcrosscorrelationwithphasetransform:基于广义互相关的相位变换)法、music(multiplesignalclassification:多重信号分类)法等进行计算。作为将语音变换为文本的手段,可以通过安装市售的语音识别的产品、开源软件等、或通过nic230向在因特网上公开的语音识别api(应用程序接口)发送语音波形来实现。
语音合成程序222从对话控制程序223接收文本,依照接收到的文本生成语音波形,并将该语音波形发送到扬声器260。语音合成程序222可以利用市售的产品、开源软件等。
对话控制程序223控制使用者130的对话。将在后面使用图4说明对话控制程序223的详情。
电动机控制程序224从对话控制程序223接收与电动机270有关的指示,并进行电动机270的控制。由于以下的目的而利用电动机270,即变更对话引擎110的位置、方向,或变更麦克风240、照相机250等输入装置的位置、方向,或使安装在对话引擎110的未图示的机器手、眼等移动而灵活进行与使用者130的交流。
使用者组检测程序225例如根据由照相机250拍摄的使用者130的图像来检测使用者130。
另外,存储装置220具备使用者组db226来作为数据库(db:database)。将在后面使用图5说明使用者组db226。
图3是表示对话系统120的结构的一个例子的图。
对话系统120是服务器装置等,向网络内的客户端装置(例如对话引擎110)提供文本对话服务。对话系统120具有与普通的计算机的结构相同的结构。更具体地说,对话系统120具备cpu310、存储装置320、以及nic330。各个组件能够通过总线340收发数据。
作为程序,存储装置320具备对话控制程序321(控制部的一个例子)和会话推定程序322(推定部的一个例子)。在对话系统120的启动时,这些程序由存在于存储装置320内的未图示的os读入到cpu310而被执行。
对话系统120的功能(控制部、推定部等)例如既可以通过由cpu310将程序读出到存储装置320并执行(软件)来实现,也可以通过专用的电路等硬件来实现,还可以组合软件和硬件地实现。另外,也可以通过能够与对话系统120进行通信的其他计算机来实现对话系统120的功能的一部分。
另外,存储装置320具备对话内容db323和会话管理db324。在对话内容db323中,由服务开发者登记了多个由设想输入文本、当前状态id、输出文本、下一个状态id的组构成的记录。在会话管理db324中,管理由会话id和与会话id对应的状态id的组构成的记录。
对话控制程序321经由nic330接收来自对话引擎110的文本(以下适当地称为输入文本)和会话id。对话控制程序321解析输入文本,使用对话内容db323生成文本(以下适当地称为输出文本),并经由nic330将生成的输出文本发送到对话引擎110。
另外,对话控制程序321根据会话id并参照会话管理db324来获取当前状态id,在对话内容db323中,选择当前状态id一致、进而具有最接近输入文本的设想输入文本的输出文本。另外,对话控制程序321将同一记录的下一个状态id写入到会话管理db324中。
会话推定程序322接收来自对话引擎110的输入文本作为“会话推定模式”。在该情况下,会话推定程序322根据会话id并参照会话管理db324来获取当前状态id,在对话内容db323中,选择当前状态id一致、进而具有最接近输入文本的设想输入文本的输出文本。将这时的输入文本与设想输入文本的一致度作为推定可靠度,将推定可靠度最高的会话id和该推定可靠度作为会话推定结果而发送到对话引擎110。作为得到输入文本与设想输入文本的一致度的方法,使用基于编辑距离的现有技术、elasticsearch等软件。
在对话系统120中,可以利用以上所述的具备会话管理、与单独对话者的对话功能等的普通的文本对话服务。可以将其列举为本发明的效果之一。
图4是表示对话控制程序223的处理的流程的一个例子的图。
在步骤s410中,对话控制程序223判定是否结束系统。对话控制程序223在判定为结束系统的情况下,结束处理,在判定为不结束系统的情况下,使处理转移到步骤s420。
在步骤s420中,对话控制程序223判定是否从语音识别程序221接收到语音识别结果。对话控制程序223在判定为接收到语音识别结果的情况下,使处理转移到步骤s430,在判定为没有接收到语音识别结果的情况下,使处理转移到步骤s410。换言之,对话控制程序223进行等待直到从语音识别程序221接收语音识别结果为止。此外,在语音识别结果中包含如上述那样对语音进行变换所得的文本和声源的方向的信息。
在步骤s430中,对话控制程序223更新使用者组db226。更具体地说,对话控制程序223当从语音识别程序221接收到语音识别结果时,与使用者组db226的各使用者id的方向信息进行对照,获取方向最接近的使用者id。在此,在获取的方向与语音识别结果的方向的差超过一定的阈值的情况下,判定为是新的使用者130,赋予信息的使用者id,并更新使用者组db226。此外,这时,新的使用者130所属的组并不清楚,因此对话控制程序223针对会话id接受后述的会话推定模式的会话推定结果并进行登记。
在步骤s440中,对话控制程序223向对话系统120发送语音识别结果来作为“会话推定模式”。对话系统120的会话推定程序322针对存在于会话管理db324中的所有会话,计算根据在该会话的当前状态id下接收到的文本的一致度计算的推定可靠度,并将最大的推定可靠度和输出它的会话id作为会话推定结果而输出。对话控制程序223在推定可靠度是一定的阈值以上的情况下,更新会话id。另一方面,对话控制程序223在推定可靠度比一定的阈值低的情况下,在与使用者组db226的使用者id中的方向信息最接近的使用者id之间的方向的差分是一定的阈值以下的情况下,看作为属于与方向信息最接近的使用者id相同的组,赋予该使用者的会话id。在未赋予会话id的情况下,分配新的会话id。这样,在每次接收语音识别结果(每次发言)时,判定是否适当地形成了组,并更新使用者组db226的会话id。
在步骤s450中,对话控制程序223向对话系统120发送语音识别结果和会话id。此外,对话系统120的对话控制程序321如上述那样生成输出文本,并将生成的输出文本输出到对话引擎110。
在步骤s460中,对话控制程序223将接收到的输出文本输出到语音合成程序222。这时,在输出文本中,除了包含要进行语音合成的文本以外,还可以包含电动机控制信息。在该情况下,对话控制程序223将电动机控制信息发送到电动机控制程序224。
例如,对话控制程序223将输出文本发送到语音合成程序222,使得向属于进行对话的使用者130所属的组的所有使用者130同时或逐次地进行输出。
另外,例如对话控制程序223从使用者组db226获取具有与该会话id相同的值的所有的使用者的方向信息,将对话引擎110面向各方向信息所示的方向那样的电动机控制信息发送到电动机控制程序224。更具体地说,对话控制程序223按照方向信息的个数(n)对从输出文本变换的语音的发言区间整体(t)进行等分割,将针对各分割点的时刻(tn=t×n/n,n=1、……、n)使对话引擎110整体旋转的电动机270的目标位置设定为各个方向。
图5是表示与使用者组db226相关的结构的一个例子(使用者组db500)的图。
使用者组db500存储多个包含使用者id、方向信息、以及会话id而构成的记录。通过对话控制程序223进行记录的追加、参照、变更、删除。
此外,在替换了使用者130的情况下,如果留下旧记录的信息,则有时不能正确地动作。在该情况下,例如在通过照相机250等传感器检测出使用者130离去的情况下,在发生了在一定时间内没有信息更新等的状况的情况下,对话控制程序223根据需要删除记录。
如果根据以上说明的内容例如构成语音对话系统,则能够对根据使用者的位置关系和会话内容识别出的每个组,自动地产生对话系统的会话,防止各个会话混乱。
根据本实施方式,能够在有多个使用者的环境中利用设想了与单独使用者的对话的系统,因此能够削减到导入为止的时间,或大幅削减服务开发成本。
(2)第二实施方式
在本实施方式中,通过使用使用者的图像来提高分组的精度,主要是这一点与第一实施方式不同。在本实施方式中,主要说明与第一实施方式的不同点。
图6是表示本实施方式的对话引擎110的结构的一个例子的图。
存储装置220还具备使用者管理db610。使用者管理db610是用于管理使用者130的位置和使用者130发言的区间(发言区间)的db。更具体地说,使用者管理db610存储包含使用者130的位置、使用者130的使用者id、以及发言区间而构成的多个记录。
图7是表示本实施方式的与使用者组检测程序225的处理相关的流程的一个例子的图。
在步骤s710中,使用者组检测程序225判定是否结束系统。使用者组检测程序225在判定为结束系统的情况下,结束处理,在判定为不结束系统的情况下,使处理转移到步骤s720。
在步骤s720中,使用者组检测程序225从照相机250获取图像。
在步骤s730中,使用者组检测程序225检测图像内的人物和该人物的位置(使用者130和使用者130的位置)。在人物的检测中,使用普通的脸检测技术、人物检测技术等。另外,使用者组检测程序225利用图像内的人物和已经登记在使用者管理db610中的信息进行跟踪,确定图像内的人物的使用者id。跟踪可以利用基于图像特征量、边框的距离的普通的方法。在使用者管理db610中没有符合的信息的情况下,赋予新的使用者id。
在步骤s740中,使用者组检测程序225对检测出的图像内的人物是否正在发言进行检测。在正在发言的检测中,使用唇的运动检测、基于脸图像的运动特征量的检测、基于人物图像整体的运动特征量的检测等普通的方法。
在步骤s750中,使用者组检测程序225将使用者130的位置、使用者id、以及发言区间的信息作为检测结果登记到使用者管理db610中。
图8是表示本实施方式的与对话控制程序223的处理相关的流程的一个例子的图。
在步骤s810中,对话控制程序223使与语音识别结果对应的语音的发言区间与使用者管理db610的发言区间匹配(对照),使用与一致的使用者管理db610的记录关联的使用者130的位置(位置信息)作为与语音识别结果对应的语音的方向信息。或者,使用发言区间一致的使用者130的使用者id作为与语音识别结果对应的语音的使用者id。在该情况下,在没有一致的使用者id时,判定为是新的使用者130,赋予新的使用者id,并更新使用者组db226。
此外,对于语音的发言区间(发言时间),既可以包含在语音识别结果中,也可以与使用者id对应地存储到存储装置220中。
在本实施方式中,通过根据发言区间进行发出语音的使用者与图像的使用者的对应,而能够更准确地识别使用者,能够进一步提高分组的精度。
(3)第三实施方式
在现有的对话系统中,设想了与单独的使用者的对话,因此如果在以多个使用者为前提的环境中识别各使用者的语音,输入其识别结果,则有可能产生无法应对设想以外的输入的状况。根据本实施方式,能够避免这样的状况,主要是这一点与第一实施方式不同。在本实施方式中,主要说明与第一实施方式的不同点。
图9是表示本实施方式的对话引擎110的结构的一个例子的图。
存储装置220还具备输入变换程序910和输入变换规则db920。
图10是表示本实施方式的与对话控制程序223的处理相关的流程的一个例子的图。
在步骤s1010中,对话控制程序223在向对话系统120发送语音识别结果之前,判定语音识别结果是否是向对话引擎110发言。
更具体地说,对话控制程序223根据在使用者130的发言区间中从照相机250得到的图像,检测对着对话引擎11的脸或身体整体的姿势,并对是否朝向对话引擎110的方向进行数值化。作为具体方法,使用以下的作为现有的图像处理技术的方法,即对将通过人物检测、脸检测、姿势推定等得到的特征量作为输入并将数值作为输出的推定器进行机器学习。
进而,对话控制程序223在使用者的发言区间中,根据从麦克风240得到的语音,对是否是对着对话引擎110的发言进行数值化。作为具体方法,使用对以下的推定器进行机器学习的方法,该推定器针对每个预定的时间(例如20毫秒)的每个语音区间,将通过傅里叶变换将语音的特征量变换为频域所得的特征向量作为输入,在时序地对其进行了输入时输出数值。
对话控制程序223根据两者的数值的平均值是否超过一定的阈值,判定语音识别结果是否是朝向对话引擎110发言。
对话控制程序223在判定为语音识别结果是朝向对话引擎110发言的情况下,使处理转移到步骤s450,在判定为语音识别结果不是朝向对话引擎110发言的情况下,使处理转移到步骤s1020。
在步骤s1020中,对话控制程序223将语音识别结果发送到输入变换程序910。将在后面使用图11说明该输入变换程序910。对话控制程序223根据从输入变换程序910接收的内容(变更后的文本),覆盖语音识别结果。
图11是表示本实施方式的与输入变换程序910的处理相关的流程的一个例子的图。
在步骤s1110中,输入变换程序910判定是否结束系统。输入变换程序910在判定为结束系统的情况下,结束处理,在判定为不结束系统的情况下,使处理转移到步骤s1120。
在步骤s1120中,输入变换程序910判定是否从对话控制程序223接收到输入文本。输入变换程序910在判定为接收到输入文本的情况下,使处理转移到步骤s1130,在判定为没有接收到输入文本的情况下,使处理转移到步骤s1110。
在步骤s1130中,输入变换程序910将输入文本与输入变换规则db920的各记录的变换前进行对照,根据变换后的规则对匹配的记录进行置换。例如,使用标准表达记载变换前和变换后,由此输入变换程序910能够将出现在输入文本中的特定的表达置换为其他表达。
在步骤s1140中,输入变换程序910将变换后的文本发送到对话控制程序223。
图12是表示本实施方式的与输入变换规则db920相关的结构的一个例子(输入变换规则db1200)的图。
输入变换规则db1200保存多个变换前和变换后的记录。例如,使用标准表达记载变换前和变换后。
如果根据以上说明的内容构成语音对话系统,则除了第一实施方式的效果以外,进而还针对使用者不是面向对话引擎而是对其他使用者说的内容,由对话引擎对其进行宛如是单独的用户连续输入的文本那样的变换并输入,由此面向与单独用户的对话而设计的系统能够返回适当的应答。
根据本实施方式,能够返回适当的应答,因此能够减少对话混乱的状况。
(4)其他实施方式
此外,在上述实施方式中,说明了将本发明应用于多人对话系统的情况,但本发明并不限于此,还能够广泛地应用于其他各种系统、装置、方法、程序。
另外,在上述实施方式中,作为对话,列举发言为例子进行了说明,但本发明并不限于此,也可以是文本的输入,也可以是手语,也可以是手势,还可以是其他意思表示。
另外,在上述实施方式中,作为表示声源的位置的位置信息(语音的地理信息),列举声源的方向为例子进行了说明,但本发明并不限于此,也可以使用声源的位置、声源的距离等。
另外,在上述实施方式中,作为表示图像内的人物(使用者)的位置的位置信息(图像的地理信息),列举使用者的位置为例子进行了说明,但本发明并不限于此,也可以使用使用者的方向、使用者的距离等。
另外,在上述实施方式中,说明了以下的情况,即在步骤s1010中,对话控制程序223根据两者的数值的平均值是否超过一定的阈值,判定语音识别结果是否是向对话引擎110发言,但本发明并不限于此,对话控制程序223也可以根据任意一方的数值是否超过一定的阈值,判定语音识别结果是否是向对话引擎110发言。
另外,在上述实施方式中,有时以“程序”为主语说明处理,但也可以通过处理器部执行程序,由此一边适当地使用存储部(例如存储器)和/或接口部(例如通信端口)等一边进行所确定的处理,因此处理的主语为处理器。也可以将以程序为主语说明的处理作为处理器部或具备该处理器部的装置进行的处理。另外,处理器部也可以包括进行处理的一部分或全部的硬件电路(例如fpga(field-programmablegatearray:现场可编程门阵列)或asic(应用专用集成电路))。也可以将程序从程序源安装到计算机那样的装置。程序源例如可以是程序发布服务器、或计算机可读的存储介质(例如非临时的存储介质)。另外,在以下的说明中,既可以作为1个程序实现2个以上的程序,也可以作为2个以上的程序实现一个程序。
另外,在上述实施方式中,各表的结构的一个例子,既可以是将一个表分割为2个以上的表,也可以是2个以上的表的全部或一部分是一个表。
另外,在上述说明中,可以将实现各功能的程序、表、文件等信息放置到存储器、硬盘、ssd(固态驱动器)等存储装置、或ic卡、sd卡、dvd等记录介质中。
另外,本发明例如具有下述的特征性结构。
其特征在于,具备:存储部(例如存储装置220),其存储将使用者(例如使用者130)和与上述使用者所属的组对应的会话关联起来的信息(例如使用者组db226、使用者组db500);输入部(例如语音识别程序221),其将使用者的对话(例如发言(语音))的内容(例如语音波形)变换为能够在每个会话中对话的对话系统(例如对话系统120)的输入形式(例如输入文本);控制部(例如对话控制程序223),其使用存储在上述存储部中的信息,指定与上述使用者所属的组对应的会话,将由上述输入部变换后的使用者的对话的内容发送到上述对话系统,并接收从上述对话系统回信的对上述对话的应答(例如输出文本);输出部(例如语音合成程序222),其将上述控制部接收到的应答变换为输出形式(例如语音波形)而进行输出。
根据上述结构,指定与组对应的会话,将使用者的对话的内容发送到对话系统,因此例如在以多个使用者为前提的环境中,在使用现有的设想了与单独的使用者的对话的系统的情况下,也能够不使对话混乱地适当地控制对话。
其特征在于,上述输入部接受语音,上述控制部根据发出由上述输入部接受到的语音的声源的位置来识别使用者,关联地存储识别出的使用者和表示上述位置的位置信息(例如使用者组db226、使用者组db500)(例如步骤s430),在根据存储的位置信息而判定为在发出由上述输入部接受到的语音的使用者的附近没有与上述语音的对话有关的人的情况下,制作组,并将发出上述语音的使用者和与所制作的组对应的会话关联地存储到上述存储部中(例如步骤s440和步骤s450)。
根据上述结构,例如能够根据语音的位置信息识别使用者,而制作组。
其特征在于,具备:检测部(例如使用者组检测程序225),其根据由照相机(例如照相机250)拍摄到的图像来检测使用者,其中,上述检测部生成表示根据由上述照相机拍摄到的图像而检测出的使用者的位置的位置信息,关联地存储所生成的位置信息和上述使用者(例如步骤s720~步骤s750),上述输入部接受语音,上述控制部根据表示发出由上述输入部接受到的语音的使用者的位置的位置信息来识别使用者,在判定为在识别出的使用者的附近没有与上述语音的对话有关的人的情况下,制作组,并将发出上述语音的使用者和与所制作的组对应的会话关联地存储到上述存储部中(例如步骤s810和步骤s440)。
根据上述结构,例如使用图像的位置信息识别使用者,因此能够更准确地识别使用者,能够提高分组的精度。
其特征在于:上述检测部检测根据由上述照相机拍摄到的图像的使用者发出语音的区间(例如步骤s740),上述控制部根据发出由上述输入部接受到的语音的区间与由上述检测部从图像中检测出的区间的一致度,使发出由上述输入部接受到的语音的使用者和由上述照相机拍摄到的图像的使用者关联起来,识别发出上述语音的使用者(例如步骤s810)。
根据上述结构,例如根据发言区间进行发出语音的使用者与图像的使用者的对应,由此能够更准确地识别使用者,能够进一步提高分组的精度。
其特征在于:上述输出部向属于进行由上述输入部接受到的对话的使用者所属的组的所有使用者进行输出(例如步骤s460)。
在上述结构中,例如向属于发出语音的使用者所属的组的使用者进行输出,由此即使存在其他组,也能够避免对话混乱的状况。
其特征在于,具备:动作部(例如电动机控制程序224),其使设置有上述输入部、上述控制部以及上述输出部的对话引擎(例如对话引擎110)动作,其中,上述动作部在由上述输出部输出对使用者的对话的应答的期间,使上述对话引擎逐次地面对属于上述使用者所属的组的所有使用者(例如步骤s460)。
在上述结构中,例如使对话引擎逐次地面对属于使用者所属的组的所有使用者而进行输出,因此即使混合地存在其他组的使用者,也能够避免对话混乱的状况。
其特征在于:上述输入部、上述控制部以及上述输出部被设置在对话引擎(例如对话引擎110)中,具备:变换部(例如输入变换程序910),其使用以将由上述输入部接受到的使用者的对话不面向上述对话引擎的发言的内容变换为面向上述对话引擎的内容为目的而制作的变换信息(例如输入变换规则db920、输入变换规则db1200),将上述对话的内容变换为面向上述对话引擎的内容,其中,上述控制部在由上述输入部接受到的使用者的对话不是面向上述对话引擎的对话的情况下,将通过上述输入部变换后的使用者的对话的内容发送到上述变换部,将通过上述变换部变换后的内容发送到上述对话系统(例如步骤s1010、步骤s1020)。
在上述结构中,例如将人之间的对话变换为面向对话引擎的内容,因此能够看作为宛如一个人对对话系统说话。由此,能够避免由于直接输入人之间的对话而成为不自然的对话的状况。
其特征在于:上述输入部接受语音,上述变换部在由上述输入部接受了使用者的语音时,根据对着上述对话引擎的上述使用者的脸或身体整体的姿势,判定上述使用者的语音是否是面向上述对话引擎的语音(例如步骤s1010)。
根据上述结构,例如能够使用现有的图像处理技术,判定是否是面向对话引擎的发言。
其特征在于:上述输入部接受语音,上述变换部根据由上述输入部接受到的使用者的语音的特征,判定上述使用者的语音是否是面向上述对话引擎的语音(例如步骤s1010)。
根据上述结构,例如能够使用现有的语音处理技术,判定是否是面向对话引擎的发言。
另外,也可以在不超出本发明的主要内容的范围内,对上述结构适当地进行变更、或替换、或组合、或省略。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除