智能语音助手决策策略的训练方法及装置与流程
本申请涉及智能家居技术领域,尤其涉及一种智能语音助手决策策略的训练方法及装置。
背景技术:
目前,很多智能设备都通过智能语音助手来实现和用户的智能互动。其中,决策引擎是智能语音助手的核心部分,其主要任务是对用户在各业务下的用户请求进行语义解析和综合判断,输出最能符合用户真实意图的请求结果。因此,决策引擎的正确率直接影响着智能语音助手的智能化程度,进而影响着用户体验。
决策引擎的决策方式主要通过规则算法或者分类模型算法等来实现。规则算法通过设定某些业务的优先程度来决定业务的输出顺序,通过人工设定阈值的方式确定每个业务的优先程度,比如在电视端,电视电影等视频业务是主要业务,其阈值较高,则优先输出视频影音等业务,但是音箱端,可能就会优先输出音乐等音频业务;分类模型算法主要是将各类业务的解析结果当作输入,各模块标签作为输出,通过分类模型判断各个模块解析结果的分类概率,输出概率最高的业务。
上述规则算法和分类模型算法在智能语音助手发展的初期起到了很重要的作用,但是随着集成的业务越来越多样化,对于用户同一个请求,不管请求多少次,决策引擎给出的结果都是一样的,这个结果有可能是对的,有可能是错的。当用户请求比较模棱两可,即涉及多个业务领域时,决策引擎无法确定用户请求的结果是哪个业务领域的,进而给出的结果的正确率比较低。进而影响用户使用智能语音助手搜索内容的体验感。
技术实现要素:
本申请提供了一种智能语音助手决策策略的训练方法及装置,以解决目前智能设备中智能语音助手搜索内容正确率低的问题,进而保证用户的体验效果。
第一方面,本申请提供了一种智能语音助手决策策略的训练方法,包括:
获取用户的日志数据;所述日志数据用于表示用户在与智能设备交互的历史语音操作中的行为数据和请求数据;
利用所述日志数据分析出用户语音请求的特征向量;所述特征向量用于表示用户发出语音请求后接收到的不同返回结果组成的向量;
将所述语音请求对应的所述特征向量作为输入,利用深度确定性策略梯度ddpg模型输出所述语音请求对应的决策内容;所述决策内容用于表示所述深度确定策略梯度ddpg模型预测出的用户应该接收到的与所述语音请求对应的预测返回结果;
在所述决策内容是向用户询问意见的情况下,根据所述语音请求的真实意图对询问的内容进行补充;所述真实意图用于表示预先标记的用户对于所述语音请求的预期结果;
将补充后的决策内容作为所述语音请求在智能语音助手中对应的决策策略。
在一些实施例中,所述利用所述日志数据分析出用户语音请求的特征向量的步骤包括:
分析出所述智能设备根据所述语音请求发给用户的所述返回结果属于不同业务模块的请求特征和所述返回结果归属的媒体资源的资源特征;
根据用户在所述智能设备中发出所述语音请求的时间以及在所述智能设备中的关注内容,分析出用户的历史特征;
利用所述请求特征、所述资源特征和所述历史特征组成所述特征向量。
在一些实施例中,所述将所述语音请求对应的所述特征向量作为输入,利用深度确定性策略梯度ddpg模型输出所述语音请求对应的决策内容的步骤之后,还包括:
在所述决策内容符合所述语音请求的真实意图的情况下,以大于预设概率阈值的概率接受所述决策内容;
将所述决策内容作为所述语音请求在智能语音助手中对应的决策策略。
在一些实施例中,所述将所述决策内容作为所述语音请求在智能语音助手中对应的决策策略的步骤之后,还包括:
将接受所述决策内容的动作作为所述语音请求对应的决策结果反馈给所述深度确定策略梯度ddpg模型。
在一些实施例中,所述将所述语音请求对应的所述特征向量作为输入,利用深度确定性策略梯度ddpg模型输出所述语音请求对应的决策内容的步骤之后,还包括:
在所述决策内容不符合所述语音请求的真实意图的情况下,以大于预设概率阈值的概率反对所述决策内容;
将反对所述决策内容的动作作为所述语音请求对应的决策结果反馈给所述深度确定策略梯度ddpg模型;
使所述深度确定性策略梯度ddpg模型根据所述决策结果调整所述语音请求对应的所述决策内容;
在所述决策内容符合所述语音请求的用户意图的情况下,将所述决策内容作为所述语音请求在智能语音助手中对应的决策策略。
第二方面,本申请实施例还提供了一种智能语音助手决策策略的训练装置,包括:
数据获取模块,用于获取用户的日志数据;所述日志数据用于表示用户在与智能设备交互的历史语音操作中的行为数据和请求数据;
特征模拟模块,用于利用所述日志数据分析出用户语音请求的特征向量;所述特征向量用于表示用户发出语音请求后接收到的不同返回结果组成的向量;
决策模块,用于将所述语音请求对应的所述特征向量作为输入,利用深度确定性策略梯度ddpg模型输出所述语音请求对应的决策内容;所述决策内容用于表示所述深度确定策略梯度ddpg模型预测出的用户应该接收到的与所述语音请求对应的预测返回结果;
行为模拟模块,用于在所述决策内容是向用户询问意见的情况下,根据所述语音请求的真实意图对询问的内容进行补充;所述真实意图用于表示预先标记的用户对于所述语音请求的预期结果;
决策模块,用于将补充后的决策内容作为所述语音请求在智能语音助手中对应的决策策略。
在一些实施例中,所述特征模拟模块,还用于:
分析出所述智能设备根据所述语音请求发给用户的所述返回结果属于不同业务模块的请求特征和所述返回结果归属的媒体资源的资源特征;
根据用户在所述智能设备中发出所述语音请求的时间以及在所述智能设备中的关注内容,分析出用户的历史特征;
利用所述请求特征、所述资源特征和所述历史特征组成所述特征向量。
在一些实施例中,所述行为模拟模块,还用于在所述决策内容符合所述语音请求的真实意图的情况下,以大于预设概率阈值的概率接受所述决策内容;
所述决策模块,还用于将所述决策内容作为所述语音请求在智能语音助手中对应的决策策略。
在一些实施例中,还包括反馈模块,用于将接受所述决策内容的动作作为所述语音请求对应的决策结果反馈给所述深度确定策略梯度ddpg模型。
在一些实施例中,所述行为模拟模块,还用于在所述决策内容不符合所述语音请求的真实意图的情况下,以大于预设概率阈值的概率反对所述决策内容;
所述反馈模块,还用于将反对所述决策内容的动作作为所述语音请求对应的决策结果反馈给所述深度确定策略梯度ddpg模型;
所述决策模块,还用于使所述深度确定性策略梯度ddpg模型根据所述决策结果调整所述语音请求对应的所述决策内容;
在所述决策内容符合所述语音请求的用户意图的情况下,将所述决策内容作为所述语音请求在智能语音助手中对应的决策策略。
由上述内容可知,本申请技术方案中的智能语音助手决策策略的训练方法及装置,能够利用智能设备中保存的日志数据分析出用户语音请求的特征向量;再将特征向量作为深度确定性策略梯度ddpg模型的输入,使深度确定性策略梯度ddpg模型输出语音请求对应的决策内容;然后在决策内容是向用户询问意见的情况下,根据语音请求的真实意图对询问的内容进行补充;最后将补充后的决策内容作为语音请求在智能语音助手中对应的决策策略。本申请的技术方案,可以在智能设备离线的状态下,模拟出用户与智能语音助手的交互行为,并将模拟用户交互时补充的决策内容作为智能语音助手的决策策略。在智能语音助手完成训练后,如果语音请求对应多个业务模块的返回结果,也能准确地将用户想要的返回结果确定出来提供给用户,提高用户与智能语音助手交互的准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例示出的一种智能语音助手决策策略的训练方法的流程图;
图2为本申请实施例示出的一种获得特征向量的流程图;
图3为本申请实施例示出的另一种智能语音助手决策策略的训练方法的流程图;
图4为本申请实施例示出的一种智能语音助手决策策略的训练示意图;
图5为本申请实施例提供了一种智能语音助手决策策略的训练装置的结构框图。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(unlessotherwiseindicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
目前,很多智能设备都通过智能语音助手来实现和用户的智能互动。例如,用户在使用带有智能语音助手的智能电视时,可以通过语音的方式说出想要看的内容,智能语音助手会找到用户想看的内容并将该内容显示在智能电视上。
其中,决策引擎是智能语音助手的核心部分,其主要任务是对用户在各业务下的用户请求进行语义解析和综合判断,输出最能符合用户真实意图的请求结果。例如,用户通过智能语音助手说出“xx市市长”的请求内容,决策引擎可以根据该请求内容在“百科”业务中搜索到关于“xx市市长”的一些相关信息。因此,决策引擎的正确率直接影响着智能语音助手的智能化程度,进而影响着用户体验。
目前,决策引擎的决策方式主要通过规则算法或者分类模型算法等来实现。规则算法通过设定某些业务的优先程度来决定业务的输出顺序,通过人工设定阈值的方式确定每个业务的优先程度,比如在电视端,电视电影等视频业务是主要业务,其阈值较高,则优先输出视频影音等业务,但是音箱端,可能就会优先输出音乐等音频业务;分类模型算法主要是将各类业务的解析结果当作输入,各模块标签作为输出,通过分类模型判断各个模块解析结果的分类概率,输出概率最高的业务。
上述规则算法和分类模型算法在智能语音助手发展的初期起到了很重要的作用,但是随着集成的业务越来越多样化,对于用户同一个请求,不管请求多少次,决策引擎给出的结果都是一样的,这个结果有可能是对的,有可能是错的。当用户请求比较模棱两可,即涉及多个业务领域(比如“xx市市长”可能涉及到百科业务和新闻业务)时,决策引擎无法确定用户请求的结果是哪个业务领域的,进而给出的结果的正确率比较低。进而影响用户使用智能语音助手搜索内容的体验感。
基于上述内容,本申请实施例提供了一种智能语音助手决策策略的训练方法及装置,可以在智能设备离线的状态下,模拟出用户与智能语音助手的交互行为,并将模拟用户交互时补充的决策内容作为智能语音助手的决策结果。在智能语音助手完成训练后,如果语音请求对应多个业务模块的返回结果,也能准确地将用户想要的返回结果确定出来提供给用户,提高用户与智能语音助手交互的准确性。
图1为本申请实施例示出的一种智能语音助手决策策略的训练方法的流程图,如图1所示,该方法包括如下步骤:
步骤s101,获取用户的日志数据;所述日志数据用于表示用户在与智能设备交互的历史语音操作中的行为数据和请求数据。
通常,用户使用智能设备时,由智能设备的智能语音助手收集用户的语音请求并根据该请求搜索到相应的返回结果,用户在收到或者看到这个返回结果后会给出一定的反馈动作,比例,返回结果是自己想要的,那么用户会接受这个返回结果,如果返回结果不是自己想要的,那么用户可能会反对这个返回结果并且重新语音输入,或者返回结果呈现多种搜索结果,那么用户可以选择其中之一接受。
用户日志中保存通常是用户使用智能设备时的一些操作记录和操作结果等,例如本申请实施例中的语音请求、与语音请求对应的返回结果和用户对于返回结果的反馈等等,这些可以概括为行为数据和请求数据等。
值得说明的是,本申请实施例中所说的智能设备是指可以实现语音输入并实现语音控制的智能设备,通常在智能设备中集成智能语音助手来实现语音输入和语音控制等功能。智能设备可以不限于是智能电视、智能手机、智能音箱等。
步骤s102,利用日志数据分析出用户语音请求的特征向量。
特征向量用于表示用户发出语音请求后接收到的不同返回结果组成的向量。特征向量中的特征具体包括请求特征、资源特征和历史特征等,其中,请求特征用于表征智能设备根据语音请求发给用户的返回结果属于不同业务模块的不同概率和匹配到各个业务模块的置信度;资源特征用于表征智能设备根据语音请求发给用户的返回结果归属的媒体资源的展示数据或者历史点击率等;历史特征用于表征用户在智能设备中操作的时间以及关注度高的内容等。
本申请实施例中步骤s102的内容可以理解为是根据智能设备的日志数据对用户的语音请求进行特征模拟。
步骤s103,将语音请求对应的特征向量作为输入,利用深度确定性策略梯度ddpg模型输出语音请求对应的决策内容。
决策内容用于表示所述深度确定策略梯度ddpg模型预测出的用户应该接收到的与所述语音请求对应的预测返回结果。
其中,深度确定性策略梯度ddpg模型是一种常用的基于强化学习算法而形成的算法模型,其中的深度确定性策略梯度ddpg是一种基于连续确定策略梯度的强化学习算法。深度确定性策略梯度ddpg模型可以根据特征向量等通过自身的计算网络和算法预测出各个语音请求在策略上应该对应的返回结果,这个预测出来的返回结果称为ddpg模型输出的决策内容。
ddpg模型中包括actor(行为者)网络和critic(评论者)网络,其中,actor的主要任务是根据特征向量来做动作,即根据语音请求输出某个业务模块返回的结果;critic的主要任务是监督actor的动作是否正确合理,充当着裁判的角色,critic会把监督的结果反馈给actor以便在今后优化动作。
步骤s104,在决策内容是向用户询问意见的情况下,根据语音请求的真实意图对询问的内容进行补充。
真实意图用于表示预先标记的用户对于语音请求的预期结果,例如,用户请求“xx市市长”,其实是想看关于xx市市长的新闻,那么该条语音请求的真实意图就应该标记为“新闻”。
通常情况下,在智能语音助手收到用户的语音请求之后,经过搜索会返回给用户有一个返回结果,这个返回结果的内容通常有三种情况,一种是返回结果的内容通符合用户的要求,一种是返回结果的内容通不符合用户的要求,还有一种是返回结果的内容通中包含多种搜索内容,需要询问用户的要求。那么,用户对于语音请求的返回结果有三种操作方式,分别是接受、反对或者补充内容。例如,用户利用语音输入,请求的内容为“xx市市长”,想获得的是关于xx市市长的新闻内容,而当智能语音助手返回一个关于“xx市市长”的百科内容时,用户会反对这个返回结果,而当智能语音助手返回一个关于“xx市市长”的新闻内容时,用户就会接受这个返回结果,当智能语音助手同时返回关于“xx市市长”的百科内容和新闻内容并且询问用户想要哪个时,用户可以选择新闻内容。
本申请实施例中的步骤s104也可以理解为是一种模拟用户动作的过程。ddpg模型将语音请求作为输入,经过一些处理和计算后,可以将预测出的最有可能出现的返回结果作为决策内容输出。事实上,决策内容也同上述返回结果一样,包括被用户接受的、不被用户接受的和询问用户意见的三种内容。而模拟用户的动作则是模拟用户对于决策内容是接受、反对还是根据询问的内容进行补充,即模拟用户与智能语音助手的交互过程。
当用户请求比较模棱两可,即涉及多个业务领域,比如“xx市市长”可能涉及到百科业务和新闻业务等,当前的智能语音助手中的决策引擎无法确定用户请求的结果是哪个业务领域,进而给出的结果的正确率比较低。然而,使用本申请实施例中的训练方法,可以在决策内容是向用户询问意见的情况下,模拟用户补充内容的动作,选择符合真正意图的业务内容作为真正的决策内容,例如,选择“新闻”作为语音请求“xx市市长”的决策内容。然后在实际场景中,当用户再次输入该语音请求“xx市市长”时,智能语音助手就不会再输出模棱两可的结果,其可以根据训练的内容,直接输出符合用户真实意图的新闻内容。
步骤s105,将补充后的决策内容作为语音请求在智能语音助手中对应的决策策略。
值得说明的是,本申请实施例中步骤s103-s105的内容还可以看作是在智能语音助手中训练ddpg模型的过程,由于ddpg模型自身的网络结构特点,其可以通过输出内容的反馈或者奖励来不断地自身迭代优化算法,通过不断地学习训练,进而获得更加准确的输出内容。
由上述内容可知,本申请实施例提供了一种智能语音助手决策策略的训练方法,可以在智能设备离线的状态下,模拟出用户与智能语音助手的交互行为,并将模拟用户交互时补充的决策内容作为智能语音助手的决策结果。在智能语音助手完成训练后,如果语音请求对应多个业务模块的返回结果,也能准确地将用户想要的返回结果确定出来提供给用户,提高用户与智能语音助手交互的准确性。
特征向量是由用户发出语音请求后接收到的不同返回结果组成的向量,其中的特征具体包括请求特征、资源特征和历史特征。图2为本申请实施例示出的一种获得特征向量的流程图,如图2所示,在一些实施例中,所述利用所述日志数据分析出用户语音请求的特征向量的步骤包括:
步骤s201,分析出所述智能设备根据所述语音请求发给用户的所述返回结果属于不同业务模块的请求特征和所述返回结果归属的媒体资源的资源特征。
步骤s202,根据用户在所述智能设备中发出所述语音请求的时间以及在所述智能设备中的关注内容,分析出用户的历史特征。
步骤s203,利用所述请求特征、所述资源特征和所述历史特征组成所述特征向量。
其中,请求特征用于表征智能设备根据语音请求发给用户的返回结果属于不同业务模块的不同概率和匹配到各个业务模块的置信度;例如,对于用户请求的“xx市市长”的内容,在“百科”业务模块可能会解析出xx市市长的百科结果,此时返回结果属于百科的概率为p1,匹配到的返回结果的置信度为c1,而在“新闻”业务模块可能会解析出xx市市长的最新新闻结果,此时返回结果属于新闻的概率为p2,匹配到的返回结果的置信度为c2,进而请求特征可以表示为[p1,c1,p2,c2]。
资源特征用于表征智能设备根据语音请求发给用户的返回结果归属的媒体资源的展示数据或者历史点击率等,例如,智能电视获取到的所有媒体资源中,新闻资源目前热度比较高,或者点击率比较高,而百科资源的目标热度较低,或者点击率较低。资源特征可以是将返回结果归属的新闻资源的点击率和百科资源的点击率统计下来,然后归一化处理,获得的一个数值。该数值可以表示资源特征。
历史特征用于表征用户在智能设备中操作的时间以及关注度高的内容等,例如,统计用户在过去10分钟或者1小时内请求的记录,分析出用户关注度较高的资源或者业务,进而反映出用户的行为习惯并且也可以通过分析计算得到一个数值表示历史特征。
在数学计算中,可以有很多常用的统计学方法或者数学方法可以获得本申请实施例中的请求特征、资源特征和历史特征,本申请实施例中不进行具体限定。另外,各个特征的维度也可以根据不同的训练需求而设定,例如,要求请求特征有22维,资源特征有1维,历史特征有1维,那么组合起来的特征向量具有24维。
当然,本申请实施例中对于智能助手决策策略的训练并不仅仅限于模拟用户补充内容的动作,在一些实施例中,如果ddpg模型输出的决策内容是确定的,本申请实施例中的训练方法仍可以模拟用户的接受或者反对的动作对其进行处理。因而,在将语音请求对应的特征向量作为输入,利用深度确定性策略梯度ddpg模型输出语音请求对应的决策内容的步骤之后,还包括:
步骤s301,在所决策内容符合语音请求的真实意图的情况下,以大于预设概率阈值的概率接受决策内容。
例如,如果用户对于语音请求“我想看让子弹飞”的真实意图是“电影”,那么当决策内容是“让子弹飞”的电影时,就会以99%的概率接受这个决策内容,而以1%的概率反对这个决策内容或者补充内容。可见,如果决策内容符合真实意图,在大概率上说明这个决策内容是准确的。
步骤s302,将决策内容作为语音请求在智能语音助手中对应的决策策略。
如果语音请求对应的决策内容符合语音请求的真实意图,那么智能语音助手就可以使用这个决策内容作为最终的决策策略使用,当用户再次向智能语音助手请求相同的内容时,会以将对应的决策策略直接输出给用户,由于这个决策策略在训练时最贴近用户的真实意图,因此在本次用户真实请求时,也是最贴近用户需求的结果。
另外,在一些实施例中,确定了决策策略之后,还要将每一次模拟的用户对于决策内容的接受动作作为决策结果反馈给ddpg模型,以便ddpg模型根据决策结果进行自身优化。
上述的预设频率阈值可以根据实际需求设置不同的数值,例如99%、95%等等。同时,上述步骤s301的内容,还可以看作是一种噪声处理过程,即对于一个语音请求,当ddpg模型输出了决策内容后,以大概率执行与用户真实意图相应的动作以小概率执行别的动作。例如以99%的概率接受,以1%的概率反对或者补充内容,再例如以95%的接受,以5%的概率反对或者补充内容等。
如上所述,如果ddpg模型输出的决策内容是确定的,本申请实施例中的训练方法仍可以模拟用户的接受或者反对的动作对其进行处理。进而,在一些实施例中,将语音请求对应的特征向量作为输入,利用深度确定性策略梯度ddpg模型输出语音请求对应的决策内容的步骤之后,还包括:
步骤s401,在决策内容不符合语音请求的真实意图的情况下,以大于预设概率阈值的概率反对所述决策内容。
例如,如果用户对于语音请求“我想看让子弹飞”的真实意图是“电影”,那么当决策内容是“让子弹飞”的音乐时,就会以99%的概率反对这个决策内容,而以1%的概率接受这个决策内容或者补充内容。可见,如果决策内容不符合真实意图,在大概率上说明这个决策内容是不准确的。
步骤s402,将反对决策内容的动作作为语音请求对应的决策结果反馈给深度确定策略梯度ddpg模型。
不断地将决策结果反馈给ddpg模型的过程,可以理解为是训练ddpg模型进而训练智能语音助手的过程,ddpg模型通过不断地学习训练,更够使输出的决策内容更加准确。
步骤s403,使深度确定性策略梯度ddpg模型根据决策结果调整语音请求对应的决策内容。
当决策内容不符合语音请求的真实意图时,说明在实际应用场景中,这个决策内容大概率上是不会满足用户的要求,因此ddpg模型需要根据反馈的结果重新调整自身的算法,优化策略,使得下次输出的策略内容更难满足用户的真实意图。仍以上述内容为例,如果用户想看的是电影“让子弹飞”,而决策内容中返回结果的是“让子弹飞”的音乐,那么用户会反对这个决策内容,并将反对的动作反馈给ddpg模型,ddpg模型重新学习,下次可能会针对这个请求输出电影“让子弹飞”的决策内容。
步骤s404,在决策内容符合语音请求的用户意图的情况下,将决策内容作为语音请求在智能语音助手中对应的决策策略。
如果ddpg模型重新输出的决策内容符合语音请求的真实意图,那么智能语音助手就可以使用这个决策内容作为最终的决策策略使用,当用户再次向智能语音助手请求相同的内容时,会以将对应的决策策略直接输出给用户,由于这个决策策略在训练时最贴近用户的真实意图,因此在本次用户真实请求时,也是最贴近用户需求的结果。
图3为本申请实施例示出的另一种智能语音助手决策策略的训练方法的流程图,在一些实施例中,还可以将上述步骤s301-步骤s302,以及步骤s401-步骤s404结合到图1中,进而形成如图3所示的包括步骤s501-步骤s511的智能语音助手决策策略的训练方法。
本申请实施例中,训练智能语音助手的决策策略,事实上是对ddpg模型进行训练。图4为本申请实施例示出的一种智能语音助手决策策略的训练示意图,如图4所示,可以将上述实施例中的特征模拟和动作模拟共同看作是由一个模拟模块601执行的。如图4所示,还可以由判别器603实现上述实施例中的决策内容与真实意图对比的过程,以及将对比的结果反馈给ddpg模型602。
在ddpg模型的训练过程中,首先使其利用用户请求的特征向量学习用户的偏好,进而输出一个预测的决策内容,例如用户向智能语音助手请求“我想看让子弹飞”,决策内容可以是“让子弹飞”的电影、“让子弹飞”的音乐或者让用户选择“让子弹飞”的电影或者音乐。再根据用户的真实意图模拟用户对于决策内容的操作,是接受、反对还是补充内容,如果用户接受,那么说明该决策内容在实际应用中大概率上会符合用户的要求,那么就可以将该决策内容作为智能语音助手中与语音请求对应的决策策略,例如接受了“让子弹飞”的电影,那么就将“让子弹飞”的电影作为请求“我想看让子弹飞”在智能语音助手中的决策策略;如果反对了“让子弹飞”的音乐,则ddpg模型会重新调整决策内容,下次输出的决策内容就可能是“让子弹飞”的电影,这时再将这个新的决策内容作为“我想看让子弹飞”在智能语音助手中的决策策略;而对于询问用户选择“让子弹飞”的电影或者音乐,如果用户直接选择了“电影”,那么就可以将“让子弹飞”的电影作为“我想看让子弹飞”在智能语音助手中的决策策略。
为了使模型输出的决策内容更加精准,模型的训练可能都是成千上百次的,如果在出现决策内容模棱两可的情况下(例如“让子弹飞”的电影或者音乐)采用人工手动对内容进行补充,那么会浪费过多的人力,也会比较耗时。为了更高效地完成ddpg模型的训练,在本申请实施例中,是模拟了用户对于决策内容的操作动作,进而模拟人与模型的交互过程,避免过多人工参与到模型训练的过程中,可以有效地提高模型训练的效率。
确定了智能语音助手的决策策略之后,在实际应用的过程中,用户再次输入相同的语音请求时,就可以直接给出用户想要的结果。
本申请实施例中模拟用户交互过程一个最为突出的优点就是可以在决策内容包括多个选择内容时,模拟出用户的选择或者补充的过程,这样可以将决策内容中不确定的内容变为确定的内容,此后在实际应用中,智能语音助手再次遇到同样的语音请求时,就可以输出决策内容中确定的内容,例如,在训练时用户补充了想看的是“让子弹飞”的电影,那么在实际操作时,用户再次输入“我想看让子弹飞”,就可以直接从智能语音助手中获得“让子弹飞”的电影。进而在与用户的交互过程中,智能语音助手可以提高搜索内容的正确率,用户使用智能语音助手也能经常获得正确的结果。
值得说明的是,本申请实施例的智能语音助手决策策略的训练方法,在智能设备离线的状态下,也可以仅仅利用智能设备本地的日志数据模拟出用户交互的过程,实现决策策略的训练。
由以上内容可知,本申请实施例提供了一种智能语音助手决策策略的训练方法,能够利用智能设备中保存的日志数据分析出用户语音请求的特征向量;再将特征向量作为深度确定性策略梯度ddpg模型的输入,使深度确定性策略梯度ddpg模型输出语音请求对应的决策内容;然后在决策内容是向用户询问意见的情况下,根据语音请求的真实意图对询问的内容进行补充;最后将补充后的决策内容作为语音请求在智能语音助手中对应的决策策略。本申请的技术方案,可以在智能设备离线的状态下,模拟出用户与智能语音助手的交互行为,并将模拟用户交互时补充的决策内容作为智能语音助手的决策策略。在智能语音助手完成训练后,如果语音请求对应多个业务模块的返回结果,也能准确地将用户想要的返回结果确定出来提供给用户,提高用户与智能语音助手交互的准确性。
图5为本申请实施例提供了一种智能语音助手决策策略的训练装置的结构框图,如图5所示,本申请实施例中的智能语音助手决策策略的训练装置包括:
数据获取模块701,用于获取用户的日志数据;所述日志数据用于表示用户在与智能设备交互的历史语音操作中的行为数据和请求数据;特征模拟模块702,用于利用所述日志数据分析出用户语音请求的特征向量;所述特征向量用于表示用户发出语音请求后接收到的不同返回结果组成的向量;决策模块703,用于将所述语音请求对应的所述特征向量作为输入,利用深度确定性策略梯度ddpg模型输出所述语音请求对应的决策内容;所述决策内容用于表示所述深度确定策略梯度ddpg模型预测出的用户应该接收到的与所述语音请求对应的预测返回结果;行为模拟模块704,用于在所述决策内容是向用户询问意见的情况下,根据所述语音请求的真实意图对询问的内容进行补充;所述真实意图用于表示预先标记的用户对于所述语音请求的预期结果;决策模块705,用于将补充后的决策内容作为所述语音请求在智能语音助手中对应的决策策略。
其中,特征模拟模块702和行为模拟模块704可以结合实现图4中所示的模拟模块601所实现的内容,决策模块703可以实现图4中所述的ddpg模型602所实现的内容,决策模块705可以实现图4中所示的判别器603所实现的内容。
在一些实施例中,所述特征模拟模块,还用于:分析出所述智能设备根据所述语音请求发给用户的所述返回结果属于不同业务模块的请求特征和所述返回结果归属的媒体资源的资源特征;根据用户在所述智能设备中发出所述语音请求的时间以及在所述智能设备中的关注内容,分析出用户的历史特征;利用所述请求特征、所述资源特征和所述历史特征组成所述特征向量。
在一些实施例中,所述行为模拟模块,还用于在所述决策内容符合所述语音请求的真实意图的情况下,以大于预设概率阈值的概率接受所述决策内容;所述决策模块,还用于将所述决策内容作为所述语音请求在智能语音助手中对应的决策策略。
在一些实施例中,所述装置还包括:反馈模块,用于将接受所述决策内容的动作作为所述语音请求对应的决策结果反馈给所述深度确定策略梯度ddpg模型。
在一些实施例中,所述行为模拟模块,还用于在所述决策内容不符合所述语音请求的真实意图的情况下,以大于预设概率阈值的概率反对所述决策内容;所述反馈模块,还用于将反对所述决策内容的动作作为所述语音请求对应的决策结果反馈给所述深度确定策略梯度ddpg模型;所述决策模块,还用于使所述深度确定性策略梯度ddpg模型根据所述决策结果调整所述语音请求对应的所述决策内容;在所述决策内容符合所述语音请求的用户意图的情况下,将所述决策内容作为所述语音请求在智能语音助手中对应的决策策略。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除