语音应答的方法、装置、及设备及计算机可读存储介质与流程
本申请涉及语音处理领域,尤其涉及一种语音应答的方法及装置、电子设备及计算机可读存储介质。
背景技术:
在很多服务的场景中,都设置有智能语音应答设备,用于与用户进行语音互动。但是,目前很多智能语音应答设备的应答方式比较单一,例如,采用统一的语调应答模式进行应答,不能根据不同的用户语音进行个性化的回应,无法提高用户的服务体验感。
技术实现要素:
本申请提供了一种语音应答的方法及装置、电子设备及计算机可读存储介质,目的在于解决语音应答设备的应用中如何根据用户语音进行个性化的回应的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种语音应答的方法,包括:
获取用户语音;
依据所述用户语音的语音特征以及语音内容,确定所述用户语音对应的语调类型;
基于所述用户语音对应的所述语调类型,以及所述语音内容,生成与所述用户语音对应的应答语音;
播报所述应答语音。
上述的方法,可选的,所述语调类型,包括至少两种指定的语调类型,任意一种所述语调类型依据历史用户语音的所述语音特征以及所述语音内容预先设定;
所述语音特征至少包括,音调特征以及音幅特征。
上述的方法,可选的,所述依据所述用户语音的语音特征以及所述语音内容,确定所述用户语音对应的语调类型,包括:
将所述用户语音输入预先训练好的贝叶斯分类模型,使所述贝叶斯分类模型依据所述用户语音的所述语音特征,确定所述用户语音对应的所述语调类型;
识别得到所述用户语音对应的所述语音内容;
将所述用户语音的所述语音内容输入预先训练好的语音分类模型;使所述语音分类模型依据所述用户语音的所述语音内容,确定所述用户语音对应的所述语调类型;
分别获取所述贝叶斯模型和所述语音分类模型输出的所述用户语音对应的所述语调类型;
若所述贝叶斯分类模型输出的所述语调类型,以及所述语音分类模型输出的所述语调类型,为相同的语调类型,则将该相同的语调类型,作为所述用户语音对应的语调类型。
上述的方法,可选的,还包括:
若所述贝叶斯分类模型输出的所述语调类型,以及所述语音分类模型输出的所述语调类型,为不相同的语调类型,则将所述用户语音对应的语调类型确定为预设的默认的语调类型。
上述的方法,可选的,所述贝叶斯分类模型依据语音训练样本训练得到,所述语音训练样本携带所述语音特征;
所述贝叶斯分类模型确定所述用户语音对应的所述语调类型的过程为:所述贝叶斯分类模型依据所述用户语音的所述语音特征,计算所述用户语音分别属于各个所述语调类型的概率,并将最大的所述概率值所对应的所述语调类型,确定为所述用户语音对应的语调类型。
上述的方法,可选的,所述语音分类模型为ga-bp神经网络模型,所述ga-bp神经网络模型为对初始bp神经网络模型进行优化得到的模型;
所述初始bp神经网络模型的输入层节点个数依据语音训练样本的语音内容长度确定,输出层节点个数依据所述语调类型确定,隐层节点个数基于试凑法确定;
所述对初始bp神经网络模型进行优化为:依据预设的样本数据和遗传算法对所述初始bp神经网络模型的输入层、隐层和输出层中每一层的初始权值和阈值进行训练学习,确定每一层最优的初始权值和阈值,得到优化后的bp神经网络模型。
上述的方法,可选的,所述基于所述用户语音对应的所述语调类型,以及所述语音内容,生成与所述用户语音对应的应答语音,包括:
基于所述语音内容,确定应答语音内容;
生成语音内容为所述应答语音内容,且语调类型为所述用户语音对应的所述语调类型的所述应答语音。
一种语音应答的装置,包括:
获取单元,用于获取用户语音;
确定单元,用于依据所述用户语音的语音特征以及语音内容,确定所述用户语音对应的语调类型;
生成单元,用于基于所述用户语音对应的所述语调类型,以及所述语音内容,生成与所述用户语音对应的应答语音;
播报单元,用于播报所述应答语音。
一种语音应答设备,包括:处理器和存储器,所述存储器用于存储程序;所述处理器用于运行所述程序,以实现上述的语音应答的方法。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的语音应答的方法。
本申请所述的方法及装置,包括:获取用户语音,依据用户语音的语音特征以及语音内容,确定用户语音对应的语调类型,基于用户语音对应的语调类型,以及语音内容,生成与用户语音对应的应答语音,最后播报应答语音。因为播报的应答语音是根据用户语音的语调类型,以及语音内容得到的,所以只要用户语音的语调类型不同,播报的应答语音可以不同,实现了根据用户语音进行个性化的回应,从而可以提高用户的体验感。
另外,用户语音对应的语调类型,是根据用户语音的语音特征以及语音内容两个维度确定的,所以户语音对应的语调类型具有较高的准确度,从而可以提高播报的应答语音的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的语音应答的方法的流程图;
图2为本申请实例提供的确定用户语音对应的语调类型的方法的流程图;
图3为本申请实施例提供的语音应答设备的结构示意图;
图4为本申请实施例提供的语音应答装置的结构示意图。
具体实施方式
在很多场合中,都采用智能语音播报设备对用户进行语音互动,但是,但是,目前很多智能语音应答设备只关注用户语音的内容,并不关注用于语音的语调,所以一般是采用统一的语调应答模式进行应答,不能根据不同的用户语音进行个性化的应答,无法提高用户的服务体验感。
为此,本申请实施例提供一种语音应答的方法,目的在于,通过结合用户语音以及用户语音的语音内容,对用户进行应答,以实现根据不同的用户语音进行个性化的回应。
需要说明的是,本申请中,用户语音的语音内容指的是,用户语音对应的语音文本内容。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本实施例的执行主体为具有语音处理功能的智能语音播报设备,例如智能语音机器人。
图1为本申请实施例提供的一种语音应答的方法,可以包括以下步骤:
s101、获取用户语音。
用户语音为用户语音,智能语音播报设备在运行状态下,可以在语音采集范围内,采集得到用户语音。
s102、依据用户语音的语音特征以及语音内容,确定用户语音对应的语调类型。
本实施例中,语音特征为可用于描述用户语音的语气和感情态度的信息,语音特征包括音调特征、音幅特征以及音色特征等。
语调类型包括至少两种指定语调类型,历史用户语音的所述语音特征以及语音内容预先设定,即指定语调类型依据历史用户语音的语气和感情态度的语音信息以及历史用户语音的语音内容设定,指定语调类型可以是欢快逗趣互动语调类型、以及平缓正式互动语调类型等,例如,欢快逗趣互动语调类型可以是,语音的音调或音幅变化较大,且语音内容与业务询问类问题相关性弱的类型。平缓正式互动语调类型则可以是语音的音调或音幅变化较小、语音内容与业务询问问题相关较强的类型。
本步骤的具体实施例方式,可以参考图2所示的流程图。
s103、基于用户语音对应的语调类型以及语音内容,生成与用户语音对应的应答语音。
本步骤的具体实施方式包括步骤a1和步骤a2:
步骤a1、基于用户语音的语音内容,确定应答语音内容。
根据用户语音的语音内容,确定与用户语音的语音内容对应的应答语音内容,例如,可以根据语音内容中包括的关键字,确定对应的答语音内容。
当然,步骤中还可以是,基于用户语音的语音内容和语调类型,确定应答语音内容,即应答语音的应答语音内容不仅和用户语音的语音内容相关,还和用户语音的语调类型相关,也就是说,用户语音的语音内容相同,语调类型不同的情况下,应答语音的语音内容可以不同,具有更好的个性化特点。
步骤a2、生成语音内容为应答语音内容,且语调类型为用户语音对应的语调类型的应答语音。
应答语音的语调类型与用户语音的语调类型相同,可以增强应答语音个性化的效果。
s104、播报应答语音。
例如,智能语音播报设备调用预设的语音播报器播报应答语音。
本实施例提供的方法,包括:获取用户语音,依据用户语音的语音特征以及语音内容,确定用户语音对应的语调类型,基于用户语音对应的语调类型,以及语音内容,生成与用户语音对应的应答语音,最后播报应答语音。因为播报的应答语音是根据用户语音的语调类型,以及语音内容得到的,所以只要用户语音的语调类型不同,播报的应答语音可以不同,实现了根据用户语音进行个性化的回应,从而可以提高用户的体验感。
另外,用户语音对应的语调类型,是根据用户语音的语音特征以及语音内容两个维度确定的,所以户语音对应的语调类型具有较高的准确度,从而可以提高播报的应答语音的准确性。
图2为上述实施例的s102依据用户语音的语音特征和语音内容,确定用户语音对应的语调类型的具体实施方式,可以包括以下步骤:
s201、将所用户语音输入预先训练好的贝叶斯分类模型,使贝叶斯分类模型依据用户语音的语音特征,确定用户语音对应的语调类型。
本步骤中,贝叶斯分类模型依据语音训练样本训练得到。语音训练样本携带多个语音特征,其中,采用训练样本训练的得到贝叶斯分类模型的训练方法可参考现有技术。
预先训练好贝叶斯分类模型可以提取用户语音的音调特征,并基于用户语音的音调特征确定用户语音对应的语调类型。
具体为:贝叶斯分类模型依据用户语音的语音特征,计算用户语音分别属于各个指定语调类型的概率,并将最大的概率值所对应的指定语调类型,确定为用户语音对应的语调类型。
例如,用x表示用户语音的所有语调特征的特征集,y1表示第一语调类型,则计算用户语音属于第一语调类型的概率的方法为,将用户语音的所有语调特征带入到概率公式,计算得到用户语音属于第一语调类型的概率。
其中,概率公式为:
p(y1|x)为在用户语音的特征集x的条件下,用户语音属于常用第一语调类型y1的概率,ai表示用户语音对应的特征集x中的第i个特征,n为特征集x中的特征的数目,p(y1)为任意一个语调类型属于第一语调类型y1的概率,p(ai|y1)为语调类型为第一语调类型y1的条件下,所对应的特征为ai的概率值,p(x)为在所有的指定语调类型中出现用户语音的概率,p(ai)为任意一个语音具有特征ai的概率,
其中,p(y1)、p(ai|y1)、以及p(ai)通过多个已确定语调类型的特征集x预先估计得到。特征集x的数量越大,特征集x对应的语调类型越准确,估计的p(y1)、p(ai|y1)、以及p(ai)越准确。
s202、识别得到用户语音对应的语音内容。
本步骤可以采用现有的语音识别的方法,得到用户语音的语音内容。
s203、将用户语音的语音内容输入预先训练好的语音分类模型,使语音分类模型依据用户语音的语音内容,确定用户语音对应的语调类型。
贝叶斯分类模型基于用于语音的语音特征,确定用户语音对应的语调类型,语音分类模型则是依据用户语音的语音内容,确定用户语音对应的语调类型。
可选的,语音分类模型为ga-bp神经网络模型。ga-bp神经网络模型依据对初始bp神经网络模型进行优化得到。训练好的语音分类模型可以得到输入语音内容对应的语调类型。
其中,初始bp神经网络模型的输入层节点个数依据语音训练样本的语音内容长度确定,输出层节点个数依据语调类型确定,隐层节点个数基于试凑法确定。其中,语音训练样本为,携带语调类型的历史用户语音的语音内容。
对初始bp神经网络模型进行优化为:依据预设的样本数据和遗传算法对初始bp神经网络模型的输入层、隐层和输出层中每一层的初始权值和阈值进行训练学习,确定每一层最优的初始权值和阈值,得到优化后的bp神经网络模型。具体的优化过程,可以参考现有技术。
s204、分别获取贝叶斯模型和语音分类模型输出的用户语音对应的语调类型。
s205、判断贝叶斯模型和语音分类模型输出的用户语音对应的语调类型是否相同。若相同,则执行s206,若不相同,则执行s207。
s206、将相同的语调类型,作为用户语音对应的语调类型。
贝叶斯模型和语音分类模型输出的用户语音对应的语调类型相同,则说明该相同的语调类型为用户语音正确的语调类型的概率很大。
s207、将用户语音对应的语调类型确定为预设的默认的语调类型。
例如,可以预先设定默认的语调类型为平缓语调类型,使贝叶斯模型和语音分类模型输出的用户语音对应的语调类型不相同的情况下,将用户语音对应的语调类型确定为平缓正式互动语调类型。
本实施例提供的方法,贝叶斯分类模型基于用于语音的语音特征,确定用户语音对应的语调类型,语音分类模型则是依据用户语音的语音内容,确定用户语音对应的语调类型,相当于从不同的维度确定用于语音的语调类型,所以结合训练好的贝叶斯分类模型和语音分类模型,共同确定用户语音的语调类型,可以提高得到的用户语音的语调类型的准确性。
图3为本申请实施例提供的一种语音应答设备的结构示意图,包括:处理器301和存储器302,存储器用于存储程序,处理器用于运行程序,以实现本申请提供的语音应答的方法。
智能语音应答设备可以放置在各个服务点,用于为用户提供自动语音应答服务。例如,智能语音应答设备可以用于办理业务的服务网点,通过提供与用户进行欢快逗趣的互动,以及提供业务办理类的互动,以提高用户的服务体验感。
例如,考虑用户语音为语调类型为欢快语调类型时,用户很有可能是希望与智能语音设备进行非正式的逗趣类的互动,用户语音为语调类型为平缓语调类型时,用户很有可能是希望与智能语音设备进行正式的业务互动。
对应的,预先将用户语音的语调类型指定为欢快语调类型或平缓语调类型,智能语音应答设备预先配置为,确定用户语音的语调类型为欢快语调类型时,则采用欢快逗趣的语调应答用户,确定用户语音的语调类型为平缓语调类型时,则采用平缓正式的语调应答用户。智能语音应答设备通过提供两种不同的互动模式,从而可以提高用户的服务体验感。
图4为本申请实施例提供的一种语音应答装置的结构示意图,包括:
获取单元401,用于获取用户语音;
确定单元402,用于依据所述用户语音的语音特征以及语音内容,确定所述用户语音对应的语调类型;
生成单元403,用于基于所述用户语音对应的所述语调类型,以及所述语音内容,生成与所述用户语音对应的应答语音;
播报单元404,用于播报应答语音。
其中,语调类型,包括至少两种指定的语调类型,任意一种语调类型依据历史用户语音的语音特征以及语音内容预先设定,语音特征至少包括,音调特征以及音幅特征。
确定单元402依据所述用户语音的语音特征以及语音内容,确定用户语音对应的语调类型的具体实现方式为:
将所述用户语音输入预先训练好的贝叶斯分类模型,使所述贝叶斯分类模型依据所述用户语音的所述语音特征,确定所述用户语音对应的所述语调类型;
识别得到所述用户语音对应的所述语音内容;
将所述用户语音的所述语音内容输入预先训练好的语音分类模型;使所述语音分类模型依据所述用户语音的所述语音内容,确定所述用户语音对应的所述语调类型;
分别获取所述贝叶斯模型和所述语音分类模型输出的所述用户语音对应的所述语调类型;
若所述贝叶斯分类模型输出的所述语调类型,以及所述语音分类模型输出的所述语调类型,为相同的语调类型,则将该相同的语调类型,作为所述用户语音对应的语调类型;
若所述贝叶斯分类模型输出的所述语调类型,以及所述语音分类模型输出的所述语调类型,为不相同的语调类型,则将所述用户语音对应的语调类型确定为预设的默认的语调类型。
可选的,所述贝叶斯分类模型依据语音训练样本训练得到,所述语音训练样本携带所述语音特征;所述贝叶斯分类模型确定所述用户语音对应的所述语调类型的过程为:所述贝叶斯分类模型依据所述用户语音的所述语音特征,计算所述用户语音分别属于各个所述语调类型的概率,并将最大的所述概率值所对应的所述语调类型,确定为所述用户语音对应的语调类型。
可选的,语音分类模型为ga-bp神经网络模型,所述ga-bp神经网络模型为对初始bp神经网络模型进行优化得到的模型;
所述初始bp神经网络模型的输入层节点个数依据语音训练样本的语音内容长度确定,输出层节点个数依据所述语调类型确定,隐层节点个数基于试凑法确定;
所述对初始bp神经网络模型进行优化为:依据预设的样本数据和遗传算法对所述初始bp神经网络模型的输入层、隐层和输出层中每一层的初始权值和阈值进行训练学习,确定每一层最优的初始权值和阈值,得到优化后的bp神经网络模型。
可选的,生成单元403基于所述用户语音对应的所述语调类型,以及所述语音内容,生成与所述用户语音对应的应答语音的具体实现方式为:
基于语音内容,确定应答语音内容;
生成语音内容为应答语音内容,且语调类型为用户语音对应的所述语调类型的所述应答语音。
本申请实施例提供的装置,包括:获取用户语音,依据用户语音的语音特征以及语音内容,确定用户语音对应的语调类型,基于用户语音对应的语调类型,以及语音内容,生成与用户语音对应的应答语音,最后播报应答语音。因为播报的应答语音是根据用户语音的语调类型,以及语音内容得到的,所以只要用户语音的语调类型不同,播报的应答语音可以不同,实现了根据用户语音进行个性化的回应,从而可以提高用户的体验感。
另外,用户语音对应的语调类型,是根据用户语音的语音特征以及语音内容两个维度确定的,所以户语音对应的语调类型具有较高的准确度,从而可以提高播报的应答语音的准确性。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执本申请的语音应答的方法,即执行以下步骤:
获取用户语音;
依据所述用户语音的语音特征以及语音内容,确定所述用户语音对应的语调类型;
基于所述用户语音对应的所述语调类型,以及所述语音内容,生成与所述用户语音对应的应答语音;
播报所述应答语音。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除