话术播报方法、装置、计算机可读存储介质和处理器与流程

2021-01-28 13:01:49|

257|

起点商标网

本申请涉及人工智能领域，具体而言，涉及一种话术播报方法、装置、计算机可读存储介质、处理器和电子设备。

背景技术：

随着人工智能技术的发展，机器人智能语音外呼已得到广泛的应用，客户对于机器人的拟人程度要求也越来越高。但是目前市面上的智能语音机器人，在话术播报上，要么采用纯录音的方式，要么使用语音合成的方式。机器人选择哪条话术语音，也是依靠预设的话术模板根据语义理解的结果或者是特定的一些用户信息来匹配固定话术。同时，在实际交互过程中，经常是机器人无法捕捉交流对象的语调情绪的变化，只根据说话内容流程化的进行播报。

播报固定话术的方式，首先在同一个场景对话流程下机器人无法针对不同的客户播报不同的话术内容，不能提供个性化的服务。

在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

技术实现要素：

本申请的主要目的在于提供一种话术播报方法、装置、计算机可读存储介质、处理器和电子设备，以解决现有技术中在同一个场景对话流程下机器人无法针对不同的客户播报不同的话术内容，不能提供个性化的服务的问题。

根据本发明实施例的一个方面，提供了一种话术播报方法，包括：获取说话人的语音数据；根据所述语音数据确定说话人的声音特征，所述声音特征包括语速、音量以及语调；根据所述说话人的声音特征，确定话术的声音特征；根据所述语音数据的语义以及确定的所述话术的声音特征，播报话术。

可选地，根据所述说话人的声音特征，确定话术的声音特征，包括根据确定的所述话术的声音特征，确定说话人的特征信息，所述特征信息包括以下至少之一：年龄、性别和姓名；根据所述说话人的特征信息，确定所述话术的声音特征。

可选地，根据所述说话人的特征信息，确定所述话术的声音特征，包括在所述说话人的特征信息包括年龄且所述年龄处于第一预定年龄范围或者第三预定年龄范围内的情况下，确定所述话术的声音特征中的音量在第一音量范围内，所述语速在第一语速范围内，其中，所述第一预定年龄范围的最大值小于所述第三预定年龄范围的最小值；在所述说话人的特征信息包括年龄且所述年龄处于第二预定年龄范围内的情况下，确定所述话术的声音特征中的音量在第二音量范围内，所述语速在第二语速范围内，其中，所述第二预定年龄范围的最小值大于所述第一预定年龄范围的最大值，所述第二预定年龄范围的最大值小于所述第三预定年龄范围的最小值，所述第二音量范围的最小值大于所述第一音量范围的最大值，所述第二语速范围的最小值大于所述第一语速范围的最大值。

可选地，所述声音特征还包括情绪。

可选地，所述第一音量范围包括第一子音量范围和第二子音量范围，在所述说话人的特征信息包括年龄，所述年龄处于第一预定年龄范围的情况下，确定所述话术的声音特征中的音量在第一子音量范围内，所述年龄处于第三预定年龄范围的情况下，确定所述话术的声音特征中的音量在第二子音量范围内，其中，所述第二子音量范围的最小值大于所述第一子音量范围的最大值。

根据本发明实施例的另一方面，提供了一种话术播报装置，包括获取单元、第一确定单元、第二确定单元以及播报单元，获取单元用于获取说话人的语音数据；第一确定单元用于根据所述语音数据确定说话人的声音特征，所述声音特征包括语速、音量以及语调；第二确定单元用于根据所述说话人的声音特征，确定话术的声音特征；播报单元用于根据所述语音数据的语义以及确定的所述话术的声音特征，播报话术。

可选地，所述第二确定单元包括第一确定模块和第二确定模块，第一确定模块用于根据确定的所述话术的声音特征，确定说话人的特征信息，所述特征信息包括以下至少之一：年龄、性别和姓名；第二确定模块用于根据所述说话人的特征信息，确定所述话术的声音特征。

根据本发明实施例的再一方面，提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，所述程序执行任一种所述的方法。

根据本发明实施例的又一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一种所述的方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任一种所述的方法。

在本申请实施例中，所述话术播报方法根据所述语音数据确定说话人的语速、音量以及语调这些所述声音特征，确定所述话术的声音特征，再结合所述语音数据的语义以及所述话术的声音特征进行播报话术。所述话术播报方法可以针对不同的说话人的所述声音特征动态调整所述话术的声音特征，实现了同一场景下针对不同的用户播报不同的话术内容，达到了个性化的服务，同时使得所述话术播报更加拟人化，提升了用户在所述话术播报过程中的交互体验，进而提升了用户使用满意度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请实施例的话术播报方法生成的流程示意图；以及

图2示出了根据本申请实施例的话术播报装置的组成示意图。

附图标记：

10、获取单元；20、第一确定单元；30、第二确定单元；40、播报单元。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

正如背景技术中所说的，现有技术中在同一个场景对话流程下机器人无法针对不同的客户播报不同的话术内容，不能提供个性化的服务，为了解决上述问题，本申请的一种典型的实施方式中，提供了一种话术播报方法、装置、计算机可读存储介质、处理器和电子设备。

根据本申请的一种典型的实施例，提供了一种话术播报方法。

图1是根据本申请实施例的话术播报方法生成的流程图。如图1所示，该方法包括以下步骤：

步骤s101，获取说话人的语音数据；

步骤s102，根据上述语音数据确定说话人的声音特征，上述声音特征包括语速、音量以及语调；

步骤s103，根据上述说话人的声音特征，确定话术的声音特征；

步骤s104，根据上述语音数据的语义以及确定的上述话术的声音特征，播报话术。

上述话术播报方法根据上述语音数据确定说话人的语速、音量以及语调这些上述声音特征，确定上述话术的声音特征，再结合上述语音数据的语义以及上述话术的声音特征进行播报话术。上述话术播报方法可以针对不同的说话人的上述声音特征动态调整上述话术的声音特征，实现了同一场景下针对不同的用户播报不同的话术内容，达到了个性化的服务，同时使得上述话术播报更加拟人化，提升了用户在上述话术播报过程中的交互体验，进而提升了用户使用满意度。

当然，上述声音特征还可以包括说话节奏、吐字清晰度等，具体地，上述话术播报方法通过确定说话人的说话节奏，来确定上述话术的声音特征并播报话术，使得话术播报过程中的说话节奏贴合说话人的上述说话节奏，实现个性化服务的同时，提升了用户使用过程的交互体验，避免了流程化、机械化的播报。

本申请的一种具体的实施例中，根据上述说话人的声音特征，确定话术的声音特征，包括：根据确定的上述话术的声音特征，确定说话人的特征信息，上述特征信息包括以下至少之一：年龄、性别和姓名；根据上述说话人的特征信息，确定上述话术的声音特征。上述话术播报方法通过年龄、性别和姓名等上述特征信息来调整上述话术的声音特征并进行播报话术，实现了根据用户的个人信息来确定话术播报内容，进一步保证了播报内容贴合用户自身情况，实现差异化沟通。

本申请的另一种具体的实施例中，根据上述说话人的特征信息，确定上述话术的声音特征还包括：在上述说话人的特征信息包括年龄且上述年龄处于第一预定年龄范围或者第三预定年龄范围内的情况下，确定上述话术的声音特征中的音量在第一音量范围内，上述语速在第一语速范围内，其中，上述第一预定年龄范围的最大值小于上述第三预定年龄范围的最小值；在上述说话人的特征信息包括年龄且上述年龄处于第二预定年龄范围内的情况下，确定上述话术的声音特征中的音量在第二音量范围内，上述语速在第二语速范围内，其中，上述第二预定年龄范围的最小值大于上述第一预定年龄范围的最大值，上述第二预定年龄范围的最大值小于上述第三预定年龄范围的最小值，上述第二音量范围的最小值大于上述第一音量范围的最大值，上述第二语速范围的最小值大于上述第一语速范围的最大值。上述话术播报方法根据上述说话人的年龄信息调整上述话术的声音特征中的音量与语速，各种年龄阶段的用户有对应年龄的话术播报音量与语速，保证了不同年龄阶段的用户能够清楚、准确的接收话术播报内容，进一步提升了用户体验。

具体地，上述第一预定年龄范围可以为2-15岁，上述第二预定年龄范围可以为16-60岁，上述第三预定年龄范围可以为61-80岁，上述第一音量范围可以为40-80db，上述第二音量范围可以为81-110db，上述第一语速范围可以为80-120字/min，上述第二语速范围可以为180-220字/min。上述话术播报方法确定上述说话人的年龄在上述第一预定年龄范围或者上述第三预定年龄范围，即2-15岁或者61-80岁之间时，保证上述话术播报的音量在上述第一音量范围内，即40-db，保证上述话术播报的语速在上述第一语速范围内，即80-120字/min，这样保证了老人和小孩用户能清晰、完整的听到播报内容，同时对老人和小孩用户的听力不造成损伤；在上述话术播报方法确定上述说话人的年龄在上述第二预定年龄范围，即16-60岁之间时，保证上述话术播报的音量在上述第二音量范围内，即81-110db，保证上述话术播报的语速在上述第二语速范围内，即180-220字/min，以这样的音量和语速播报内容符合青年及中年用户的听觉习惯，保证了青年及中年用户有较好的体验感。当然，上述的第一预定年龄范围、第二预定年龄范围、第三预定年龄范围、第一音量范围、第二音量范围、第一语速范围以及第二语速范围还可以调整为其他的数值范围，从而满足不同年龄用户对话术播报的需求，进一步提升了用户使用过程中的体验感。

当然，在上述话术播报方法没有获取到说话人的年龄信息时，还可以通过结合说话人的上述的语音、语速、语调、音量、说话节奏以及吐字清晰度等声音特征判断说话人的年龄范围，并确定上述年龄范围对应的播报音量范围和语速范围，进行话术播报。

根据本申请的又一种具体的实施例，上述声音特征还包括情绪。上述话术播报方法根据说话人的上述情绪声音特征确定话术播报内容，能够保证播报内容更加适应用户的情绪，进一步地保证了用户在话术播报过程中的体验感较好。

本申请的一种具体的实施例中，上述第一音量范围包括第一子音量范围和第二子音量范围，在上述说话人的特征信息包括年龄，上述年龄处于第一预定年龄范围的情况下，确定上述话术的声音特征中的音量在第一子音量范围内，上述年龄处于第三预定年龄范围的情况下，确定上述话术的声音特征中的音量在第二子音量范围内，其中，上述第二子音量范围的最小值大于上述第一子音量范围的最大值。通过上述第一子音量范围和上述第二子音量范围，避免了较大年龄阶段的用户因听力下降导致无法清楚地获取话术播报内容的问题，同时进一步保证了较小年龄阶段的用户的听力在获取话术播报过程中不受损，进一步保证了上述两个年龄阶段的用户具有较好的体验感和满意度。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种话术播报装置，需要说明的是，本申请实施例的话术播报装置可以用于执行本申请实施例所提供的用于话术播报方法。以下对本申请实施例提供的话术播报装置进行介绍。

图2是本申请实施例的话术播报装置的示意图。如图2所示，上述装置包括：获取单元10、第一确定单元20、第二确定单元30和播报单元40。获取单元10用于获取说话人的语音数据；第一确定单元20用于根据上述语音数据确定说话人的声音特征，上述声音特征包括语速、音量以及语调；第二确定单元30用于根据上述说话人的声音特征，确定话术的声音特征；播报单元40用于根据上述语音数据的语义以及确定的上述话术的声音特征，播报话术。

上述话术播报装置首先通过获取单元获取说话人的语音数据，然后通过上述第一确定单元确定说话人的上述声音特征，根据上述声音特征再由上述第二确定单元确定上述话术的声音特征，最后通过上述播报单元进行话术播报，达到了根据每个用户实时的语音来动态调整话术及话术播放方式的目的，实现了个性化的服务，同时避免了应对的机械性，使得交互过程中话术播报更加灵活，进一步提升了交互过程体验感。

当然，上述声音特征还可以包括说话节奏、吐字清晰度等，具体地，上述话术播报装置通过确定说话人的说话节奏，来确定上述话术的声音特征并播报话术，使得话术播报过程中的说话节奏贴合说话人的上述说话节奏，实现个性化服务的同时，提升了用户使用过程的交互体验，避免了流程化、机械化的播报。

根据本申请的一种具体的实施例，上述第二确定单元包括第一确定模块和第二确定模块，第一确定模块用于根据确定的上述话术的声音特征，确定说话人的特征信息，上述特征信息包括以下至少之一：年龄、性别和姓名；第二确定模块用于根据上述说话人的特征信息，确定上述话术的声音特征。上述话术播报装置通过年龄、性别和姓名等上述特征信息来调整上述话术的声音特征并进行播报话术，实现了根据用户的个人信息来确定话术播报内容，进一步保证了播报内容贴合用户自身情况，实现差异化沟通。

根据本申请的另一种具体的实施例，上述第二确定模块包括第一确定子模块和第二确定子模块，其中，第一确定子模块用于在上述说话人的特征信息包括年龄且上述年龄处于第一预定年龄范围或者第三预定年龄范围内的情况下，确定上述话术的声音特征中的音量在第一音量范围内，上述语速在第一语速范围内，其中，上述第一预定年龄范围的最大值小于上述第三预定年龄范围的最小值；第二确定子模块用于在上述说话人的特征信息包括年龄且上述年龄处于第二预定年龄范围内的情况下，确定上述话术的声音特征中的音量在第二音量范围内，上述语速在第二语速范围内，其中，上述第二预定年龄范围的最小值大于上述第一预定年龄范围的最大值，上述第二预定年龄范围的最大值小于上述第三预定年龄范围的最小值，上述第二音量范围的最小值大于上述第一音量范围的最大值，上述第二语速范围的最小值大于上述第一语速范围的最大值。上述话术播报装置根据上述说话人的年龄信息调整上述话术的声音特征中的音量与语速，各种年龄阶段的用户有对应年龄的话术播报音量与语速，保证了不同年龄阶段的用户能够清楚、准确的接收话术播报内容，提升了用户使用感。

具体地，上述第一预定年龄范围可以为2-15岁，上述第二预定年龄范围可以为16-60岁，上述第三预定年龄范围可以为61-80岁，上述第一音量范围可以为40-80db，上述第二音量范围可以为81-110db，上述第一语速范围可以为80-120字/min，上述第二语速范围可以为180-220字/min。上述话术播报装置确定上述说话人的年龄在上述第一预定年龄范围或者上述第三预定年龄范围，即2-15岁或者61-80岁之间时，保证上述话术播报的音量在上述第一音量范围内，即40-db，保证上述话术播报的语速在上述第一语速范围内，即80-120字/min，这样保证了老人和小孩用户能清晰、完整的听到播报内容，同时对老人和小孩用户的听力不造成损伤；在上述话术播报装置确定上述说话人的年龄在上述第二预定年龄范围，即16-60岁之间时，保证上述话术播报的音量在上述第二音量范围内，即81-110db，保证上述话术播报的语速在上述第二语速范围内，即180-220字/min，以这样的音量和语速播报内容符合青年及中年用户的听觉习惯，保证了青年及中年用户有较好的体验感。当然，上述的第一预定年龄范围、第二预定年龄范围、第三预定年龄范围、第一音量范围、第二音量范围、第一语速范围以及第二语速范围还可以调整为其他的数值范围，从而满足不同年龄用户对话术播报的需求，进一步提升了用户使用过程中的体验感。

当然，在上述话术播报装置没有获取到说话人的年龄信息时，还可以通过结合说话人的上述的语音、语速、语调、音量、说话节奏以及吐字清晰度等声音特征判断说话人的年龄范围，并确定上述年龄范围对应的播报音量范围和语速范围，进行话术播报。

根据本申请的又一种具体的实施例，上述声音特征还包括情绪。上述话术播报装置根据说话人的上述情绪声音特征确定话术播报内容，能够保证播报内容更加贴合用户的情绪，进一步地保证了用户在话术播报过程中的体验感较好。

上述话术播报装置包括处理器和存储器，上述获取单元、第一确定单元、第二确定单元和播报单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决在同一个场景对话流程下机器人无法针对不同的客户播报不同的话术内容，不能提供个性化的服务的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述话术播报方法。

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述话术播报方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

步骤s101，获取说话人的语音数据；

步骤s102，根据上述语音数据确定说话人的声音特征，上述声音特征包括语速、音量以及语调；

步骤s103，根据上述说话人的声音特征，确定话术的声音特征；

步骤s104，根据上述语音数据的语义以及确定的上述话术的声音特征，播报话术。

本文中的设备可以是服务器、pc、pad、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

步骤s101，获取说话人的语音数据；

步骤s102，根据上述语音数据确定说话人的声音特征，上述声音特征包括语速、音量以及语调；

步骤s103，根据上述说话人的声音特征，确定话术的声音特征；

步骤s104，根据上述语音数据的语义以及确定的上述话术的声音特征，播报话术。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请提供的话术播报方法，根据上述语音数据确定说话人的语速、音量以及语调这些上述声音特征，确定上述话术的声音特征，再结合上述语音数据的语义以及上述话术的声音特征进行播报话术。上述话术播报方法可以针对不同的说话人的上述声音特征动态调整上述话术的声音特征，实现了同一场景下针对不同的用户播报不同的话术内容，达到了个性化的服务，同时使得上述话术播报更加拟人化，提升了用户在上述话术播报过程中的交互体验，进而提升了用户使用满意度。

2)本申请提供的话术播报装置，首先通过获取单元获取说话人的语音数据，然后通过上述第一确定单元确定说话人的上述声音特征，根据上述声音特征再由上述第二确定单元确定上述话术的声音特征，最后通过上述播报单元进行话术播报，达到了根据每个用户实时的语音来动态调整话术及话术播放方式的目的，实现了个性化的服务，同时避免了应对的机械性，使得交互过程中话术播报更加灵活，进一步提升了交互过程体验感。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除