语音交互方法、装置、计算机可读存储介质和处理器与流程

2021-01-28 12:01:34|

252|

起点商标网

本申请涉及语音交互领域，具体而言，涉及一种语音交互方法、装置、计算机可读存储介质、处理器和语音交互系统。

背景技术：

当前语音交互技术广泛应用在智能机器人、智能音箱、智能车载、智能家居等领域，人们通过语音对话即可操纵设备或系统执行命令或者完成问答对话。但是，设备在进行语音交互时，通常使用一种系统预设的音色进行合成播报，较为单调。

为了增加交互的趣味性和个性化，个别设备会设置多个音色库，用户需手动在系统设置中进行切换配置，但也无法满足在实时语音交互时自动切换音色且为不同人群推荐不同音色库的问题。

当前的语音交互智能化推荐一般集中在内容推荐上，即为不同人群推荐个性化的内容，比如，音乐、故事或者问答等。在目前的语音交互系统中，用户与设备进行对话可得到系统预设的固定音色播报，即面对不同的用户，机器都会以同一种音色进行合成播报，不能针对不同的用户智能推荐不同的播报音色，无法提供更加个性化的服务。

在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

技术实现要素：

本申请的主要目的在于提供一种语音交互方法、装置、计算机可读存储介质、处理器和语音交互系统，以解决现有技术中难以针对不同说话人进行不同音色的语音播报的问题。

根据本发明实施例的一个方面，提供了一种语音交互方法，包括：获取说话人的语音数据；根据所述语音数据，确定播报的预定语音音色；采用所述预定语音音色进行播报。

可选地，根据所述语音数据，确定播报的预定语音音色，包括提取所述语音数据的声纹特征；根据所述声纹特征，确定所述预定语音音色。

可选地，根据所述声纹特征，确定所述预定语音音色，包括确定声纹数据库中的与所述语音数据的声纹特征相匹配的声纹特征为目标声纹特征；将所述目标声纹特征对应的人员确定为目标人员；确定所述目标人员对应的预设的语音音色为所述预定语音音色。

可选地，确定声纹数据库中的与所述语音数据的声纹特征相匹配的声纹特征为目标声纹特征，包括获取所述语音数据的声纹特征与所述声纹数据库中的各个声纹特征的声纹相似度；确定所述声纹相似度是否大于声纹相似度阈值；在所述声纹相似度大于所述声纹相似度阈值的情况下，确定最大声纹相似度对应的所述声纹数据库中的声纹特征为所述目标声纹特征。

可选地，确定所述目标人员对应的预设的语音音色为所述预定语音音色，包括在音色库中查找所述目标人员对应的所述预设的语音音色；确定所述预设的语音音色为所述预定语音音色。

可选地，根据所述语音数据，确定播报的预定语音音色，包括提取所述语音数据的语音特征；根据所述语音数据的语音特征，确定所述预定语音音色。

可选地，根据所述语音数据的语音特征，确定所述预定语音音色，包括获取所述语音数据的语音特征与语音特征库中的各语音特征的语音相似度；确定最大语音相似度对应的所述语音特征库中的语音特征为目标语音特征；获取所述目标语音特征对应的目标身份属性信息，所述目标身份属性信息包括以下至少之一：性别、年龄段、语种；确定所述目标身份属性信息对应的预设的语音音色为所述预定语音音色。

根据本发明实施例的另一方面，提供了一种语音交互装置，包括获取单元、确定单元和播报单元，获取单元用于获取说话人的语音数据；确定单元用于根据所述语音数据，确定播报的预定语音音色；播报单元用于采用所述预定语音音色进行播报。

根据本发明实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任一种所述的方法。

根据本发明实施例的再一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任一种所述的方法。

根据本发明实施例的另一方面，还提供了一种语音交互系统，包括一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述任一种所述的方法。

在本发明实施例中，所述语音交互方法通过根据获取的所述语音数据确定播报的预定语音音色并采用所述预定语音音色进行播报，能够实现在与不同的用户进行语音交互时，智能推荐并切换播报音色，实现了对不同说话人采用不同的语音音色播报，同时所述方法不需要依赖如活跃型、稳重型、幽默型、可爱型或较真型等语音风格的划分与定义，能较准确的预测和判断说话人的语音音色，满足对不同人群推荐不同音色的需求，显著地提升了用户在使用过程中的趣味性和个性化体验。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请实施例的语音交互方法生成的流程示意图；

图2示出了根据本申请实施例的语音交互装置的组成示意图。

其中，上述附图包括以下附图标记：

10、获取单元；20、确定单元；30、播报单元。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

播报音色：语音交互中，用户与机器进行对话，机器进行回答，一般是利用语音合成技术使用预设的发音人的音色进行播报。可以设置不同的音色(如男童音、女童音、低沉男声、甜美女声、英语、粤语等)进行合成播报。

语音分类：通过提取音频特征对该段音频在指定的类别中进行分类。如性别识别、年龄段段识别、语种(方言)识别等均属于语音分类。即通过说话人的语音数据来对说话人进行特征提取和群体划分。

正如背景技术中所说的，现有技术中难以针对不同说话人进行不同音色的语音播报，为了解决上述问题，本申请的一种典型的实施方式中，提供了一种语音交互方法、装置、计算机可读存储介质、处理器和语音交互系统。

根据本申请的实施例，提供了一种语音交互方法。

图1是根据本申请实施例的语音交互方法生成的流程图。如图1所示，该方法包括以下步骤：

步骤s101，获取说话人的语音数据；

步骤s102，根据上述语音数据，确定播报的预定语音音色；

步骤s103，采用上述预定语音音色进行播报。

上述语音交互方法通过根据获取的上述语音数据确定播报的预定语音音色并采用上述预定语音音色进行播报，能够实现在与不同的用户进行语音交互时，智能推荐并切换播报音色，实现了对不同说话人采用不同的语音音色播报，同时上述方法不需要依赖如活跃型、稳重型、幽默型、可爱型或较真型等语音风格的划分与定义，能较准确的预测和判断说话人对应的上述预定语音音色，满足对不同人群推荐不同音色的需求，显著地提升了用户在使用过程中的趣味性和个性化体验。

本申请的一种具体的实施例中，根据上述语音数据，确定播报的预定语音音色，包括：提取上述语音数据的声纹特征；根据上述声纹特征，确定上述预定语音音色。通过提取上述语音数据的声纹特征并根据上述声纹特征确定上述预定语音音色进行播报，进一步避免了使用一种系统预设的音色进行合成播报较为单调的问题，增加了交互过程的趣味性与个性化。

本申请的另一种具体的实施例中，根据上述声纹特征，确定上述预定语音音色，包括：确定声纹数据库中的与上述语音数据的声纹特征相匹配的声纹特征为目标声纹特征；将上述目标声纹特征对应的人员确定为目标人员；确定上述目标人员对应的预设的语音音色为上述预定语音音色。通过获取说话人的上述声纹特征并与上述声纹数据库中的声纹特征进行匹配，找到上述目标声纹特征，并将上述目标声纹特征对应的人员确认为上述目标人员，将上述目标人员对应的上述预设的语音音色作为上述预定语音音色进行播报，进一步地实现了对播报音色的智能推荐，满足了用户在语音交互过程中的趣味性，提升了满意度。

根据本申请的一种实施例，确定声纹数据库中的与上述语音数据的声纹特征相匹配的声纹特征为目标声纹特征，包括：获取上述语音数据的声纹特征与上述声纹数据库中的各个声纹特征的声纹相似度；确定上述声纹相似度是否大于声纹相似度阈值；在上述声纹相似度大于上述声纹相似度阈值的情况下，确定最大声纹相似度对应的上述声纹数据库中的声纹特征为上述目标声纹特征。上述方法通过获取上述声纹相似度并与上述声纹相似度阈值对比来确定目标声纹特征，保证了智能推荐的播报音色与用户的上述语音数据匹配，进一步保证了语音交互过程中用户的体验感和满足感。

具体地，在将获取的上述声纹特征与上述声纹数据库中的各个声纹特征进行匹配得出上述声纹相似度时，只有在上述声纹相似度达到设定的上述声纹相似度阈值时，才会确定目标声纹特征并播报与之对应的上述预定语音音色；当匹配得到多个达到上述声纹相似度阈值的上述声纹相似度时，将最大声纹相似度对应的上述声纹特征确定为上述目标声纹特征并播报与之对应的上述预定语音音色；当匹配得到的上述声纹相似度没有达到上述声纹相似度阈值时，则使用默认合成音色进行播报。

为了进一步地保证播报的上述预定语音音色与说话人的上述语音数据匹配度高，增加交互过程的趣味性与个性化，根据本申请的另一种实施例，确定上述目标人员对应的预设的语音音色为上述预定语音音色，包括：在音色库中查找上述目标人员对应的上述预设的语音音色；确定上述预设的语音音色为上述预定语音音色。

本申请的又一种典型的实施例中，根据上述语音数据，确定播报的预定语音音色，包括：提取上述语音数据的语音特征；根据上述语音数据的语音特征，确定上述预定语音音色。通过提取上述语音特征来确定上述预定语音音色，不需要依赖诸如活跃型、稳重型、有模型、可爱型或者较真型等语音风格的划分，可实施性高，且预测和判断说话人的语音特征较为准确，进一步满足了针对不同人群智能推荐对应的音色的需求。

具体地，上述语音特征包括基音频率和/或共振峰带宽等，也可以包括mfcc(梅尔频率倒谱系数)、lpc(线性预测系数)、lpcc(线性预测倒谱系数)和/或lsf(线谱频率)等特征。

本申请的再一种具体的实施例中，根据上述语音数据的语音特征，确定上述预定语音音色，包括：获取上述语音数据的语音特征与语音特征库中的各语音特征的语音相似度；确定最大语音相似度对应的上述语音特征库中的语音特征为目标语音特征；获取上述目标语音特征对应的目标身份属性信息，上述目标身份属性信息包括以下至少之一：性别、年龄段、语种；确定上述目标身份属性信息对应的预设的语音音色为上述预定语音音色。通过确定最大语音相似度对应的上述语音特征为目标语音特征，并获取上述目标语音特征对应的性别、年龄段、语种等上述身份属性信息来确定上述预定语音音色，这样使得语音交互过程中智能推荐及切换的语音音色更加的贴合说话人的上述身份属性信息，进一步地提升了用户在使用过程中的趣味性和满意度。当然，上述目标身份属性信息除了包括性别、年龄段、语种至少之一外，还可以包括语速、说话节奏等其他属性信息。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种语音交互装置，需要说明的是，本申请实施例的语音交互装置可以用于执行本申请实施例所提供的语音交互方法。以下对本申请实施例提供的语音交互装置进行介绍。

图2是本申请实施例的语音交互装置的组成示意图。如图2所示，该装置包括获取单元10、确定单元20和播报单元30，其中，获取单元用于获取说话人的语音数据；确定单元用于根据上述语音数据，确定播报的预定语音音色；播报单元用于采用上述预定语音音色进行播报。

上述语音交互装置根据上述获取单元获取的上述语音数据，由上述确定单元确定播报的上述预定语音音色，再由上述播报单元使用上述预定语音音色进行播报，实现了对语音音色的智能推荐，能较准确的预测和判断说话人的身份属性信息，保证智能推荐的语音音色与说话人的身份属性信息匹配，满足了面对不同人群推荐不同音色的需求，个性化程度高，显著提升了用户在交互过程中的使用感和趣味性。

根据本申请的一种典型的实施例，上述确定单元包括第一提取模块和第一确定模块，其中，上述第一提取模块用于提取上述语音数据的声纹特征；上述第一确定模块用于根据上述声纹特征，确定上述预定语音音色。通过提取上述语音数据的声纹特征并根据上述声纹特征确定上述预定语音音色进行播报，避免了使用一种系统预设的音色进行合成播报较为单调的问题，增加了交互过程的趣味性与个性化。

根据本申请的又一种实施例，上述第一确定模块包括第一确定子模块、第二确定子模块和第三确定子模块，其中，上述第一确定子模块用于确定声纹数据库中的与上述语音数据的声纹特征相匹配的声纹特征为目标声纹特征；上述第二确定子模块用于将上述目标声纹特征对应的人员确定为目标人员；上述第三确定子模块用于确定上述目标人员对应的预设的语音音色为上述预定语音音色。通过获取说话人的上述声纹特征并与上述声纹数据库中的声纹特征进行匹配，找到上述目标声纹特征，并将上述目标声纹特征对应的人员确认为上述目标人员，将上述目标人员对应的上述预设的语音音色作为上述预定语音音色进行播报，进一步地实现了对播报音色的智能推荐，满足了用户在语音交互过程中的趣味性，提升了满意度。

本申请的另一种具体的实施例中，上述第一确定子模块还用于获取上述语音数据的声纹特征与上述声纹数据库中的各个声纹特征的声纹相似度；确定上述声纹相似度是否大于声纹相似度阈值；在上述声纹相似度大于上述声纹相似度阈值的情况下，确定最大声纹相似度对应的上述声纹数据库中的声纹特征为上述目标声纹特征。上述装置通过获取上述声纹相似度并与上述声纹相似度阈值对比来确定目标声纹特征，保证了智能推荐的播报音色与用户的上述语音数据匹配，进一步保证了语音交互过程中用户的体验感和满足感。

为了进一步地保证播报的上述预定语音音色与说话人的上述语音数据匹配度高，增加交互过程的趣味性与个性化，根据本申请的一种实施例，上述第三确定子模块还用于在音色库中查找上述目标人员对应的上述预设的语音音色；确定上述预设的语音音色为上述预定语音音色。

根据本申请的再一种具体的实施例，上述确定单元还包括第二提取模块和第二确定模块，其中，上述第二提取模块用于提取上述语音数据的语音特征；上述第二确定模块用于根据上述语音数据的语音特征，确定上述预定语音音色。通过提取上述语音特征来确定上述预定语音音色，不需要依赖诸如活跃型、稳重型、有模型、可爱型或者较真型等语音风格的划分，可实施性高，预测和判断说话人的语音特征较为准确，进一步满足了针对不同人群智能推荐对应的音色的需求。

本申请的另一种实施例中，上述第二确定模块包括第一获取子模块、第四确定子模块、第二获取子模块和第五确定子模块，其中，上述第一获取子模块用于获取上述语音数据的语音特征与语音特征库中的各语音特征的语音相似度；上述第四确定子模块用于确定最大语音相似度对应的上述语音特征库中的语音特征为目标语音特征；上述第二获取子模块用于获取上述目标语音特征对应的目标身份属性信息，上述目标身份属性信息包括以下至少之一：性别、年龄段、语种；上述第五确定子模块用于确定上述目标身份属性信息对应的预设的语音音色为上述预定语音音色。通过获取性别、年龄段、语种等上述身份属性信息来确定上述预定语音音色，这样使得语音交互过程中智能推荐及切换的语音音色更加的贴合说话人的上述身份属性信息，进一步地提升了用户在使用过程中的趣味性和满意度。当然，上述目标身份属性信息除了包括性别、年龄段、语种至少之一外，还可以包括语速、说话节奏等其他属性信息。

上述语音交互装置包括处理器和存储器，上述获取单元10、确定单元20和播报单元30等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中难以针对不同说话人进行不同音色的语音播报的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述语音交互方法。

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述语音交互方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

步骤s101，获取说话人的语音数据；

步骤s102，根据上述语音数据，确定播报的预定语音音色；

步骤s103，采用上述预定语音音色进行播报。

本文中的设备可以是服务器、pc、pad、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

步骤s101，获取说话人的语音数据；

步骤s102，根据上述语音数据，确定播报的预定语音音色；

步骤s103，采用上述预定语音音色进行播报。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

为了使得本领域技术人员能够更加清楚地了解本申请的技术方案，以下将结合具体的实施例来说明。

实施例1

在家居和车载等私人场合，用户能方便的在自己的运行上述语音交互方法的智能设备上进行声纹特征注册，上述语音交互方法能够很方便的根据上述声纹特征识别出说话人是哪一位成员。通过配置与上述声纹特征相匹配的预设的语音音色作为预定语音音色，比如男主人设置为a预定语音音色播报，女主人设置为b预定语音音色播报，小男孩设置为c预定语音音色播报，默认为d预定语音音色播报，这样使用上述语音交互方法采集到上述语音数据后，能够通过上述声纹特征进行目标人员确定，然后自动切换至预设的语音音色并合成播报。特别的，如果家庭外的陌生人，即事先未进行声纹特征注册，且没有配置个性化音色的人，进行语音交互时，上述语音交互方法无法辨识用户身份，此时使用默认音色d来进行播报。

实施例2

在大厅等公共场合，用户事先未进行上述声纹特征注册，运行上述语音交互方法的智能设备无法准确识别用户身份信息。此时，通过上述语音交互方法预设目标身份属性信息与上述预定语音音色的对应关系，比如中年男+粤语设置为a音色播报，女童+普通话设置为b音色播报，这样上述智能设备在采集到上述语音数据后，提取上述语音数据的上述语音特征，通过上述语音特征获取出上述目标身份属性信息，比如男、中年人、粤语，女、儿童、普通话，从而确定上述预定语音音色，并自动切换至上述预定语音音色并合成播报。此处的属性包含以下几类：年龄段，儿童、青年、中年、老年；性别，男、女；语种，普通话、英语、粤语、四川话、上海话，当然，上述目标身份属性信息还可以包括其他信息，上述年龄段、语种还可以包括其他类别，通过上述语音特征能够识别哪些用户属性，依赖当前语音分类技术的发展。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请提供了一种语音交互方法，通过根据获取的上述语音数据确定播报的预定语音音色并采用上述预定语音音色进行播报，能够实现在与不同的用户进行语音交互时，智能推荐并切换播报音色，实现了对不同说话人采用不同的语音音色播报，同时上述方法不需要依赖如活跃型、稳重型、幽默型、可爱型或较真型等语音风格的划分与定义，能较准确的预测和判断说话人对应的上述预定语音音色，满足对不同人群推荐不同音色的需求，显著地提升了用户在使用过程中的趣味性和个性化体验。

2)、本申请提供了一种语音交互装置，根据上述获取单元获取的上述语音数据，由上述确定单元确定播报的上述预定语音音色，再由上述播报单元使用上述预定语音音色进行播报，实现了对语音音色的智能推荐，能较准确的预测和判断说话人的身份属性信息，保证智能推荐的语音音色与说话人的身份属性信息匹配，满足了面对不同人群推荐不同音色的需求，个性化程度高，显著提升了用户在交互过程中的使用感和趣味性。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除