语音播报方法、智能语音设备及计算机可读存储介质与流程

2021-01-28 12:01:51|

271|

起点商标网

本发明涉及物联网领域，特别涉及一种语音播报方法、智能语音设备及计算机可读存储介质。

背景技术：

随着人工智能逐渐受到追捧，众多智能语音设备应运而生，智能语音设备应用方便，具有查询歌曲、故事、天气、行程、翻译等功能。相关技术中的智能语音设备主要采用在知识库中预设问题及相应的答案，系统获取到客户的语音信息后，通过相应的算法转写为文本，将文本信息送入后台系统，到知识库中寻找对应的答案返回给客户，提高服务效率。

然而，本发明的发明人发现，相关技术中的智能语音设备在获取到对应的答案后，只能用单一音色、声调、音量对答案进行播报。无论用户在咨询哪一类问题，语音系统播报时都没有变化。导致相关技术中的智能语音设备在语音播报方面的用户体验较差。

技术实现要素：

本发明实施方式的目的在于提供一种语音播报方法、智能语音设备及计算机可读存储介质，使得用户体验得到提升。

为解决上述技术问题，本发明的实施方式提供了一种语音播报方法，包含以下步骤：采集客户的当前语音信息；解析所述当前语音信息，得到当前语音内容和当前情绪信息；根据所述当前语音内容获取当前播报内容，根据所述当前情绪信息确定当前应答语音；使用所述当前应答语音播报所述当前播报内容。

本发明的实施方式还提供了一种智能语音设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前述的语音播报方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现前述的语音播报方法。

本发明实施方式相对于现有技术而言，对客户的当前语音信息进行解析，得到当前语音内容和当前情绪信息，并根据当前语音内容获取当前播报内容，根据当前情绪信息确定当前应答语音，使用当前应答语音播报当前播报内容。从而在人机交互的过程中，根据用户的语音信息判断用户的当前情绪，并根据当前情绪设置相应的应答语音，实现多维度个性化情感语音交互，提升用户的使用体验。

另外，所述解析所述当前语音信息，得到当前语音内容和当前情绪信息，具体包括：对所述当前语音信息进行语音识别，得到所述当前语音内容；提取特征词、并通过训练完成的语义识别模型对所述当前语音内容进行语义识别，根据所述特征词和所述语义识别结果确定所述当前语音内容所包含的当前技能域和与所述当前技能域对应的当前意图，根据所述当前技能域获取所述当前语音信息所属的当前场景信息；根据所述当前技能域、所述当前意图和所述当前场景信息获取所述当前情绪信息。根据当前技能域、当前意图和当前场景信息获取用户的当前情绪信息，提供一种具体的识别用户情绪的方法以实现对用户的情绪的准确识别。

另外，所述根据所述当前技能域、所述当前意图和所述当前场景信息获取所述当前情绪信息，具体包括：获取各个情绪类别与所述当前技能域的相关度作为技能域系数；获取各个所述情绪类别与所述当前意图的相关度作为意图系数；获取各个所述情绪类别与所述当前场景信息的相关度作为场景信息系数；根据所述技能域系数、所述意图系数和所述场景信息系数计算各个所述情绪类别的情绪得分，将最大的所述情绪得分对应的所述情绪类别作为所述当前情绪信息。

另外，所述根据所述技能域系数、所述意图系数和所述场景信息系数计算各个所述情绪类别的情绪得分，具体包括：获取所述语义识别模型输出的与所述当前语音内容对应的当前场景明确程度、当前技能明确程度、以及当前意图明确程度，其中，所述当前技能明确程度为所述当前语音内容所包含的技能域为所述当前技能域的概率，所述当前意图明确程度为所述当前语音内容所包含的意图为所述当前意图的概率，所述当前场景明确程度为所述当前语音信息所属的场景信息为所述当前场景信息的概率；根据公式：情绪得分＝场景信息系数·x/x+技能域系数·y/y+意图系数·z/z，计算各个所述情绪类别的情绪得分；其中，x＝当前场景明确程度，x＝当前场景信息明确程度均值，y＝当前技能明确程度，y＝技能域明确程度均值，z＝当前意图明确程度，z＝意图话明确程度均值，所述当前场景信息明确程度均值、所述技能域明确程度均值、所述意图话明确程度均值均为统计常量。

另外，所述解析所述当前语音信息，得到当前语音内容和当前情绪信息，具体包括：对所述当前语音信息进行数据处理，得到所述当前语音内容和用户声纹信息，所述用户声纹信息包括声调、声色、音量中的至少一者；根据所述用户声纹信息获取所述当前情绪信息。

另外，所述根据所述当前情绪信息获取当前应答语音前，还包括：判断是否存在默认语音；若存在，则使用所述默认应答语音播报所述当前播报内容；若不存在，则再执行所述根据所述当前情绪信息获取当前应答语音。当存在默认语音时，说明用户存在偏好语音，以用户设置的偏好默认语音进行当前播报内容的播报，可以进一步的提升用户的使用体验。

另外，所述根据所述当前情绪信息获取当前应答语音，具体包括：预存多个自定义语音，并预设各个所述自定义语音所对应的情绪类别；获取与所述当前情绪信息对应的自定义语音作为所述当前应答语音。

另外，所述根据所述当前语音内容获取当前播报内容，具体包括：根据所述当前语音内容和所述当前情绪信息获取所述当前播报内容。通过当前情绪信息获取当前播报内容，使得当前播报内容与用户的当前情绪相关，进一步的提升用户的使用体验。

附图说明

图1是本发明第一实施方式所提供的语音播报方法的流程图；

图2是本发明第二实施方式所提供的语音播报方法的流程图；

图3是本发明第三实施方式所提供的语音播报方法的流程图；

图4是本发明第四实施方式所提供的智能语音设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种语音播报方法，具体步骤如图1所示，包括：

步骤s101：采集客户的当前语音信息。

具体的，在本实施方式中，智能语音设备可以通过识别用户说出的预设词，并采集预设词后跟随的语音信息做为当前语音信息。例如，预设词为aa，当用户说出“aa，xxxxx”，则获取预设词aa后跟随的语音信息“xxxxx”作为当前语音信息。可以理解的是，前述仅为本实施方式中采集客户的当前语音信息的一种具体的方式的举例说明，并不构成限定，在本发明的其它实施方式中，也可以是智能语音设备采集用户说出的所有语音信息，并对每条语音信息进行语义识别，根据语义识别结果判断用户的说话对象，将说话对象为智能语音设备的语音信息作为当前语音信息。

步骤s102：解析当前语音信息，得到当前语音内容和当前情绪信息。

具体的，在本实施方式中，对当前语音信息进行语音识别，得到当前语音内容，例如，通过自动语音识别技术(automaticspeechrecognition，asr)将当前语音信息转化为文本形式的当前语音内容。可以理解的是，前述通过asr将当前语音信息转化为文本形式的当前语音内容仅为本实施方式中的一种具体的应用举例，并不构成限定，在本发明的其它实施方式中，也可以是通过其它语音识别技术对当前语音信息进行语音识别，得到当前语音内容，具体可以根据实际需要进行灵活的选用。

此外，在本实施方式中，可以通过通过训练完成的语义识别模型对当前语音内容进行语义识别，从当前语音内容中提取特征词，根据特征词和语义识别结果确定当前语音内容所包含的当前技能域和与当前技能域对应的当前意图，根据当前技能域获取当前语音信息所属的场景信息，根据当前技能域、当前意图和当前场景信息获取当前情绪信息。例如，特征词为“歌曲”和“听”，则当前技能域为“音乐”，对应的当前意图为“听”，场景信息为“媒体场景”。

更进一步的，在本实施方式中，获取各个情绪类别与当前技能域的相关度作为技能域系数，例如，获取各个情绪类别(如快乐、愤怒、悲哀、恐惧)与当前技能域(音乐)之间的相关度作为技能域系数；获取各个情绪类别与当前意图的相关度作为意图系数；获取各个情绪类别与当前场景信息的相关度作为场景信息系数；根据技能域系数、意图系数和场景信息系数计算各个情绪类别的情绪得分，将最大的情绪得分对应的情绪类别作为当前情绪信息。

优选的，在本实施方式中，获取语义识别模型输出的与当前语音内容对应的当前场景明确程度、当前技能明确程度、以及当前意图明确程度，其中，当前技能明确程度为当前语音内容所包含的技能域为当前技能域的概率，当前意图明确程度为当前语音内容所包含的意图为当前意图的概率，当前场景明确程度为当前语音信息所属的场景信息为当前场景信息的概率。可以理解的是，语义识别模型通过对数据的分析，得到当前语音内容所包含的技能域为各个技能域的概率，将概率最大的技能域作为当前技能域，当前技能明确程度即为当前语音内容所包含的技能域为当前技能域的概率。当前意图明确程度和当前场景明确程度同理，在此不再赘述。

根据公式：

情绪得分＝场景信息系数·x/x+技能域系数·y/y+意图系数·z/z，计算各个情绪类别的情绪得分；其中，x＝当前场景明确程度，x＝当前场景信息明确程度均值，y＝当前技能明确程度，y＝技能域明确程度均值，z＝当前意图明确程度，z＝意图话明确程度均值，当前场景信息明确程度均值、技能域明确程度均值、意图明确程度均值均为统计常量。当前场景信息明确程度均值为系统统计多次对话后得出的当前场景信息明确程度的平均值，技能域明确程度均值为系统统计多次对话后得出的当前技能域明确程度的平均值，意图明确程度均值为系统统计多次对话后得出的当前意图明确程度的平均值。

可以理解的是，前述仅为本实施方式中根据当前语音内容获取用户的当前情绪信息的一种具体的举例说明，并不构成限定，在本发明的其它实施方式中，还可以是通过其它方式获取用户的当前情绪信息。例如：对当前语音信息进行数据处理，得到当前语音内容和用户声纹信息，用户声纹信息包括声调、声色、音量中的至少一者；根据用户声纹信息获取当前情绪信息。例如：当用户声调较低、音量较小时，识别用户的当前情绪信息为消极情绪，如悲伤等。此外，在本发明的其它实施方式中，也可以是通过多种方式同时对用户的当前情绪信息进行识别，并根据相应的权重确定最终的当前情绪信息，在此不进行一一列举，具体可以根据实际需要进行灵活的选用。

步骤s103：根据当前语音内容获取当前播报内容。

具体的，在本实施方式中，通过对当前语音内容的语义识别，从数据库中获取与当前语音内容对应的答复内容作为当前播报内容。例如：但用户询问与手机相关的内容时，从数据库中获取与手机相关的答复内容作为当前播报内容。

步骤s104：根据当前情绪信息确定当前应答语音。

具体的，在本实施方式中，预存多个自定义语音，并预设各个自定义语音对应的情绪类别，获取与当前情绪信息对应的自定义语音作为当前应答语音。例如，预存多个亲人和朋友的语音信息作为自定义语音，并预设各个亲人和朋友对应的情绪类别，如母亲对应情绪快乐，父亲对应情绪惊奇，朋友对应情绪悲伤等，在获取到用户的当前情绪信息后，获取与当前情绪信息对应的自定义语音作为当前应答语音，如当前情绪信息为快乐，则将预设的母亲的语音作为当前应答语音。可以理解的是，前述预存多个亲人和朋友的语音信息作为自定义语音仅为本实施方式中的一种具体的举例说明，并不构成限定，在本发明的其它实施方式中，也可以是设置用户喜爱的明星或名人的语音信息作为自定义语音，具体可以根据实际需要进行灵活的设置。

进一步的，在本实施方式中，自定义语音的设置可以是通过网络直接获取，如从网上下载用户喜爱的明星或名人的语音信息作为自定义语音，也可以是通过自行录制形成自定义语音，例如预先录制亲人和朋友的语音信息，其中，预先录制的亲人和朋友的语音信息还可以通过通信网发送至其它的智能语音设备。在录制自定义语音的过程中，智能语音设备或云端可以通过决策分析得到目标语音(即用户录制时所说的语音)的上下文相关的决策序列，并生成相应的语音参数进行保存。所述声学参数文件至少包括基频、谱参数。声纹模块将语音参数合成得到说话人目标情感的语音，并通过与常用语对比，确定用户缺少的语料。当收集了一段时间后，会提示用户缺少的语料，并进行主动提示用户跟读，补全常用语料。

步骤s105：使用当前应答语音播报当前播报内容。

与现有技术相比，本发明第一实施方式所提供的语音播报方法中，通过对客户的当前语音信息进行解析，得到当前语音内容和当前情绪信息，并根据当前语音内容获取当前播报内容，根据当前情绪信息确定当前应答语音，使用当前应答语音播报当前播报内容。从而在人机交互的过程中，根据用户的语音信息判断用户的当前情绪，并根据当前情绪设置相应的应答语音，实现多维度个性化情感语音交互，提升用户的使用体验。

本发明的第二实施方式涉及一种语音播报方法。第二实施方式与第一实施方式大致相同，如图2所示，包括以下步骤：

步骤s201：采集客户的当前语音信息。

步骤s202：解析当前语音信息，得到当前语音内容和当前情绪信息。

步骤s203：根据当前语音内容获取当前播报内容。

可以理解的是，本实施方式中的步骤s201至步骤s203与第一实施方式中的步骤s101至步骤s103大致相同，在此不再赘述。

步骤s204：判断是否存在默认语音，若是，执行步骤s205，若否，执行步骤s206。

具体的，在本实施方式中，在根据当前情绪信息确定当前应答语音前，判断系统中是否存在用户设置的默认语音，例如，用户设置某个喜欢的明星的语音作为默认语音，无论何种情况都使用默认语音进行语音的播报，则执行步骤s205，若不存在默认语音，则执行步骤s206。

步骤s205：使用默认语音播报当前播报内容。

步骤s206：根据当前情绪信息确定当前应答语音。

步骤s207：使用当前应答语音播报当前播报内容。

可以理解的是，本实施方式中的步骤s206至步骤s207与第一实施方式中的步骤s104至步骤s105大致相同，在此不再赘述。

与现有技术相比，本发明第二实施方式在保留第一实施方式中的全部技术效果的同时，通过对用户默认语音的判断，使得播报的应答语音为用户喜爱的语音。进一步的提升用户的使用体验。

本发明的第三实施方式涉及一种语音播报方法。第三实施方式与第一实施方式大致相同，如图3所示，包括以下步骤：

步骤s301：采集客户的当前语音信息。

步骤s302：解析当前语音信息，得到当前语音内容和当前情绪信息。

可以理解的是，本实施方式中的步骤s301至步骤s302与第一实施方式中的步骤s101至步骤s102大致相同，在此不再赘述。

步骤s303：根据当前语音内容和当前情绪信息获取当前播报内容。

具体的，在本实施方式中，根据当前语音内容和当前情绪信息共同获取当前播报内容。例如：通过对当前语音内容的语义识别，从数据库中获取与当前语音内容对应的答复内容后，根据当前情绪信息对答复内容进行筛选，获取最终的当前播报内容。例如：但用户询问与手机相关的内容时，从数据库中获取与手机相关的答复内容，若当前用户的情绪信息为消极情绪，则从相关答复内容中获取积极内容作为当前播报内容。

步骤s304：根据当前情绪信息确定当前应答语音。

步骤s305：使用当前应答语音播报当前播报内容。

可以理解的是，本实施方式中的步骤s304至步骤s305与第一实施方式中的步骤s104至步骤s105大致相同，在此不再赘述。

与现有技术相比，本发明第三实施方式所提供的语音播报方法在保留第一实施方式的全部技术效果的同时，通过当前语音内容和当前情绪信息共同获取当前播报内容，从而使得当前播报内容与用户的当前情绪相对应，进一步的提升用户的使用体验。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包含相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第四实施方式涉及一种智能语音设备，如图4所示，包括：至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行如前述实施方式所提供的语音播报方法。

其中，存储器402和处理器401采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器401。

处理器401负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。

不难发现，本实施方式为与前述实施方式相对应的系统实施例，本实施方式可与前述实施方式互相配合实施。前述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在前述实施方式中。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。