结合RPA及AI的数据的处理方法、装置、设备及存储介质与流程

2021-01-28 12:01:42|

214|

起点商标网

本申请涉及计算机技术领域，具体涉及人工智能(artificialintelligence，简称ai)和机器人流程自动化(roboticprocessautomation，简称rpa)领域，尤其涉及一种结合rpa及ai的数据的处理方法、装置、设备及存储介质。

背景技术：

机器人流程自动化(roboticprocessautomation，简称：rpa)是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。

人工智能(artificialintelligence)，英文缩写为ai。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，ai包括自然语言处理(nlp：naturallanguageprocessing)。

随着手机、平板电脑等终端设备的普及，电子产品的线上阅读逐渐成为用户获取信息的一种热门方式，比如新闻、小说、漫画等。随着用户需求的不断提高，有声阅读成为提高用户体验的方式之一。

现有技术中，把文字读物转换成声音读物通常是先将文字读物的文本序列对应转化成音韵序列，根据音韵序列生成语音波形，根据语音波形合成语音。

但是，现有技术生成有声读物的方法得到的仅仅是每个文字单纯相连的标准发音，生成的语音不够准确，不能有效准确地体现文本读物中的角色及感情，从而导致用户体验较差。

技术实现要素：

本申请提供一种结合rpa及ai的数据的处理方法、装置、设备及存储介质，以解决现有技术生成语音准确性差等缺陷。

本申请第一个方面提供一种结合rpa及ai的数据的处理方法，包括：

获取文本数据；

根据所述文本数据，确定说话内容及各说话内容对应的语境信息；

基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息；

基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型；

基于各说话内容及各说话内容对应的目标声学特征模型，生成所述文本数据对应的声音数据并输出。

可选地，所述基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息，包括：

根据各说话内容对应的语境信息，采用训练好的第一语言模型确定各说话内容对应的说话人身份；并根据各说话内容对应的语境信息，采用训练好的第二语言模型确定各说话内容对应的说话语气；

根据各说话内容对应的说话人身份及预设映射关系，确定各说话人性别；

根据各说话内容对应的说话语气及训练好的聚类模型，确定各说话语气对应的情绪类型。

可选地，所述基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型，包括：

根据各说话内容对应的说话人身份、说话人性别、说话语气及情绪类型，选择各说话内容对应的目标声学特征模型。

可选地，所述第一语言模型和所述第二语言模型为自然语言处理的bert模型。

可选地，在所述基于各说话内容及对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息之前，所述方法还包括：

获取第一训练数据和第二训练数据，所述第一训练数据包括第一训练特征数据和第一标注数据；所述第二训练数据包括第二训练特征数据和第二标注数据；

通过自然语言处理nlp基于所述第一训练数据对预先建立的第一语言网络进行训练，获得训练好的所述第一语言模型；

通过自然语言处理nlp基于所述第二训练数据对预先建立的第二语言网络进行训练，获得训练好的所述第二语言模型。

可选地，在根据各说话内容对应的说话语气及训练好的聚类模型，确定各说话语气对应的情绪类型之前，所述方法还包括：

获取第三训练数据，所述第三训练数据包括训练语气关键词及聚类标签；

根据所述第三训练数据进行聚类训练，获得训练好的所述聚类模型。

可选地，所述根据所述文本数据，确定说话内容及各说话内容对应的语境信息，包括：

对所述文本数据进行向量化，获得对应的向量数据；

根据所述向量数据及预设分析规则，确定说话内容及各说话内容对应的语境信息

本申请第二个方面提供一种结合rpa及ai的数据的处理装置，包括：

获取模块，用于获取文本数据；

确定模块，用于根据所述文本数据，确定说话内容及各说话内容对应的语境信息；

处理模块，用于基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息；

选择模块，用于基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型；

生成模块，用于基于各说话内容及各说话内容对应的目标声学特征模型，生成所述文本数据对应的声音数据并输出。

可选地，所述处理模块，具体用于：

根据各说话内容对应的说话人身份及预设映射关系，确定各说话人性别；

根据各说话内容对应的说话语气及训练好的聚类模型，确定各说话语气对应的情绪类型。

可选地，所述选择模块，具体用于：

根据各说话内容对应的说话人身份、说话人性别、说话语气及情绪类型，选择各说话内容对应的目标声学特征模型。

可选地，所述第一语言模型和所述第二语言模型为自然语言处理的bert模型。

所述获取模块，还用于获取第一训练数据和第二训练数据，所述第一训练数据包括第一训练特征数据和第一标注数据；所述第二训练数据包括第二训练特征数据和第二标注数据；

所述处理模块，还用于基于所述第一训练数据对预先建立的第一语言网络进行训练，获得训练好的所述第一语言模型；基于所述第二训练数据对预先建立的第二语言网络进行训练，获得训练好的所述第二语言模型。

可选地，所述获取模块，还用于获取第三训练数据，所述第三训练数据包括训练语气关键词及聚类标签；

所述处理模块，还用于根据所述第三训练数据进行聚类训练，获得训练好的所述聚类模型。

可选地，所述确定模块，具体用于：

对所述文本数据进行向量化，获得对应的向量数据；

根据所述向量数据及预设分析规则，确定说话内容及各说话内容对应的语境信息。

本申请第三个方面提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。

本申请第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一个方面以及第一个方面各种可能的设计所述的方法。

本申请提供的结合rpa及ai的数据的处理方法、装置、设备及存储介质，通过获取文本数据，根据文本数据确定说话内容及各说话内容对应的语境信息，基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息，基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型，基于各说话内容及各说话内容对应的目标声学特征模型，生成所述文本数据对应的声音数据并输出。由于声音数据的生成综合考虑了说话人的身份性别及说话情绪，使得生成的声音数据能更准确地体现读物的说话人角色和情感，有效提高了有声读物声音生成的准确性，提高用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例基于的处理系统的架构示意图；

图2为本申请一实施例提供的结合rpa及ai的数据的处理方法的流程示意图；

图3为本申请一实施例提供的数据扩充原理示意图；

图4为本申请另一实施例提供的结合rpa及ai的数据的处理方法的流程示意图；

图5为本申请一实施例提供的说话人性别和情绪类型确定的简单流程示意图；

图6为本申请一实施例提供的结合rpa及ai的数据的处理装置的结构示意图；

图7为本申请一实施例提供的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请所涉及的名词进行解释：

bert模型：bidirectionalencoderrepresentationsfromtransformers，基于transformer的双向编码器表征，顾名思义，bert模型的根基就是transformer，来源于attentionisallyouneed。其中双向的意思表示它在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义。

本申请实施例提供的结合rpa及ai的数据的处理方法，适用于生成多角色多情感的有声读物的应用场景。如图1所示，为本申请实施例基于的处理系统的架构示意图。该处理系统可以包括结合rpa及ai的数据的处理装置及爬取文本数据访问的其他设备或者存储文本数据的其他设备。该结合rpa及ai的数据的处理装置可以设置在电子设备中，该电子设备可以是服务器、计算机设备、云等设备。结合rpa及ai的数据的处理装置可以通过网络爬取文本数据，或者从存储文本数据的相关设备获取预先存储的文本数据，根据文本数据确定说话内容及各说话内容对应的语境信息，基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息，基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型，基于各说话内容及各说话内容对应的目标声学特征模型，生成所述文本数据对应的声音数据并输出。由于声音数据的生成综合考虑了说话人的身份性别及说话情绪，使得生成的声音数据能更准确地体现读物的说话人角色和情感，有效提高了有声读物声音生成的准确性，提高用户体验。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本申请一实施例提供一种结合rpa及ai的数据的处理方法，用于对文本数据进行处理，生成相应的有声读物。本实施例的执行主体为结合rpa及ai的数据的处理装置，该装置可以设置在电子设备中，比如服务器、计算机设备、终端设备等。

如图2所示，为本实施例提供的结合rpa及ai的数据的处理方法的流程示意图，该方法包括：

步骤101，获取文本数据。

具体的，结合rpa及ai的数据的处理装置可以通过网络爬取文本数据，或者从存储文本数据的相关设备获取预先存储的文本数据。

文本数据包括描述多个角色的对话内容及对话语境，比如小说文本数据，以《红楼梦》为例，其中一段文本数据为：

凤姐儿笑道：“今儿来的这些人，倒像下帖子请了来的。”探春先笑道：“我们有两件事：一件是我的，一件是四妹妹的，还夹着老太太的话。”凤姐儿笑道：“有什么事这么要紧？”探春笑道：“我们起了个诗社，头一社就不齐全，众人脸软，所以就乱了例了。我想必得你去做个‘监社御史’，铁面无私才好。再四妹妹为画园子，用的东西这般那般不全，回了老太太，老太太说：‘只怕后头楼底下还有先剩下的，找一找。若有呢，拿出来；若没有，叫人买去。’”

其中，包括了角色凤姐儿和探春的对话内容，比如凤姐儿的说话内容“今儿来的这些人，倒像下帖子请了来的。”，还包括各角色的对话语境，比如凤姐儿说话时的语境信息：凤姐儿笑道。

步骤102，根据文本数据，确定说话内容及各说话内容对应的语境信息。

具体的，在获取到文本数据后，可以根据文本数据确定说话内容及各说话内容对应的语境信息。

可选地，可以基于nlp的深度学习技术，根据文本数据的实际需求学习确定说话内容的分析规则，根据分析规则来确定说话内容。在确定说话内容后，根据定位找出说话内容上下文，来确定说话内容对应的语境信息。

如上示例的文本数据，可以根据双引号“”来确定说话内容，提取出双引号里的内容即为说话内容，可以根据定位找出说话内容上下文，来确定说话内容对应的语境信息，比如提取说话内容前一句话或者后一句话作为说话内容对应的语境信息，也可以是提取说话内容前一句和后一句作为说话内容对应的语境信息，具体可以根据实际需求设置。

步骤103，基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息。

具体的，在确定了说话内容及各说话内容对应的语境信息后，可以基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息。

其中，说话人信息可以包括说话人身份，还可以包括说话人性别，情绪信息可以包括说话语气，还可以包括情绪类型。

示例性的，如上述文本数据中语境信息为：凤姐儿笑道。根据该语境信息可以提取出说话人身份为凤姐儿，进一步根据说话人身份及预设映射关系确定凤姐儿的性别为女。预设映射关系包括了红楼梦中各角色与性别的对应关系。根据该语境信息还可以提取出说话语气关键词为：笑。可以进一步根据说话语气来确定对应的情绪类型为：喜。

具体的情绪类型可以根据实际需求设置，比如可以包括：喜、怒、悲、平等类型。说话语气即提取出的语气关键词，比如：喜笑颜开、怒从心来、怜惜、含羞带笑、哈哈大笑、懊恼、哭着等等。可以预先获取大量语气关键词，通过聚类确定各说话语气对应的情绪类型。

其中，训练好的语言模型是预先训练获得，可以包括第一语言模型和第二语言模型，第一语言模型用于确定各说话内容对应的说话人身份，第二语言模型用于确定各说话内容对应的说话语气。

对于语言模型的训练，可以预先获取训练数据，根据nlp的深度学习技术，根据训练数据训练对应的语言模型，其中，训练数据可以包括第一训练数据和第二训练数据，第一训练数据包括第一训练特征数据和第一标注数据，第二训练数据包括第二训练特征数据和第二标注数据；通过nlp的深度学习基于第一训练数据对预先建立的第一语言网络进行训练，获得训练好的第一语言模型；通过nlp的深度学习基于第二训练数据对预先建立的第二语言网络进行训练，获得训练好的第二语言模型。

示例性的，可以从《红楼梦》文本数据中根据上下文进行抽样，并标注说话人身份和说话语气，获得第一训练数据和第二训练数据，还可以通过随机对第一训练数据和第二训练数据进行说话人身份和说话语气的替换，对第一训练数据和第二训练数据进行数据扩充。如图3所示，为本实施例提供的数据扩充原理示意图。

步骤104，基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型。

具体的，在确定了各说话内容对应的说话人信息及情绪信息后，可以基于各说话内容对应的说话人信息及情绪信息来确定各说话内容对应的训练好的目标声学特征模型。

具体来说，可以预先针对不同性别、不同情绪类型来训练获得不同的声学特征模型。甚至可以针对不同说话人身份、不同情绪类型来训练获得不同的声学特征模型。对于每句说话内容，当确定了该说话内容对应的说话人信息及情绪信息后，根据该说话内容对应的说话人信息及情绪信息来选择相应的声学特征模型作为该说话内容对应的目标声学特征模型，用于生成该说话内容对应的声音数据。

示例性的，对于性别女、情绪类型“喜”获得第一声学特征模型，对于性别女、情绪类型“怒”获得第二声学特征模型，对于性别男、情绪类型“喜”获得第三声学特征模型，对于性别男、情绪类型“悲”获得第四声学特征模型，等等。具体获得声学特征模型的种类可以根据实际需求确定，本实施例不做限定。

示例性的，对于文本数据中的每个角色(即说话人身份)，可以预先训练获得其在不同情绪类型下的声学特征模型。

步骤105，基于各说话内容及各说话内容对应的目标声学特征模型，生成文本数据对应的声音数据并输出。

具体的，在确定了各说话内容对应的目标声学特征模型后，即可以基于各说话内容及各说话内容对应的目标声学特征模型，生成文本数据对应的声音数据，并可以输出该文本数据对应的声音数据。

可选地，对于文本数据中的非说话内容(即旁白)，可以采用现有的同一种声学特征模型生成其对应的声音数据，具体可以根据实际需求设置。

本实施例提供的结合rpa及ai的数据的处理方法，通过获取文本数据，根据文本数据确定说话内容及各说话内容对应的语境信息，基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息，基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型，基于各说话内容及各说话内容对应的目标声学特征模型，生成文本数据对应的声音数据并输出。由于声音数据的生成综合考虑了说话人的身份性别及说话情绪，使得生成的声音数据能更准确地体现读物的说话人角色和情感，有效提高了有声读物声音生成的准确性，提高用户体验。

本申请另一实施例对上述实施例提供的方法做进一步补充说明。

如图4所示，为本实施例提供的结合rpa及ai的数据的处理方法的流程示意图

作为一种可实施的方式，在上述实施例的基础上，可选地，基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息，包括：

步骤1031，根据各说话内容对应的语境信息，采用训练好的第一语言模型确定各说话内容对应的说话人身份；并根据各说话内容对应的语境信息，采用训练好的第二语言模型确定各说话内容对应的说话语气。

步骤1032，根据各说话内容对应的说话人身份及预设映射关系，确定各说话人性别。

步骤1033，根据各说话内容对应的说话语气及训练好的聚类模型，确定各说话语气对应的情绪类型。

具体的，在确定了各说话内容对应的语境信息后，根据各说话内容对应的语境信息，采用训练好的第一语言模型确定各说话内容对应的说话人身份；并根据各说话内容对应的语境信息，采用训练好的第二语言模型确定各说话内容对应的说话语气，进一步根据各说话内容对应的说话人身份及预设映射关系，确定各说话人性别，根据各说话内容对应的说话语气及训练好的聚类模型，确定各说话语气对应的情绪类型。

示例性的，如上述文本数据中语境信息为：凤姐儿笑道。根据该语境信息可以采用第一语言模型提取出说话人身份为凤姐儿，进一步根据说话人身份及预设映射关系确定凤姐儿的性别为女。预设映射关系包括了红楼梦中各角色与性别的对应关系。根据该语境信息还可以采用第二语言模型提取出说话语气关键词为：笑。可以进一步根据说话语气及训练好的聚类模型来确定对应的情绪类型为：喜。其中，第一语言模型可以是根据nlp中的深度学习技术对第一训练数据训练得到的。

具体的情绪类型可以根据实际需求设置，比如可以包括：喜、怒、悲等类型。说话语气即提取出的语气关键词，比如：喜笑颜开、怒从心来、怜惜、含羞带笑、哈哈大笑、懊恼、哭着等等。可以预先获取大量语气关键词，通过聚类确定各说话语气对应的情绪类型。

示例性的，如图5所示，为本实施例提供的说话人性别和情绪类型确定的简单流程示意图。输入语境信息“黛玉哭着向宝玉说”，输出对应的说话人性别“女”和情绪类型“伤心”。

作为一种可实施的方式，可选地，基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型，包括：

步骤1041，根据各说话内容对应的说话人身份、说话人性别、说话语气及情绪类型，选择各说话内容对应的目标声学特征模型。

具体的，说话人信息可以包括说话人身份，还可以包括说话人性别，情绪信息可以包括说话语气，还可以包括情绪类型。在确定了各说话内容对应的说话人信息及情绪信息后，可以根据各说话内容对应的说话人身份、说话人性别、说话语气及情绪类型，选择各说话内容对应的目标声学特征模型。

示例性的，对于性别女、情绪类型“喜”获得第一声学特征模型，对于性别女、情绪类型“怒”获得第二声学特征模型，对于性别男、情绪类型“喜”获得第三声学特征模型，对于性别男、情绪类型“悲”获得第四声学特征模型，等等。具体获得声学特征模型的种类可以根据实际需求确定，本实施例不做限定。其中，第一声学特征模型、第二声学特征模型、第三声学特征模型均可以根据对应情绪类型的样本数据，经过nlp中的深度学习技术训练得到。

示例性的，对于文本数据中的每个角色(即说话人身份)，可以预先训练获得其在不同情绪类型下的声学特征模型。

作为一种可实施的方式，可选地，第一语言模型和第二语言模型为自然语言处理的bert模型。

具体的，第一语言模型和第二语言模型可以采用自然语言处理的bert模型。bert模型在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义。

作为另一种可实施的方式，在上述实施例的基础上，可选地，在基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息之前，该方法还包括：

步骤2011，获取第一训练数据和第二训练数据，第一训练数据包括第一训练特征数据和第一标注数据；第二训练数据包括第二训练特征数据和第二标注数据。

步骤2012，基于第一训练数据对预先建立的第一语言网络进行训练，获得训练好的第一语言模型。

步骤2013，基于第二训练数据对预先建立的第二语言网络进行训练，获得训练好的第二语言模型。

需要说明的是步骤2012和步骤2013不分先后顺序。

具体的，训练好的语言模型可以包括第一语言模型和第二语言模型，第一语言模型用于确定各说话内容对应的说话人身份，第二语言模型用于确定各说话内容对应的说话语气。

对于第一语言模型和第二语言模型的训练，可以预先获取训练数据，训练数据可以包括第一训练数据和第二训练数据，第一训练数据包括第一训练特征数据和第一标注数据，第二训练数据包括第二训练特征数据和第二标注数据；基于第一训练数据对预先建立的第一语言网络进行训练，获得训练好的第一语言模型；基于第二训练数据对预先建立的第二语言网络进行训练，获得训练好的第二语言模型。

示例性的，可以从《红楼梦》文本数据中根据上下文进行抽样，并标注说话人身份和说话语气，获得第一训练数据和第二训练数据，还可以通过随机对第一训练数据和第二训练数据进行说话人身份和说话语气的替换，对第一训练数据和第二训练数据进行数据扩充。分别基于扩充后的第一训练数据和第二训练数据进行训练获得第一语言模型和第二语言模型。

作为一种可实施的方式，可选地，在根据各说话内容对应的说话语气及训练好的聚类模型，确定各说话语气对应的情绪类型之前，该方法还包括：

步骤2021，获取第三训练数据，第三训练数据包括训练语气关键词及聚类标签。

步骤2022，根据第三训练数据进行聚类训练，获得训练好的聚类模型。

具体的，训练好的聚类模型是预先进行聚类训练获得的，可以预先获取第三训练数据，第三训练数据可以包括训练语气关键词及聚类标签，基于第三训练数据进行聚类训练，获得训练好的聚类模型。

其中，聚类模型可以采用机器学习的聚类模型，比如kmeans等，具体可以根据实际需求确定。

可以预先获取大量语气关键词，并标注聚类标签，作为第三训练数据进行聚类训练，获得训练好的聚类模型。

作为另一种可实施的方式，在上述实施例的基础上，可选地，根据文本数据，确定说话内容及各说话内容对应的语境信息，包括：

步骤1021，对文本数据进行向量化，获得对应的向量数据。

步骤1022，根据向量数据及预设分析规则，确定说话内容及各说话内容对应的语境信息。

具体的，在获取到文本数据后，可以对文本数据进行向量化，获得计算机可识别的向量数据，根据向量数据及预设分析规则确定说话内容及各说话内容对应的语境信息。

预设分析规则可以根据实际需求设置，比如根据说话内容前后的引号来确定说话内容，以上述实施例中的《红楼梦》文本数据为例，说话内容均以双引号“”来标识，则预设分析规则可以包括根据双引号“”来识别并提取说话内容。在确定说话内容后，根据定位找出说话内容上下文，来确定说话内容对应的语境信息，比如预设分析规则还包括提取说话内容前一句话或者后一句话作为说话内容对应的语境信息，也可以是提取说话内容前一句和后一句作为说话内容对应的语境信息，具体可以根据实际需求设置。

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。

本申请再一实施例提供一种结合rpa及ai的数据的处理装置，用于执行上述实施例的方法。

如图6所示，为本实施例提供的结合rpa及ai的数据的处理装置的结构示意图。该结合rpa及ai的数据的处理装置30包括获取模块31、确定模块32、处理模块33、选择模块34和生成模块35。

其中，获取模块，用于获取文本数据；确定模块，用于根据文本数据，确定说话内容及各说话内容对应的语境信息；处理模块，用于基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息；选择模块，用于基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型；生成模块，用于基于各说话内容及各说话内容对应的目标声学特征模型，生成文本数据对应的声音数据并输出。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本实施例提供的结合rpa及ai的数据的处理装置，通过获取文本数据，根据文本数据确定说话内容及各说话内容对应的语境信息，基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息，基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型，基于各说话内容及各说话内容对应的目标声学特征模型，生成文本数据对应的声音数据并输出。由于声音数据的生成综合考虑了说话人的身份性别及说话情绪，使得生成的声音数据能更准确地体现读物的说话人角色和情感，有效提高了有声读物声音生成的准确性，提高用户体验。

本申请又一实施例对上述实施例提供的装置做进一步补充说明。

作为一种可实施的方式，在上述实施例的基础上，可选地，处理模块，具体用于：

根据各说话内容对应的语境信息，采用训练好的第一语言模型确定各说话内容对应的说话人身份；并根据各说话内容对应的语境信息，采用训练好的第二语言模型确定各说话内容对应的说话语气；根据各说话内容对应的说话人身份及预设映射关系，确定各说话人性别；根据各说话内容对应的说话语气及训练好的聚类模型，确定各说话语气对应的情绪类型。

可选地，选择模块，具体用于：

根据各说话内容对应的说话人身份、说话人性别、说话语气及情绪类型，选择各说话内容对应的目标声学特征模型。

作为另一种可实施的方式，在上述实施例的基础上，可选地，第一语言模型和第二语言模型为自然语言处理的bert模型。

作为另一种可实施的方式，在上述实施例的基础上，获取模块，还用于获取第一训练数据和第二训练数据，第一训练数据包括第一训练特征数据和第一标注数据；第二训练数据包括第二训练特征数据和第二标注数据；处理模块，还用于基于第一训练数据对预先建立的第一语言网络进行训练，获得训练好的第一语言模型；基于第二训练数据对预先建立的第二语言网络进行训练，获得训练好的第二语言模型。

作为另一种可实施的方式，在上述实施例的基础上，可选地，获取模块，还用于获取第三训练数据，第三训练数据包括训练语气关键词及聚类标签；处理模块，还用于根据第三训练数据进行聚类训练，获得训练好的聚类模型。

作为另一种可实施的方式，在上述实施例的基础上，可选地，确定模块，具体用于：

对文本数据进行向量化，获得对应的向量数据；根据向量数据及预设分析规则，确定说话内容及各说话内容对应的语境信息。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。

根据本实施例的结合rpa及ai的数据的处理装置，通过获取文本数据，根据文本数据确定说话内容及各说话内容对应的语境信息，基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息，基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型，基于各说话内容及各说话内容对应的目标声学特征模型，生成文本数据对应的声音数据并输出。由于声音数据的生成综合考虑了说话人的身份性别及说话情绪，使得生成的声音数据能更准确地体现读物的说话人角色和情感，有效提高了有声读物声音生成的准确性，提高用户体验。

本申请再一实施例提供一种电子设备，用于执行上述实施例提供的结合rpa及ai的数据的处理方法。

如图7所示，为本实施例提供的电子设备的结构示意图。该电子设备50包括：至少一个处理器51和存储器52；

存储器存储计算机执行指令；至少一个处理器执行存储器存储的计算机执行指令，使得至少一个处理器执行如上任一实施例提供的方法。

根据本实施例的电子设备，通过获取文本数据，根据文本数据确定说话内容及各说话内容对应的语境信息，基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息，基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型，基于各说话内容及各说话内容对应的目标声学特征模型，生成文本数据对应的声音数据并输出。由于声音数据的生成综合考虑了说话人的身份性别及说话情绪，使得生成的声音数据能更准确地体现读物的说话人角色和情感，有效提高了有声读物声音生成的准确性，提高用户体验。

本申请又一实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上任一实施例提供的方法。

根据本实施例的计算机可读存储介质，通过获取文本数据，根据文本数据确定说话内容及各说话内容对应的语境信息，基于各说话内容对应的语境信息，以及训练好的语言模型，确定各说话内容对应的说话人信息及情绪信息，基于各说话内容对应的说话人信息及情绪信息，确定各说话内容对应的训练好的目标声学特征模型，基于各说话内容及各说话内容对应的目标声学特征模型，生成文本数据对应的声音数据并输出。由于声音数据的生成综合考虑了说话人的身份性别及说话情绪，使得生成的声音数据能更准确地体现读物的说话人角色和情感，有效提高了有声读物声音生成的准确性，提高用户体验。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。