一种基于图到序列的中文韵律边界预测的方法与流程

2021-01-28 14:01:10|

270|

起点商标网

本发明属于语音合成领域，主要是有关提高语音合成中文本韵律边界预测准确率的技术，为后续的语音合成合成自然语音提供更好的条件。
背景技术：
：语音合成/(tts)是一种从文本到语音，旨在使机器产生人造语音的技术。经典的统计参数语音合成(spss)系统通常由三个模块组成，包括:前端模块(将文本转换为语言特征)、声学模型(将语言特征映射为声学特征)和声码器(从声学特征生成语音波形)。在过去的几十年里，由于统计参数语音合成人工设计的特性和繁琐的模块间通信，因此在使用过程中十分复杂。但是，近些年来随着深度学习发展，端到端的语音合成用神经网络架构代替传统的模块，简化模型设计同时可以生成清晰度接近人类的发音水平的语音。尽管合成的语音音质很好，但是大量的研究表明，但是，合成的语音还是存在着不自然，过于平缓、简单、呆板的问题。这主要是因为人在自然的讲话中除了发音清晰、准确等方面，语音中韵律节奏可以帮助听者更好地理解说话人所要表达的内容和情感。在中文的语音合成中，不像英语中相邻的单词是用空格隔开的，中文中的词可以是一个或多个字，相邻的词之间没有明确的分隔符号，因此，我们使用韵律结构来处理语句中的节奏问题。典型的中文语音合成系统中，韵律的结构通常分为三个层次:韵律词(pw)、韵律短语(pp)和语调短语(ip)，分别表示词的停顿，语句内的词之间的停顿，短句与短句之间的停顿，停顿的时间依次增加。典型的韵律预测方法有基于规则的模型和统计模型，如条件随机域crf和rnn。近年来，多任务学习(mtl)结构也被应用于韵律预测中。目前，中文语音合成韵律边界预测的研究中没有将文本中的时域信息和空间信息结合起来。技术实现要素：针对语音合成中的韵律边界预测准确率的问题，本发明旨在提高语音合成中韵律预测模块中的韵律边界准确率，提高合成的语音的流畅性和自然度，增加真实性，并力求发掘本身的特性促进语音合成技术的发展。伴随着神经网络的发展，双向长短时记忆网络和随机条件域的联合应用，在韵律预测中达到了不错的效果。因此本发明提出的基于图到序列的中文韵律边界预测的方法，以bilstm-crf为基本框架，使用预训练bert作为文本嵌入，将双向长短时记忆网络提取时间信息和图结构的表示的空间信息，通过基于图的注意力神经网络进行时空信息融合进行中文韵律边界预测。本技术的技术方案是：一种基于图到序列的中文韵律边界预测的方法，具体步骤包括以下四部分：(1)预训练文本嵌入--bert目前记录常用汉字3500个左右，但是组成的句子却不计其数，因此在不同的语境下同一个字往往会包含不同的含义，即同字不同义。bert是最近提出的一种用于一般nlp任务的无监督前训练方法，其本质上是一个语言模型。首先，bert基于transformer，因此为处理文本中的长期依赖关系提供了更结构化的内存。其次，作为一个深度双向模型，bert比从左到右和从右到左的模型连接性更强大，可以将输入的文本表征为含有语境信息的字嵌入；(2)文本时序特征语音合成中韵律边界是一种时间序列，其预测离不开上下文的语境信息，因此，使用双向长短时记忆网络提取时序信息。前向的双向长短时记忆网络与后向的双向长短时记忆网络结合成双向长短时记忆网络可以更有效的获取上下文的特征，以此提取输入文本的上下文信息；(3)文本空间信息输入文本序列可以处理为图形结构，通过图节点来表示文本内容，通过图边界来表示语法和语义连接。将输入的文本序列转换成为有向图，有向图中的节点就是输入文本序列内容，构建图结构中的节点、邻接矩阵；(4)时空特征结合使用基于图的注意力机制将双向长短时记忆网络中提取出来的时间特征和文本的空间信息结合在一起；在结果推测阶段，由步骤(4)中的出的包含时空信息的内容通过统计模型随机条件域进行韵律边界的预测。有益效果不仅提出了从语音合成中文本获取空间信息，而且也将文本的时序信息和空间信结合在一起作为新的特征，增加最后韵律边界得准确率。本发明为之后的语音合成中的韵律预测模块开拓了一条新的思路，为推动现有的语音合成中的韵律韵律预测模块研究做出了贡献。附图说明图1“老人#2陪#1外孙#2玩滑梯#3”韵律结构示例图；pw、pp、ip、s分别表示示韵律词、韵律短语、语调短语和句子；图2是本发明的模型框架；图3是序列-图形结构转换示意图；图4是bilstm提取时序特征。具体实施方式下面结合实验过程及实验结果对本发明做进一步详细地描述和证明。本发明在目前通用的序列预测bilstm-crf的基本架构上，从文本分析的角度出发，提出了文本空间信息的表征，并且在此基础上，首次将文本的时间序列信息和空间信息结合在一起以提高语音合成中的韵律边界预测的结果。具体技术方案要点分为以下三部分：(1)序列预测基本架构目前在语音合成韵律预测模块中，工业上最长见的方法是bilstm-crf。其中，bilstm输入的文本嵌入向量，输出的是在时域上提取的特征。而bilstm的输出同时也是crf输入，根据这组时域上的特征，crf输出端输出预测结果。本发明中bilstm的应用主要体现在输入文本在时域特征上的提取，输入的内容是具有上下文语境信息的bert嵌入向量，输出得到的是具有时序信息的特征向量，如图3。神经元的输出在下一时刻是可以传递给自身的，同时还输出一个藏隐层状态，给当前层在处理下一个样本时使用，它可以看作是带自循环反馈的全连接神经网络。因此对于时序信息很重要的任务中，长短时记忆网络可以获取长时间序列上样本与样本之间的关系，由此可以得到输入文本的上下文特征。crf可以在给定了观察序列的情况下，具有很强的推理能力，并且能够使用复杂、有重叠性和非独立的特征进行训练和推理，能够充分地利用上下文信息作为特征，还可以任意地添加其他外部特征，使得模型能够获取的信息非常丰富。在本发明中crf是对融合之后的时空特征进行观察，在所有可能的标签序列中寻找最优路径。在训练过程中，通过使正确的标签序列的最大化来优化模型，同时最小化其他错误序列的分数。该模型能有效完成语音合成中的韵律预测任务。本发明基本框架结构就是该模型。(2)文本空间信息表征在进行语音合成中的韵律边界预测的过程中，输入信息就只有文本，bilstm能够进行时间上的特征提取，但是文本也存在--空间信息。输入文本到图形结构的转换可以看作是一个空间映射的过程，将时域顺序输入映射到具有句法信息的低层空间域。将输入文本序列处理为图形结构，文本内容由图中的节点表示，字与字之间的邻接关系通过图中的边来表示，即语音合成中的韵律预测任务可以类似地建模为一个图-序列的过程。由上可以看出，图形结构是由节点集合、边信息组成。图中的边可以可以根据自己的要求设置不同的种类。在本发明中由于以下原因：①图中的连线使用字与词、词与词之间关系，这对输入文本的分词要求要有很高的准确率，但是目前而言，在语音合成中自动进行分词的工具准确度无法达到完美，因此可能会引入额外的错误，从而对实验产生负面影响；②图中的边使用字与词、词与词之间关系，人工标注需要耗费大量的时间和精力；由于以上两个原因在本发明中使用的边的类型是：在文本序列中字与字之间的邻接关系，两个字之间相邻值设置为1，不相邻设置为0。这反应了字与字在语句中的最基本的相对位置关系，是最基本的空间信息。所有的边组合在一起成为一个邻接矩阵。在空间特征的提取中，为了捕获整句话中的特征，通过图中连接节点之间的信息传递实现图状态的转换，在本发明中使用了bilstm来避免循环过程中的梯度减小和破裂，实现图中节点状态的转换。(3)时空特征结合输入文本序列经过bilstm提取可以得到时间特征，文本的图形结构可以表征文本的空间特征。在本发明中文本的空间信息表示是为有向的图形结构，因此时域和空间域上是存在一种对齐的关系。所以，在本发明中两种特征之间的结合方式选取的注意力机制。注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。使用注意力机制可以减小处理高维输入数据的计算负担，通过结构化的选取输入的子集，降低数据维度，而且可以让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息，从而提高输出的质量，以达到选择性地关注输入序列的有用部分，从而学习它们之间的“对齐”。将融合后的时空特征作为统计模型随即条件域crf的输入即可得到最后的预测结果。在本发明中使用的数据共82900条语句，其中训练集：测试集：验证集＝8:1:1。韵律边界预测内容包括韵律词(pw)、韵律短语(pp)和语调短语(ip)，在训练集、验证集、测试集上的这三种韵律边界的分布如表1：表1实验数据库划分及其基本情况训练集/个验证集/个测试集/个#127247525811964#215335525051696#318992029232001本发明中的具体的模型训练参数设置如表2。本发明中的实验使用1块k40m型号的gpu，完成了模型的训练以及解码工作。表2模型架构及训练参数基线实验采用的是字嵌入使用的bert预训练的bilstm-crf模型。本发明中采用基于bert预训练的bilstm-crf模型作为初始模型。经过实验的对比发现各级韵律边界准确率均有提高，具体如下表3。经过实验结果中的准确做对比，可以看出本发明提出的基于图到序列的中文韵律边界预测的方法在韵律边界：韵律词(pw)、韵律短语(pp)和语调短语(ip)分别提升1.73％,2.16％,1.24％,可以看出本发明在韵律边界预测上有积极作用。表3基线实验和本发明实验结果准确率#1(％)#2(％)#3(％)基线实验91.6471.8578.17本发明实验93.3774.0179.41尽管上述文字结合图表对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。当前第1页1 2 3

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。