语音合成中的数据标注方法、装置和系统与流程

2021-01-28 12:01:55|

223|

起点商标网

[0001]
本申请涉及语音处理领域，具体而言，涉及一种语音合成中的数据标注方法、装置和系统。

背景技术：

[0002]
文语转换技术(text to speech，简称tts)是一种语音合成技术，该技术可以将文本转换为语音。在进行语音合成时，需要获取录音音频、录音文本、以及录音标注数据，然后根据录音音频、录音文本、以及录音标注数据进行语音合成。其中，录音标注数据主要包括发音标注、韵律标注、音素边界标注等。
[0003]
在传统的tts数据标注中，需要人工对上述的发音标注、韵律标注、音素边界标注等录音标注数据进行标注。虽然现有技术中也存在自动标注工具，但该自动标注工具仅应用到了人工标注阶段中的某个阶段，仍无法实现对录音标注数据的完全自动标注，而在语音合成中人工标注数据的方式增加了音库的制作成本。
[0004]
针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

[0005]
本申请实施例提供了一种语音合成中的数据标注方法、装置和系统，以至少解决在进行语音合成的过程中需要人工参与数据标注，导致无法在线实时完成语音合成的技术问题。
[0006]
根据本申请实施例的一个方面，提供了一种语音合成中的数据标注方法，包括：获取录音音频和录音文本；通过对录音音频和录音文本进行录音标注处理，得到录音标注数据，其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据、音素边界标注数据。其中，通过对录音音频和录音文本进行录音标注处理，得到录音标注数据包括：通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果；通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据；采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。
[0007]
根据本申请实施例的另一方面，还提供了一种语音合成中的数据标注装置，包括：第一标注模块，用于获取录音文本，并将录音文本转换为结构化韵律文本；第二标注模块，用于获取录音音频以及录音文本，并对录音音频以及录音文本进行语音识别，得到第一处理结果，其中，第一处理结果用于描述录音音频中每个音素的时间边界信息；第三标注模块，用于获取录音音频，并对录音音频进行信号处理，得到第二处理结果，其中，第二处理结果用于描述从录音音频中检测到的语音部分信息与静音部分信息；处理模块，用于执行以下操作至少之一：根据结构化韵律文本确定发音标注数据；根据第一处理结果和第二处理结果确定音素边界标注数据；根据结构化韵律文本和音素边界标注数据确定韵律标注数据。
[0008]
根据本申请实施例的另一方面，还提供了一种语音合成中的数据标注装置，包括：
获取模块，用于获取录音音频和录音文本；标注模块，用于通过对录音音频和录音文本进行录音标注处理，得到录音标注数据，其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据、音素边界标注数据；其中，标注模块包括：转化模块，用于通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果；第一处理模块，用于通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据；第二处理模块，用于采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。
[0009]
根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的语音合成中的数据标注方法。
[0010]
根据本申请实施例的另一方面，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述的语音合成中的数据标注方法。
[0011]
根据本申请实施例的另一方面，还提供了一种语音合成中的数据标注系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取录音音频和录音文本；通过对录音音频和录音文本进行录音标注处理，得到录音标注数据，其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据、音素边界标注数据；其中，处理器还用于通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果；通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据；采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。
[0012]
在本申请实施例中，采用自动对录制标注数据进行标注的方式，在获取到录音音频和录音文本之后，对录音音频和录音文本进行录音标注，从而得到录音标注数据，其中，通过对录音音频和录音文本进行录音标注处理，得到录音标注数据包括：通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果；通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据；采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据以及音素边界标注数据。容易注意到的是，在上述过程中，在进行录音标注的过程中，无需人工参与。另外，本申请所提供的数据标注方法可以对发音标注数据、韵律标注数据以及音素边界标注数据进行全部标注，而不是仅标注某一个或某几个类型的数据，从而达到了对语音合成中的数据进行自动标注的目的，从而实现了节约人力成本，满足在线实时需求的技术效果，进而解决了在进行语音合成的过程中需要人工参与数据标注，导致无法在线实时完成语音合成的技术问题。
附图说明
[0013]
此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：
[0014]
图1是根据本申请实施例的一种计算机终端的硬件结构框图；
[0015]
图2是根据本申请实施例的一种语音合成中的数据标注方法的流程图；
[0016]
图3是根据本申请实施例的一种可选的数据标注的流程图；
[0017]
图4是根据本申请实施例的一种语音合成中的数据标注装置的示意图；
[0018]
图5是根据本申请实施例的一种语音合成中的数据标注装置的示意图；以及
[0019]
图6是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
[0020]
为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。
[0021]
需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0022]
实施例1
[0023]
根据本申请实施例，还提供了一种语音合成中的数据标注方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
[0024]
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语音合成中的数据标注方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，
……
，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
[0025]
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
[0026]
存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的传输模块对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音合成中的数据标注方
法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0027]
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
[0028]
显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
[0029]
此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
[0030]
在上述运行环境下，本申请提供了如图2所示的语音合成中的数据标注方法。其中，该方法应用于语音合成模型的训练场景。图2是根据本申请实施例一的语音合成中的数据标注方法的流程图，由图2可知，该方法包括如下步骤：
[0031]
步骤s202，获取录音音频和录音文本。
[0032]
可选的，在步骤s202中，录音音频与录音文本具有对应关系，其中，每个录音音频具有音频标识，录音文本具有文本标识，音频标识与文本标识之间具有关联关系，通过该关联关系可以查询到与录音音频关联的录音文本，或者查询到与录音文本关联的录音音频。其中，录音文本、录音音频以及两者之间的关联关系可以存储在数据库中。
[0033]
在一种可选的实施例中，录音人员可以通过语音采集设备输入录音音频，文本处理人员可以根据录音人员录入的录音音频写出与录音音频对应的录音文本，数据存储人员可以将录音音频以及对应的录音文本存入数据库中。语音合成系统可以从数据库中获取录音音频以及与录音音频对应的录音文本。
[0034]
步骤s204，通过对录音音频和录音文本进行录音标注处理，得到录音标注数据，其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据、音素边界标注数据。
[0035]
需要说明的是，对录音音频和录音文本进行标注处理，即对录音音频进行语义、语法、音素等多种层次的标示，以使机器能够从中学习规律，以便实现人机语音交互技术。
[0036]
在一种可选的实施例中，如图3所示的数据标注的流程图，由图3可知，在本申请中通过对录音音频和录音文本进行标注处理，可以得到发音标注数据、韵律标注数据以及音素边界标注数据。由图3可知，在进行数据标注的过程中，使用到了三个标注工具，即tts前端工具、asr(automatic speech recognition，自动语音识别)align工具以及vad(voice activity detection，语音活动检测)工具，其中，tts前端工具用于在语音合成中，将文本转换为结构化韵律文本，从而生成文本对应的发音、韵律停顿等信息；asr align工具用于进行语音识别，主要用于生成录音音频中每个音素的时间边界信息；vad工具用于对录音音频进行信号处理，以检测录音音频中包含语音和静音的部分，其中，静音为没有语音的部
分。
[0037]
另外，由图3可知，本申请还采用了vad silence detect技术和silence prosody detect技术，其中，vad silence detect技术是一种结合asr align和vad的静音探测方法，silence prosody detect技术为通过静音探测来标注韵律停顿的方法。
[0038]
在一种可选的实施例中，在得到录音音频和录音文本之后，语音合成系统通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果，并通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据，最后采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。其中，语音合成系统通过对录音音频和录音文本进行语音识别处理，得到音素边界信息，通过对录音音频进行语音检测处理，得到静音边界信息，然后对音素边界信息与静音边界信息进行交叉比对校验，得到音素边界标注数据。
[0039]
以图3为例进行说明，由图3可知，语音合成系统将录音文本输入至tts前端工具中，将录音文本以及录音音频输入至asr align工具中，将录音音频输入至vad工具中，其中，tts前端工具将录音文本转换为结构化韵律文本，其中，该结构化韵律文本包括发音标注数据以及韵律停顿预测结构，通过tts前端工具生成的发音标注数据直接作为发音标注的结果。而asr align工具对录音音频和录音文本进行语音识别处理可以得到音素边界信息，vad工具对录音音频进行处理可以得到静音边界信息，然后使用vad silence detect技术将音素边界信息和静音边界信息进行交叉比对校验，得到音素边界标注数据。可选的，音素边界信息包括但不限于音素对应的语音时长、音素对应的语音开始时间以及结束时间，静音边界信息包括但不限于静音时长、静音的开始时间以及结束时间，其中，音素为根据语音的自然属性所划分出来的最小的语音单位，例如，汉语音节“a”只有一个音素，“ai”具有两个音素，“dai”具有三个音素。
[0040]
基于上述步骤s202至步骤s204所限定的方案，可以获知，采用自动对录制标注数据进行标注的方式，在获取到录音音频和录音文本之后，对录音音频和录音文本进行录音标注，从而得到录音标注数据，其中，通过对录音音频和录音文本进行录音标注处理，得到录音标注数据包括：通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果；通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据；采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据以及音素边界标注数据。
[0041]
容易注意到的是，在上述过程中，在进行录音标注的过程中，无需人工参与。另外，本申请所提供的数据标注方法可以对发音标注数据、韵律标注数据以及音素边界标注数据进行全部标注，而不是仅标注某一个或某几个类型的数据，从而达到了对语音合成中的数据进行自动标注的目的，从而实现了节约人力成本，满足在线实时需求的技术效果，进而解决了在进行语音合成的过程中需要人工参与数据标注，导致无法在线实时完成语音合成的技术问题。
[0042]
在一种可选的实施例中，在得到音素边界信息以及静音边界信息之后，语音合成系统需要进行静音探测，即对音素边界信息与静音边界信息进行交叉比对校验，得到音素边界标注数据。具体的，语音合成系统通过对静音边界信息进行扫描处理，得到静音段信息
列表，并通过对音素边界信息进行扫描处理，得到静音音素，并分别将静音音素的起始时刻与静音段信息列表中记录的同一静音段的起始时刻以及静音音素的结束时刻与静音段信息列表中记录的同一静音段的结束时刻进行比对，得到比对结果。最后根据比对结果确定音素边界标注数据。其中，静音段信息列表用于记录每个静音段的起始时刻和结束时刻。
[0043]
可选的，语音合成系统扫描vad工具所生成的所有静音边界信息，得到静音段信息列表，其中，静音段信息列表中记录了每个静音段的起始时间，例如，[c,d]表示静音的起始时间为c，结束时间为d。另外，静音段信息列表中所存储的数据可以按照静音产生的时间顺序进行排序。语音合成系统通过循环扫描asr align工具生成的每一个音素边界信息，得到每个音素边界信息对应的静音音素。然后获取静音音素的起始时刻与结束时刻，并将静音音素的起始时间与结束时间分别与静音段信息列表中同一静音段的起始时刻和结束时刻进行逐一比对，得到比对结果。
[0044]
在上述过程中，在获取每个音素边界信息对应的静音音素之前，语音合成系统还检测该语音边界信息对应的音素是否为静音音素，如果检测到该音素为静音音素，则语音合成系统在对静音音素的起始时刻和结束时刻进行比对。
[0045]
进一步地，在得到比对结果之后，如果根据比对结果确定静音音素的时间段落入任一静音段的范围内，则确定静音音素为有效静音。然后语音合成系统分别将静音音素的起始时刻修正为任一静音段的起始时刻以及静音音素的结束时刻修正为任一静音段的结束时刻，得到修正结果，并按照修正结果调整与静音音素的起始时刻相邻的前一音素的结束时刻以及调整与静音音素的结束时刻相邻的后一音素的起始时刻。在分别将静音音素的起始时刻修正为任一静音段的起始时刻以及静音音素的结束时刻修正为任一静音段的结束时刻，得到修正结果之后，如果根据修正结果确定修正后的静音音素的起始时刻小于或等于第一音素的起始时刻，或者，修正后的静音音素的结束时刻大于或等于第二音素的结束时刻，则确定标注失效，丢弃对静音音素的标注结果。
[0046]
例如，asr align的静音音素的起始时刻为[a,b]，vad静音段列表记录的同一静音段的起始时刻为[c,d]，如果a大于等于c，并且b小于等于d，则确定该静音音素为有效静音。此时，语音合成系统将asr align中该静音音素的边界时间修正为[c,d]，同时调整前后相邻音素的时间。又例如，如果修正后的静音音素边界跨越了前后两个音素边界，即如果前面音素边界为[e,f]，后面音素边界为[g,h],并且c小于等于e，或者d大于等于h，则确定该标注方式失效，丢弃此条数据。
[0047]
另外，如果根据比对结果确定静音音素的时间段未落入任一静音段的范围内，则确定静音音素为无效静音，并删除静音音素，并将静音音素对应的时间段并入至相邻音素对应的时间段。例如，静音音素的起始时刻未落入任意一个vad静音段的范围内，则该静音音素无效，此时，语音合成系统删除asr align结果中的静音音素，并将该静音音素对应的起始时刻合并入相邻音素对应的时间段中。
[0048]
进一步地，在得到音素边界标注数据之后，语音合成系统采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。具体的，语音合成系统按照音素规则将音素边界标注数据中的语音音素合并为对应的字，并将音素边界标注数据中位于录音音频的头部与尾部之外的静音音素设置为停顿标识，得到停顿信息，然后以合并得到的字为单位，将韵律停顿预测结果与停顿信息进行比对，得到比对结果，并根据比对结果得到韵
律标注数据。其中，如果确定在合并得到的字之后的相邻位置处存在停顿标识，则在相邻位置设置第一标注，其中，第一标注采用第一停顿级别；如果确定在合并得到的字之后的相邻位置处未存在停顿标识，并且已被标识为第二停顿级别，则在相邻位置设置第二标注，其中，第一标注采用第二停顿级别。
[0049]
可选的，语音合成系统扫描vad silence detect对应的音素边界标注数据，并将音素边界标注数据中的语音音素按音素规则合并成一个字。如果该语音音素为静音音素，且不是音频头尾的静音音素，则将该静音音素作为停顿标识。然后，语音合成系统按字逐一比对tts前端工具生成的韵律停顿预测结果和停顿信息。如果该字后面有停顿标识，则在该字后面标注#3(即第一标注)；如果该字后面无停顿标识，但被tts前端工具标识为#1(即第二停顿级别)，则在该字后面标注#1(即第二标注)。最后通过比对结果得到最终的韵律标注数据。
[0050]
需要说明的是，不同语言类型具有不同的音素，例如，汉语具有汉语音素，英语具有英语音素，英语音素包括48个音素，其中，包括20个元音音素和28个辅音音素。在按照音素规则将音素边界标注数据中的语音音素进行合成时，语音合成系统可以先检测该录音语音对应的语言类型，然后再使用与该语言类型对应的音素规则进行合成处理。
[0051]
由上述内容可知，本申请所提供的方案利用asr align工具和vad工具进行双重校验，从而保证了静音段的标注准确率和精确性，采用利用tts前端工具和静音段的标识保证了韵律预测的准确率。另外，本申请所提供的方案无需人工参与，可以全自动在线运行，并且满足tts数据标注的要求，不仅降低了银库的制作成本，还可以实现个性化tts在线实时训练任务。
[0052]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。
[0053]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的语音合成中的数据标注方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。
[0054]
实施例2
[0055]
根据本申请实施例，还提供了一种用于实施上述语音合成中的数据标注方法的语音合成中的数据标注装置，如图4所示，该装置包括：第一标注模块401、第二标注模块403、第三标注模块405以及处理模块407。
[0056]
其中，第一标注模块401，用于获取录音文本，并将录音文本转换为结构化韵律文本；第二标注模块403，用于获取录音音频以及录音文本，并对录音音频和录音文本进行语音识别，得到第一处理结果，其中，第一处理结果用于描述录音音频中每个音素的时间边界信息；第三标注模块405，用于获取录音音频，并对录音音频进行信号处理，得到第二处理结
果，其中，第二处理结果用于描述从录音音频中检测到的语音部分信息与静音部分信息；处理模块407，用于执行以下操作至少之一：根据结构化韵律文本确定发音标注数据；根据第一处理结果和第二处理结果确定音素边界标注数据；根据结构化韵律文本和音素边界标注数据确定韵律标注数据。
[0057]
可选的，第一标注模型可以为图3中的tts前端工具，第二标注模块可以为图3中的asr工具，第三标注模型可以为图4中的vad工具。其中，tts前端工具用于在语音合成中，将文本转换为结构化韵律文本，从而生成文本对应的发音、韵律停顿等信息；asr align工具用于进行语音识别，主要用于生成录音音频中每个音素的时间边界信息；vad工具用于对录音音频进行信号处理，以检测录音音频中包含语音部分信息和静音部分信息，其中，静音部分信息为没有语音的部分的信息。
[0058]
进一步地，处理模块根据第一标注模块输出的结构化韵律文本确定发音标注数据，根据第二标注模块输出的第一处理结果以及第三标注模块输出的第二处理结果确定音素边界标注数据，根据结构化韵律文本和音素边界标注数据确定韵律标注数据。可选的，如图3所示，tts前端工具将录音文本转换为结构化韵律文本，其中，该结构化韵律文本包括发音标注数据以及韵律停顿预测结构。处理模块通过tts前端工具生成的发音标注数据直接作为发音标注的结果。而asr align工具对录音音频和录音文本进行语音识别处理可以得到音素边界信息，vad工具对录音音频进行处理可以得到静音边界信息，然后处理模块使用vad silence detect技术将音素边界信息和静音边界信息进行交叉比对校验，得到音素边界标注数据。其中，音素边界信息包括但不限于音素对应的语音时长、音素对应的语音开始时间以及结束时间，静音边界信息包括但不限于静音时长、静音的开始时间以及结束时间，音素为根据语音的自然属性所划分出来的最小的语音单位，例如，汉语音节“a”只有一个音素，“ai”具有两个音素，“dai”具有三个音素。
[0059]
由上述内容可知，本实施例所提供的语音合成中的数据标注装置在进行录音标注的过程中，无需人工参与。另外，本申请所提供的数据标注装置可以对发音标注数据、韵律标注数据以及音素边界标注数据进行全部标注，而不是仅标注某一个或某几个类型的数据，从而达到了对语音合成中的数据进行自动标注的目的，实现了节约人力成本，满足在线实时需求的技术效果，进而解决了在进行语音合成的过程中需要人工参与数据标注，导致无法在线实时完成语音合成的技术问题。
[0060]
在一种可选的实施例中，第二标注模块通过对录音音频和录音文本进行语音识别处理，得到音素边界信息，然后通过对录音音频进行语音检测处理，得到静音边界信息，最后对音素边界信息与静音边界信息进行交叉比对校验，得到音素边界标注数据，即得到第一处理结果。
[0061]
具体的，第二标注模块通过对静音边界信息进行扫描处理，得到静音段信息列表，然后通过对音素边界信息进行扫描处理，得到静音音素，并分别将静音音素的起始时刻与静音段信息列表中记录的同一静音段的起始时刻以及静音音素的结束时刻与静音段信息列表中记录的同一静音段的结束时刻进行比对，得到比对结果，最后，根据比对结果确定音素边界标注数据。
[0062]
其中，如果根据比对结果确定静音音素的时间段落入任一静音段的范围内，则确定静音音素为有效静音，并分别将静音音素的起始时刻修正为任一静音段的起始时刻以及
静音音素的结束时刻修正为任一静音段的结束时刻，得到修正结果，然后按照修正结果调整与静音音素的起始时刻相邻的前一音素的结束时刻以及调整与静音音素的结束时刻相邻的后一音素的起始时刻。如果根据修正结果确定修正后的静音音素的起始时刻小于或等于第一音素的起始时刻，或者，修正后的静音音素的结束时刻大于或等于第二音素的结束时刻，则确定标注失效，丢弃对静音音素的标注结果。另外，如果根据比对结果确定静音音素的时间段未落入任一静音段的范围内，则确定静音音素为无效静音，然后，删除静音音素，并将静音音素对应的时间段并入至相邻音素对应的时间段。
[0063]
需要说明的是，在上述过程中，静音段信息列表用于记录每个静音段的起始时刻和结束时刻，其中，静音段信息列表中记录了每个静音段的起始时间，例如，[c,d]表示静音的起始时间为c，结束时间为d。另外，静音段信息列表中所存储的数据可以按照静音产生的时间顺序进行排序。
[0064]
在一种可选的实施例中，在得到第一处理结果和第二处理结果之后，处理模块通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果，然后对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据，最后采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。
[0065]
具体的，处理模块按照音素规则将音素边界标注数据中的语音音素合并为对应的字，并将音素边界标注数据中位于录音音频的头部与尾部之外的静音音素设置为停顿标识，得到停顿信息，然后以合并得到的字为单位，将韵律停顿预测结果与停顿信息进行比对，得到比对结果，如果确定在合并得到的字之后的相邻位置处存在停顿标识，则在相邻位置设置第一标注，其中，第一标注采用第一停顿级别；如果确定在合并得到的字之后的相邻位置处未存在停顿标识，并且已被标识为第二停顿级别，则在相邻位置设置第二标注，其中，第一标注采用第二停顿级别。
[0066]
通过上述方案，本申请保证了韵律预测的准确率，降低了银库的制作成本。
[0067]
实施例3
[0068]
根据本申请实施例，还提供了一种用于实施上述语音合成中的数据标注方法的语音合成中的数据标注装置，如图5所示，该装置50包括：获取模块501以及标注模块503。
[0069]
其中，获取模块501，用于获取录音音频和录音文本；标注模块503，用于通过对录音音频和录音文本进行录音标注处理，得到录音标注数据，其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据、音素边界标注数据。
[0070]
此处需要说明的是，上述获取模块501以及标注模块503对应于实施例1中的步骤s202至步骤s204，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
[0071]
在一种可选的实施例中，标注模块包括：转化模块、第一处理模块以及第二处理模块。其中，转化模块，用于通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果；第一处理模块，用于通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据；第二处理模块，用于采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。
[0072]
在一种可选的实施例中，第一处理模块包括：第三处理模块、第四处理模块以及校验模块。其中，第三处理模块，用于通过对录音音频和录音文本进行语音识别处理，得到音素边界信息；第四处理模块，用于通过对录音音频进行语音检测处理，得到静音边界信息；校验模块，用于对音素边界信息与静音边界信息进行交叉比对校验，得到音素边界标注数据。
[0073]
在一种可选的实施例中，校验模块包括：第五处理模块、扫描模块以及确定模块。其中，第五处理模块，用于通过对静音边界信息进行扫描处理，得到静音段信息列表，其中，静音段信息列表用于记录每个静音段的起始时刻和结束时刻；扫描模块，用于通过对音素边界信息进行扫描处理，得到静音音素，并分别将静音音素的起始时刻与静音段信息列表中记录的同一静音段的起始时刻以及静音音素的结束时刻与静音段信息列表中记录的同一静音段的结束时刻进行比对，得到比对结果；确定模块，用于根据比对结果确定音素边界标注数据。
[0074]
在一种可选的实施例中，确定模块包括：第一确定模块、修正模块以及调整模块。其中，第一确定模块，用于如果根据比对结果确定静音音素的时间段落入任一静音段的范围内，则确定静音音素为有效静音；修正模块，用于分别将静音音素的起始时刻修正为任一静音段的起始时刻以及静音音素的结束时刻修正为任一静音段的结束时刻，得到修正结果；调整模块，用于按照修正结果调整与静音音素的起始时刻相邻的前一音素的结束时刻以及调整与静音音素的结束时刻相邻的后一音素的起始时刻。
[0075]
在一种可选的实施例中，语音合成中的数据标注装置还包括：第二确定模块。其中，第二确定模块，用于在分别将静音音素的起始时刻修正为任一静音段的起始时刻以及静音音素的结束时刻修正为任一静音段的结束时刻，得到修正结果之后，如果根据修正结果确定修正后的静音音素的起始时刻小于或等于第一音素的起始时刻，或者，修正后的静音音素的结束时刻大于或等于第二音素的结束时刻，则确定标注失效，丢弃对静音音素的标注结果。
[0076]
在一种可选的实施例中，确定模块包括：第三确定模块以及第一合并模块。其中，第三确定模块，用于如果根据比对结果确定静音音素的时间段未落入任一静音段的范围内，则确定静音音素为无效静音；第一合并模块，用于删除静音音素，并将静音音素对应的时间段并入至相邻音素对应的时间段。
[0077]
在一种可选的实施例中，第二处理模块包括：第二合并模块、比对模块以及第四确定模块。其中，第二合并模块，用于按照音素规则将音素边界标注数据中的语音音素合并为对应的字，并将音素边界标注数据中位于录音音频的头部与尾部之外的静音音素设置为停顿标识，得到停顿信息；比对模块，用于以合并得到的字为单位，将韵律停顿预测结果与停顿信息进行比对，得到比对结果；第四确定模块，用于根据比对结果得到韵律标注数据。
[0078]
在一种可选的实施例中，第四确定模块包括：第六处理模块以及第七处理模块。其中，第六处理模块，用于如果确定在合并得到的字之后的相邻位置处存在停顿标识，则在相邻位置设置第一标注，其中，第一标注采用第一停顿级别；第七处理模块，用于如果确定在合并得到的字之后的相邻位置处未存在停顿标识，并且已被标识为第二停顿级别，则在相邻位置设置第二标注，其中，第一标注采用第二停顿级别。
[0079]
可选的，语音合成中的数据标注装置应用于语音合成模型的训练场景。
[0080]
实施例4
[0081]
根据本申请实施例，还提供了一种用于实施上述语音合成中的数据标注方法的语音合成中的数据标注系统，该系统包括：处理器以及存储器。
[0082]
其中，存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取录音音频和录音文本；通过对录音音频和录音文本进行录音标注处理，得到录音标注数据，其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据、音素边界标注数据。
[0083]
由上可知，采用自动对录制标注数据进行标注的方式，在获取到录音音频和录音文本之后，对录音音频和录音文本进行录音标注，从而得到录音标注数据，其中，录音标注数据包括：发音标注数据、韵律标注数据以及音素边界标注数据；其中，处理器还用于通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果；通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据；采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。
[0084]
容易注意到的是，在上述过程中，在进行录音标注的过程中，无需人工参与。另外，本申请所提供的数据标注方法可以对发音标注数据、韵律标注数据以及音素边界标注数据进行全部标注，而不是仅标注某一个或某几个类型的数据，从而达到了对语音合成中的数据进行自动标注的目的，从而实现了节约人力成本，满足在线实时需求的技术效果，进而解决了在进行语音合成的过程中需要人工参与数据标注，导致无法在线实时完成语音合成的技术问题。
[0085]
需要说明的是，本实施例中的语音合成中的数据标注系统还可执行实施例1中所提供的语音合成中的数据标注方法，相关内容已在实施例1中进行说明，在此不再赘述。
[0086]
实施例4
[0087]
本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
[0088]
可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0089]
在本实施例中，上述计算机终端可以执行语音合成中的数据标注方法中以下步骤的程序代码：获取录音音频和录音文本；通过对录音音频和录音文本进行录音标注处理，得到录音标注数据，其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据、音素边界标注数据。
[0090]
可选地，图6是根据本申请实施例的一种计算机终端的结构框图。如图6所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器602、存储器604以及外设接口606。
[0091]
其中，存储器可用于存储软件程序以及模块，如本申请实施例中的语音合成中的数据标注方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音合成中的数据标注方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端a。上述网络的实例包括
但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0092]
处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取录音音频和录音文本；通过对录音音频和录音文本进行录音标注处理，得到录音标注数据，其中，录音标注数据包括：发音标注数据、韵律标注数据、音素边界标注数据。
[0093]
可选的，上述处理器还可以执行如下步骤的程序代码：通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果；通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据；采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。
[0094]
可选的，上述处理器还可以执行如下步骤的程序代码：通过对录音音频和录音文本进行语音识别处理，得到音素边界信息；通过对录音音频进行语音检测处理，得到静音边界信息；对音素边界信息与静音边界信息进行交叉比对校验，得到音素边界标注数据。
[0095]
可选的，上述处理器还可以执行如下步骤的程序代码：通过对静音边界信息进行扫描处理，得到静音段信息列表，其中，静音段信息列表用于记录每个静音段的起始时刻和结束时刻；通过对音素边界信息进行扫描处理，得到静音音素，并分别将静音音素的起始时刻与静音段信息列表中记录的同一静音段的起始时刻以及静音音素的结束时刻与静音段信息列表中记录的同一静音段的结束时刻进行比对，得到比对结果；根据比对结果确定音素边界标注数据。
[0096]
可选的，上述处理器还可以执行如下步骤的程序代码：如果根据比对结果确定静音音素的时间段落入任一静音段的范围内，则确定静音音素为有效静音；分别将静音音素的起始时刻修正为任一静音段的起始时刻以及静音音素的结束时刻修正为任一静音段的结束时刻，得到修正结果；按照修正结果调整与静音音素的起始时刻相邻的前一音素的结束时刻以及调整与静音音素的结束时刻相邻的后一音素的起始时刻。
[0097]
可选的，上述处理器还可以执行如下步骤的程序代码：在分别将静音音素的起始时刻修正为任一静音段的起始时刻以及静音音素的结束时刻修正为任一静音段的结束时刻，得到修正结果之后，如果根据修正结果确定修正后的静音音素的起始时刻小于或等于第一音素的起始时刻，或者，修正后的静音音素的结束时刻大于或等于第二音素的结束时刻，则确定标注失效，丢弃对静音音素的标注结果。
[0098]
可选的，上述处理器还可以执行如下步骤的程序代码：如果根据比对结果确定静音音素的时间段未落入任一静音段的范围内，则确定静音音素为无效静音；删除静音音素，并将静音音素对应的时间段并入至相邻音素对应的时间段。
[0099]
可选的，上述处理器还可以执行如下步骤的程序代码：按照音素规则将音素边界标注数据中的语音音素合并为对应的字，并将音素边界标注数据中位于录音音频的头部与尾部之外的静音音素设置为停顿标识，得到停顿信息；以合并得到的字为单位，将韵律停顿预测结果与停顿信息进行比对，得到比对结果；根据比对结果得到韵律标注数据。
[0100]
可选的，上述处理器还可以执行如下步骤的程序代码：如果确定在合并得到的字之后的相邻位置处存在停顿标识，则在相邻位置设置第一标注，其中，第一标注采用第一停顿级别；如果确定在合并得到的字之后的相邻位置处未存在停顿标识，并且已被标识为第二停顿级别，则在相邻位置设置第二标注，其中，第一标注采用第二停顿级别。
[0101]
本领域普通技术人员可以理解，图6所示的结构仅为示意，计算机终端也可以是智
能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图6其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示不同的配置。
[0102]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0103]
实施例5
[0104]
本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的语音合成中的数据标注方法所执行的程序代码。
[0105]
可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
[0106]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取录音音频和录音文本；通过对录音音频和录音文本进行录音标注处理，得到录音标注数据，其中，录音标注数据包括以下至少之一：发音标注数据、韵律标注数据、音素边界标注数据。
[0107]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过将录音文本转化为结构化韵律文本，得到发音标注数据和韵律停顿预测结果；通过对录音音频和录音文本进行语音识别处理以及通过对录音音频进行语音检测处理，得到音素边界标注数据；采用音素边界标注数据对韵律停顿预测结果进行修正处理，得到韵律标注数据。
[0108]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过对录音音频和录音文本进行语音识别处理，得到音素边界信息；通过对录音音频进行语音检测处理，得到静音边界信息；对音素边界信息与静音边界信息进行交叉比对校验，得到音素边界标注数据。
[0109]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过对静音边界信息进行扫描处理，得到静音段信息列表，其中，静音段信息列表用于记录每个静音段的起始时刻和结束时刻；通过对音素边界信息进行扫描处理，得到静音音素，并分别将静音音素的起始时刻与静音段信息列表中记录的同一静音段的起始时刻以及静音音素的结束时刻与静音段信息列表中记录的同一静音段的结束时刻进行比对，得到比对结果；根据比对结果确定音素边界标注数据。
[0110]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：如果根据比对结果确定静音音素的时间段落入任一静音段的范围内，则确定静音音素为有效静音；分别将静音音素的起始时刻修正为任一静音段的起始时刻以及静音音素的结束时刻修正为任一静音段的结束时刻，得到修正结果；按照修正结果调整与静音音素的起始时刻相邻的前一音素的结束时刻以及调整与静音音素的结束时刻相邻的后一音素的起始时刻。
[0111]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在分别将静音音素的起始时刻修正为任一静音段的起始时刻以及静音音素的结束时刻修正
为任一静音段的结束时刻，得到修正结果之后，如果根据修正结果确定修正后的静音音素的起始时刻小于或等于第一音素的起始时刻，或者，修正后的静音音素的结束时刻大于或等于第二音素的结束时刻，则确定标注失效，丢弃对静音音素的标注结果。
[0112]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：如果根据比对结果确定静音音素的时间段未落入任一静音段的范围内，则确定静音音素为无效静音；删除静音音素，并将静音音素对应的时间段并入至相邻音素对应的时间段。
[0113]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：按照音素规则将音素边界标注数据中的语音音素合并为对应的字，并将音素边界标注数据中位于录音音频的头部与尾部之外的静音音素设置为停顿标识，得到停顿信息；以合并得到的字为单位，将韵律停顿预测结果与停顿信息进行比对，得到比对结果；根据比对结果得到韵律标注数据。
[0114]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：如果确定在合并得到的字之后的相邻位置处存在停顿标识，则在相邻位置设置第一标注，其中，第一标注采用第一停顿级别；如果确定在合并得到的字之后的相邻位置处未存在停顿标识，并且已被标识为第二停顿级别，则在相邻位置设置第二标注，其中，第一标注采用第二停顿级别。
[0115]
上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。
[0116]
在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0117]
在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0118]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0119]
另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0120]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的
介质。
[0121]
以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。