HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

并行语音合成方法、装置、设备以及计算机可读存储介质与流程

2021-01-28 13:01:29|269|起点商标网
并行语音合成方法、装置、设备以及计算机可读存储介质与流程

本公开的实施例总体上涉及语音合成技术领域,并且更具体地涉及使用循环神经网络(rnn)来并行合成语音的方法、装置、设备以及计算机可读存储介质。



背景技术:

语音合成是指将文本转化为语音的技术,又称为文本转语音(text-to-speech,tts)。通常,语音合成技术通过计算机将文本信息转换为音质好且自然流畅度高的语音信息。语音合成是智能语音交互技术的核心技术之一,与语音识别技术共同构成智能语音交互中的不可缺少的部分。

传统的语音合成主要包括基于声码器参数的语音合成方法和基于单元挑选拼接的语音合成方法。一般来说,语音合成的质量(包括音质和自然流畅度)直接影响用户的听感以及相关产品的用户体验。近年来,随着深度学习技术的发展以及在语音合成领域的广泛应用,语音合成的音质和自然流畅度都得到了明显的提升。此外,随着智能硬件的迅速普及,使用语音合成获取信息的场景也变得越来越丰富。目前,语音合成已经广泛应用于语音播报、地图导航、智能客服、智能音箱等领域和产品。



技术实现要素:

根据本公开的示例实施例,提供了一种并行语音合成方法、装置、设备以及计算机可读存储介质。

在本公开的第一方面中,提供了一种并行语音合成方法。该方法包括:将一段文本拆分成多个片段;基于一段文本,获得多个片段的用于循环神经网络的多个初始隐状态;以及基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。

在本公开的第二方面中,提供了一种并行语音合成装置。该装置包括:片段拆分模块,被配置为将一段文本拆分成多个片段;隐状态获得模块,被配置为基于一段文本,获得多个片段的用于循环神经网络的多个初始隐状态;以及并行语音合成模块,被配置为基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。

在本公开的第三方面中,提供了一种电子设备,其包括一个或多个处理器以及存储器,其中存储器用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行,使得电子设备实现根据本公开的实施例的方法或过程。

在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的实施例的方法或过程。

应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:

图1示出了根据本公开的实施例的示例并行语音合成场景的示意图;

图2示出了根据本公开的实施例的并行语音合成方法的流程图;

图3示出了根据本公开的实施例的基于片段的隐状态连续来并行实时语音合成多个片段的过程的示意图;

图4示出了根据本公开的实施例的以自回归方式串行合成每个片段的过程的示意图;

图5示出了根据本公开的实施例的基于rnn的语音合成系统的示例架构的示意图;

图6示出了根据本公开的实施例的基于rnn的语音合成系统的训练过程的示意图;

图7示出了根据本公开的实施例的并行语音合成装置的框图;以及

图8示出了能够实施本公开的多个实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

传统的语音合成系统主要分为两种:基于声码器的参数系统、和基于单元挑选的波形拼接系统。基于声码器的参数系统首先将文本输入表示映射为谱、基频等声学参数,再使用声码器将这些特征转换成语音。基于单元挑选的波形拼接系统同样先将文本输入表示映射为谱、基频等声学参数,同时利用文本规则、并结合声学目标代价以及连接代价等单元挑选策略从语音库中挑选出最佳的波形片段序列,最后将所选的片段拼接合成目标语音。基于声码器的参数系统由于使用声学模型预测声学参数,流畅度比较高;然而,声码器是根据人的发音机理,基于声源-声道模型做出的简化算法,导致参数系统的合成音质不高。而基于单元挑选的波形拼接系统直接从语音库中挑选原音片段,因此能保证很高的音质;然而,一旦语音的片段挑选不好就会导致拼接不连续的问题,自然流畅度往往不高。由此可见,传统的语音合成系统很难兼顾音质和自然流畅度,合成语音的质量与自然语音的差距较大,其质量通常较低。

近年来,针对传统的语音合成系统的改进是使用深度学习技术的神经语音合成(neuraltts)系统,其可以使用可学习的深度模型直接对语音采样点建模,避开了传统合成系统的复杂设计,合成的音质和自然流畅度都得到了极大的提升。神经语音合成技术所合成的语音不仅音质较好而且流畅度也较高。然而,神经语音合成一般使用堆叠多层网络结构或复杂的结构对语音采样点建模,会导致每步语音采样点生成需要大量的计算,因此,神经语音合成具有很高的计算代价。以基于rnn的语音合成系统为例,rnn以串行方式单点逐步生成语音。例如,每生成1秒采样频率是16000的语音,需要依次做16000次前向计算,正常所需计算时间会远超过1秒,这种高延迟导致了极低的实时率。因此,基于rnn的语音合成系统虽然具有很高的语音合成质量,但是由于其计算量大和单点递推的属性,使得它很难满足实时语音合成的要求。

为了实现基于rnn的实时语音合成,主要的改进方式包括以下三种。第一,降低单步运算的计算量。最直接的方式是减小隐藏层维度,但这会直接导致性能的损失,合成音质下降明显;而另一方式是通过稀疏化权重矩阵来减少非零权重的数量,这样能维持隐藏层维度不变以及隐藏层的表示能力。另外,还可以使用计算复杂度更低的非线性函数(如softsign函数)代替原始门控循环单元(gru)的sigmoid或tanh非线性函数。然而,上述这些降低单步计算量的简化处理都会带来性能损失。第二,执行图形处理单元(gpu)内核优化。普通的gpu实现并不能直接实现快速实时合成,主要瓶颈是显存与寄存器通信的带宽限制以及发起每次内核运算所带来的开销。为了提升gpu的计算效率,一方面可以减少寄存器从显存拷贝数据的次数,可以将模型参数一次性读到寄存器,其中一个限制是需要寄存器的数量能匹配模型的参数量;另一方面减少内核发起的次数,一旦模型参数能够全部读到寄存器中,整句话的采样点生成可以优化合并为一次内核运算,从而避免大量内核发起带来的开销。此外,其需要高性能计算架构的gpu来支持实时计算,硬件成本高。第三,子尺度(subscale)批量采样点生成。子尺度策略通过对采样点序列概率做分解简化处理,其支持多个采样点并行生成,但是这破坏了采样点的时序依赖性,造成rnn隐状态的中断问题,因此会带来性能损失。另外,子尺度具有首包硬延迟的缺陷,在首包实时性高的场景,子尺度会带来很大的延迟。由此可见,上述三种改进方式虽然可以通过简化模型单步计算量、高性能硬件优化加速、子尺度批量采样点生成等策略来加速语音合成,但是均会以牺牲音质为代价,导致合成的语音质量较差。

本公开的发明人注意到rnn具有天然的时序依赖性(如隐状态连接),这就决定了rnn理论上难以并行执行,只能逐步单点生成。为了实现基于rnn的实时语音合成,本公开的实施例提出了一种基于片段的隐状态连续的并行语音合成方案。本公开的实施例在使用rnn并行合成多个片段的过程中,通过隐状态预测模型为每个片段提供初始隐状态,不仅能够提升语音合成的速度,实现实时的语音合成,而且能够缓解片段之间的隐状态中断,从而通过保证rnn内部的隐状态连续来保证合成语音的质量。

本公开所提出的基于片段的隐状态连续的rnn并行实时语音合成技术,创造性地解决了使用rnn进行在线实时合成的难题,显著提升了rnn合成的速度。本公开的方案既能保证合成语音具有很高的质量,又能支持大规模线上部署。在一些实施例中,本公开提出的并行rnn合成技术以片段(如音素、音节、词等)为基本合成单元,多个片段并行合成,每个片段内部以自回归的方式串行合成;同时,为了保证片段之间rnn隐状态的连续性,本公开提出使用隐状态预测网络为每个片段提供初始隐状态,有效解决了并行合成带来的rnn隐状态中断问题,保证了并行合成的高质量。这种基于片段的隐状态连续rnn并行实时语音合成技术扫清了利用rnn进行实时合成的最大障碍,极大推动了语音合成技术从传统的参数系统和拼接系统向神经语音合成系统的变革。

图1示出了根据本公开的实施例的示例并行语音合成场景100的示意图。应当理解,场景100仅为本公开的实施例可以实现的一个示例场景,而不用于限制本公开的保护范围。如图1所示,针对待合成语音的输入文本110(例如文本115“明天天气晴朗,有三到四级北风”),首先在框120处对文本进行文本分析。例如,可以对文本进行字音转换,以确定各个文字的发音,在多音字的情况下,可以预测多音字的发音。此外,可以对文本进行韵律分析,以便标注重音、停顿等韵律信息。

接下来,在框130处执行语音合成。在本公开的实施例中,使用基于rnn的语音合成模型来执行语音合成过程,例如wavernn模型。应当理解,任何已知的或者将来开发的基于rnn的语音合成模型可以与本公开的实施例结合使用。在本公开的实施例中,由于能够预测并且获得每个片段的rnn初始隐状态,因而可以在几乎不影响语音质量的情况下并行合成多个片段。在本公开的上下文中,术语“初始隐状态”可以指代rnn中在合成每个片段时最初的隐状态。如图1所示,本公开的实施例可以同时语音合成片段1和片段2等,从而获得输出语音140,例如语音145。以下参考图2-8描述了并行合成语音的示例实现。

应当理解,根据本公开的实施例的并行语音合成方法可以被部署在各种电子设备中。例如,在客户端-服务器架构的场景中,根据本公开的实施例的并行合成语音方法既可以在客户端侧实现,也可以在服务器侧被实现。备选地,根据本公开的实施例的并行合成语音方也可以一部分在客户端侧实现,而另一部分在服务器侧实现。

图2示出了根据本公开的实施例的并行语音合成方法200的流程图。为了便于清楚描述方法200,在此参考图3的并行语音合成过程300一起描述方法200。

在框202,将一段文本拆分成多个片段。例如,参考图3,针对待合成语音的文本305,将文本拆分出多个片段,例如片段311、312、313。在一些实施例中,每个片段可以是音素、音节和韵律词中的任一项,甚至更大的发音单位,其中音素是构成音节的最小单位,其为最小的一种语音片段,音素包括元音和辅音两大类。音节是读音的基本单位,其可以包括一个或多个音素,例如,在汉语中,一个汉字可以为一个音节。韵律词是指从韵律学的角度来规定的词,其可以包括多个音节。应当理解,本公开的实施例中的片段也可以为更大的发音单元。例如,在各个片段为音节的情况下,将文本(例如中文文本)按照每个汉字进行拆分,一个音节(对应一个汉字)即为一个片段。

在框204,基于一段文本,获得多个片段的用于循环神经网络的多个初始隐状态。例如,参考图3,根据本公开的实施例的隐状态预测模型320可以预测出各个片段的rnn初始隐状态以用于后续的并行语音合成。rnn具有天然的时序依赖性,下一时刻的计算通常需要上一时刻所产生的隐状态,而如果并行合成语音,传统的方法会造成隐状态的中断。相反,本公开的实施例利用预先训练出的隐状态预测模型320,能够提前预测出各个片段的初始隐状态,而无需等待先前时刻的语音合成完成之后再执行后续的语音合成。通过这种方式,能够保证隐状态的连续性。

在框206,基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。如图3所示,基于rnn的语音合成模型330根据各个片段的初始隐状态,可以同时合成多个片段,而无需等待前一片段完成合成之后再合成后一片段。因此,本公开的实施例通过隐状态预测模型为每个片段提供初始隐状态,不仅能够提升语音合成的速度,实现实时的语音合成,而且能够缓解片段之间的隐状态中断,从而保证合成语音的质量。

因此,本公开的实施例提出了一种基于片段的隐状态连续的rnn并行实时语音合成技术。该技术以语音的片段作为rnn的基本合成单元,片段从语音学上讲可以包括音素、音节、韵律词,甚至更大的发音单元等。给定的待合成文本可以拆分成多个片段,然后多个片段并行合成,每个片段内部可以以自回归的方式串行合成。这种按照片段并行合成的方式显著提高了rnn合成的速度,满足实时合成的要求。rnn由于内部的时序依赖性,在理论上只能串行合成,按照片段并行合成的方式破坏了片段之间rnn隐状态的连续性。然而,本公开的实施例创造性地提出一种rnn隐状态预测方法,通过隐状态预测模型为每个片段提供初始隐状态,保证了片段之间隐状态的近似连续,这样在实现并行实时合成的同时,确保了合成音质几乎无损。此外,这种基于片段的隐状态连续rnn并行实时语音合成技术,一定程度上能缓解rnn串行合成带来的误差累积效应,能够有效减少合成语音的哨音现象。

参考图3,其示出了根据本公开的实施例的基于片段的隐状态连续来并行实时合成多个片段的过程300的示意图。将待合成的文本305拆分出多个片段311、312、313,然后,隐状态预测模型320可以预测出各个片段311、312、313的初始隐状态分别为h0(1)、h0(2)、h0(3)。应当理解,虽然图3中仅示出3个片段,然而,文本305可以被拆分成更多个片段。

继续参考图3,还可以从文本305提取出每个片段的帧级别输入特征341,例如,每一帧可以为5毫秒,然后通过声学条件模型340对其处理,生成采样点级别特征345。其中声学条件模型340可以对声学条件进行建模,其输入可以是文本的语言学特征,以下参考图5描述了声学条件模型340的示例结构。

基于rnn的语音合成模型330根据各个片段的初始隐状态和采样点级别特征,实现并行地合成语音。如图3所示,在框331处,基于片段311的初始隐状态及其采样点级别特征,执行针对片段311的合成;在框332处,基于片段312的初始隐状态及其采样点级别特征,执行针对片段312的合成;在框333处,基于片段313的初始隐状态及其采样点级别特征,执行针对片段313的合成。通过这种方式,实现多个片段311、312、和313之间的并行合成,加快了语音合成速度,同时不牺牲合成语音的质量。在完成各个片段的合成之后,可以把各个片段的语音平滑连接得到最终完整的语音。

应当理解,本公开的实施例的隐状态预测模型320所引入的计算量与rnn的计算量相比是非常小的,甚至几乎可以忽略不计。本公开的实施例的基于片段的隐状态连续的rnn并行语音合成方法创造性地解决了rnn并行推理的难题,在显著提升合成效率,满足实时合成要求的同时,保证了合成质量几乎无损。此外,与传统的参数系统和拼接系统相比,本公开的实施例是一个高质量的语音合成系统,适合神经语音合成系统在工业界的广泛应用。

在一些实施例中,对于单个片段内的合成,可以以自回归方式串行合成每个片段。例如,针对框331中的语音合成过程,图4示出了根据本公开的实施例的以自回归方式串行合成片段的过程400的示意图。

图4示出了生成片段311中的采样点410、420、430等的输出的示例过程,其中h0为片段311的初始隐状态,其从根据本公开的实施例的隐状态预测模型320获得。在各个片段内的采样点生成过程中,生成每个采样点的输出需要基于该采样点的输入特征、前一采样点的输出以及前一采样点所传来的隐状态。对于片段311中的第一个采样点410而言,除了该采样点特征i1之外,其输入的隐状态h0可以为片段311的初始隐状态,其输入的前一个采样点输入s0可以为0,其生成的输出为s1。接下来,对于第二个采样点420,其输入包括前一采样点410所产生的隐状态h1、该采样点的特征i2、以及前一个采样点410的输出s1。通过单个片段内的自回归串行合成,能够保证各个片段的语音合成的质量。

图5示出了根据本公开的实施例的基于rnn的语音合成系统的示例架构500的示意图。如图5所示,隐状态预测模型320可以包括1层全连接(fully-connected,fc)层和n个双向准循环神经网络(qrnn)层,声学条件模型340包括2个双向qrnn层和1个重复上采样层,基于rnn的语音合成模型330可以采用1层门控循环单元(gru)来实现。应当理解,图5中所示出的架构仅仅是示例性的,其他适合的架构也可以与本公开的实施例结合使用。

参考图5,在获得各个片段的音素级别输入特征511和帧级别输入特征341之后,隐状态预测模型320基于音素级别输入特征511预测出各个音素的初始隐状态521,然后,可以将片段中的第一个音素的初始隐状态确定为该片段的初始隐状态。由于语言中音素的个数比音节更少,因此,使用音素级别输入特征能够更容易地训练出隐状态预测模型320,由此预测出更准确的初始隐状态。

声学条件模型340基于帧级别输入特征341,通过重复上采样方法,获得采样点级别特征345。例如,假如每帧特征对应于80个语音采样点,则通过重复上采样将帧级别特征复制80份,并作为基于rnn的语音合成模型330的条件输入。基于rnn的语音合成模型330基于初始隐状态521和采样点级别特征345来语音合成各个片段,进而获得输出的合成语音531。

本公开的实施例在传统的rnn语音合成模型的基础上添加了隐状态预测模型,这两个模型可以一起训练,也可以单独训练。图6示出了根据本公开的实施例的基于rnn的语音合成系统的单独训练过程600的示意图。例如,首先使用训练数据来训练rnn语音合成模型,在rnn语音合成模型训练完成之后,再使用训练数据和经训练的rnn来训练隐状态预测模型。

参考图6,训练数据610中可以包括训练文本以及对应的训练语音。给定训练数据610,可以从中提取出帧级别输入特征611、语音采样点612、以及音素级别输入特征613,其中帧级别输入特征611和音素级别输入特征613可以从训练文本获得,语音采样点612可以从训练语音采样获得。在一些实施例中,帧级别输入特征611可以包括音素上下文、韵律上下文、帧位置和基频等,而音素级别输入特征613可以包括音素上下文和韵律上下文等文本层面信息。

在图6所示出的单独训练过程中,首先在620处使用帧级别输入特征611和语音采样点612来训练基于rnn的语音合成模型330。然后,从训练出的基于rnn的语音合成模型获得音素级别隐状态625,例如,每个音素相对应的多个采样点中的第一个采样点的初始隐状态可以被确定为该音素的音素级别隐状态。

在一些实施例中,可以使用音素级别隐状态625和音素级别输入特征613来训练隐状态预测模型。由于训练集内所有的音素样本个数可能相对较少,而隐状态的维度又比较高(例如896维),如果直接使用这些高维度的隐状态作为目标去训练隐状态预测模型容易导致模型过拟合。因此为了提高训练效率和模型泛化能力,可以在框630处使用决策树对高维的音素级别隐状态625进行聚类,以获得音素级别聚类隐状态635,由此减少隐状态的数量,聚类后的隐状态可以通过计算类内的所有原始隐状态的均值得到。接下来,在框640处,使用音素级别输入特征613和对应的音素级别聚类隐状态635来训练隐状态预测模型。

在一些实施例中,隐状态预测模型为每个音素预测初始隐状态,然后根据所选的片段找出对应的音素边界,即可得到每个片段的初始隐状态。此外,训练基于rnn的语音合成模型可以采用交叉熵损失函数,而训练隐状态预测模型可以采用l1损失函数。

图7示出了根据本公开的实施例的并行语音合成装置700的框图。如图7所示,装置700包括片段拆分模块710、隐状态获得模块720以及并行语音合成模块730。片段拆分模块710被配置为将一段文本拆分成多个片段,隐状态获得模块720被配置为基于一段文本,获得多个片段的用于循环神经网络的多个初始隐状态,并行语音合成模块730被配置为基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。

在一些实施例中,其中多个片段中的每个片段是音素、音节和韵律词中的任一项,并且并行语音合成模块730包括:串行语音合成模块,被配置为基于每个片段的初始隐状态和输入特征,以自回归方式串行合成每个片段。

在一些实施例中,其中隐状态获得模块720包括:音素级别输入特征确定模块,被配置为确定多个片段中的每个片段的音素级别输入特征;以及隐状态预测模块,被配置为基于每个片段的音素级别输入特征,使用经训练的隐状态预测模型来预测每个片段的初始隐状态。

在一些实施例中,其中并行语音合成模块730包括:帧级别输入特征确定模块,被配置为确定多个片段中的每个片段的帧级别输入特征;采样点级特征获得模块,被配置为基于帧级别输入特征,使用声学条件模型来获得采样点级别特征;以及片段合成模块,被配置为基于每个片段的初始隐状态和采样点级别特征,使用基于循环神经网络的语音合成模型来合成每个片段。

在一些实施例中,其中采样点级特征获得模块包括:重复上采样模块,被配置为通过重复上采样获得采样点级别特征,作为语音合成模型的条件输入。

在一些实施例中,装置700还包括:语音合成模型训练模块,被配置为使用训练数据来训练基于循环神经网络的语音合成模型;以及隐状态预测模型训练模块,被配置为使用训练数据和经训练的语音合成模型来训练隐状态预测模型。

在一些实施例中,其中语音合成模型训练模块包括:第一获得模块,被配置为获得训练数据中的训练文本的帧级别输入特征和对应的训练语音的语音采样点,其中帧级别输入特征包括音素上下文、韵律上下文、帧位置和基频中的至少一项;以及第一训练模块,被配置为使用训练文本的帧级别输入特征和训练语音的语音采样点,来训练语音合成模型。

在一些实施例中,其中隐状态预测模型训练模块包括:第二获得模块,被配置为获得训练文本的音素级别输入特征,其中音素级别输入特征包括音素上下文和韵律上下文中的至少一项;第三获得模块,被配置为从经训练的语音合成模型获得每个音素的音素级别隐状态;以及第二训练模块,被配置为使用音素级别输入特征和音素级别隐状态来训练隐状态预测模型。

在一些实施例中,其中第二训练模块包括:隐状态聚类模块,被配置为对音素级别隐状态进行聚类以生成音素级别聚类隐状态;以及第三训练模块,被配置为使用音素级别输入特征和音素级别聚类隐状态来训练隐状态预测模型。

在一些实施例中,其中第三获得模块包括:音素级别隐状态确定模块,被配置为将与每个音素相对应的多个采样点中的第一个采样点的初始隐状态确定为每个音素的音素级别隐状态。

应当理解,图7中所示出的片段拆分模块710、隐状态获得模块720以及并行语音合成模块730可以被包括单个或多个电子设备中。而且,应当理解,图7中所示出的模块可以执行参考本公开的实施例的方法或过程中的步骤或动作。

本公开的实施例的基于片段的rnn并行合成方案能够克服rnn串行合成效率低的问题,显著提高了语音合成的实时率,从而支持实时语音合成。此外,在单步递推计算上,不需要对模型算法做特殊化处理,因此加速成本较低。与传统的子尺度批量采样点生成策略相比,本公开的实施例基于片段的rnn并行合成技术具有延迟低的优点,在用户对合成响应速度要求高的场景,本公开的实施例具有明显的优势。

此外,本公开的实施例使用隐状态预测模型为每个片段提供初始隐状态,缓解了在并行合成时片段之间的隐状态中断问题,确保并行合成的语音质量与串行合成基本相当,实现rnn在快速合成的同时,不以牺牲合成性能为代价。在训练隐状态预测模型时,本公开的一些实施例使用决策树对每个音素的隐状态进行聚类,以聚类后的隐状态作为训练目标,通过这种方式,能够提高隐状态预测模型的泛化能力。

另外,与传统的参数系统或拼接系统相比,基于片段的rnn并行合成系统是一个高质量的神经实时语音合成系统,在合成质量上显著超过了传统的参数系统或拼接系统,促进了神经语音合成系统在工业界中的广泛应用。

图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。应当理解,设备800可以为用于实现本公开所描述的并行语音合成装置700。如图所示,设备800包括中央处理单元(cpu)801,其可以根据被存储在只读存储器(rom)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序指令,来执行各种适当的动作和处理。在ram803中,还可存储设备800操作所需的各种程序和数据。cpu801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。

设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元801执行上文所描述的各个方法和过程,例如方法200。例如,在一些实施例中,方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram803并由cpu801执行时,可以执行上文描述的方法的一个或多个动作或步骤。备选地,在其他实施例中,cpu801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld),等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外,虽然采用特定次序描绘了各动作或步骤,但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行,或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips