高质量非并行多对多语音转换的制作方法

2021-01-28 14:01:53|

386|

起点商标网

本发明总体上涉及语音转换。更具体地，一种具有专门设计的瓶颈的自动编码器允许从源语音中删除风格信息，以允许零次(zero-shot)语音转换。

背景技术：

以别人的声音说话的想法总是成为动作和小说电影中的一个迷人元素，并且它也已进入许多实际应用，例如隐私和身份保护、创意产业等。在语音研究社区中，该任务被称为语音转换问题，它涉及修改来自源说话者的给定语音，以用目标说话者的语音质量来转换源说话者的语音质量，从而允许源说话者的话语听起来更像目标说话者正在实际上说出该话语。

尽管在语音转换方面进行了持续研究努力，但仍未充分探讨三个问题。首先，大多数语音转换系统都假设可以使用并行训练数据，例如，其中，两个说话者说出相同句子的语音对。在非并行数据上只能训练少数几个。其次，在处理非并行数据的少数现有算法中，只有更少的算法可以用于多对多转换，例如，从多个源说话者转换为多个目标说话者。最后但并非最不重要的一点是，在本发明之前，没有语音转换系统能够执行零次转换，这意味着仅通过查看看不见的说话者的一个或几个话语就可以转换为他/她的语音。

技术实现要素：

本发明提供了实现零次转换的第一种已知方法。

根据示例性实施例，本发明公开了一种语音转换的方法(以及装置和计算机产品)，其能够利用非并行数据进行零次语音转换，包括将源说话者语音数据作为输入数据接收到风格转变自动编码器系统的内容编码器中，该内容编码器通过在保留内容信息的情况下减少输入源语音数据的说话者风格信息来提供源说话者语音数据的源说话者解纠缠(disentanglement)。目标说话者输入语音作为输入数据被接收到目标说话者编码器中，并且内容编码器的输出和目标说话者编码器的输出作为输入数据被组合到风格转变自动编码器的解码器中，并且该解码器的输出将输入源语音数据的内容信息提供为适合于目标说话者的风格。

根据另一示例性实施例，本文还公开了一种风格转变自动编码器系统(以及方法和计算机产品)，包括：处理器；以及处理器可访问的存储器，该存储器存储机器可读指令，该机器可读指令允许处理器将风格转变自动编码器系统实现为包括：用于接收源语音信息的内容编码器；用于接收目标说话者语音信息的目标说话者编码器；以及接收来自内容编码器的输出数据和来自目标说话者编码器的输出数据的解码器，该解码器提供包括具有目标说话者风格的源语音话语的内容作为输出。内容编码器被配置有在维度轴和时间轴上的参数设置，以实现说话者对所接收的源语音信息的解纠缠，其中，说话者解纠缠意味着通过由参数设置引起的瓶颈来减少源语音话语的风格方面，从而将源语音话语的内容方面作为输入数据留给(leave)解码器。

根据又一示例性实施例，本文还公开了一种用于转变语音话语的风格的方法(以及装置和计算机产品)，该方法能够利用非并行数据进行零次语音转换，包括使用目标说话者的语音信息初步训练目标说话者编码器中的第一神经网络。第一神经网络被训练为使目标说话者的不同话语之间的嵌入相似度最大化，并使与其他说话者的相似度最小化。自动编码器系统首先在训练模式下操作，该自动编码器系统包括：内容编码器，该内容编码器具有将来自输入层的原始输入数据压缩为更短代码的第二神经网络；以及解码器，该解码器具有学习解压缩该更短代码以紧密匹配原始输入数据的第三神经网络。训练模式使用从源说话者到内容编码器中和目标说话者编码器中的语音输入来实现自重构训练，该目标说话者编码器已经使用目标说话者语音信息进行了初步训练。自重构训练从而训练第二神经网络和第三神经网络以适应目标说话者的风格。在训练模式之后，可在转换模式下操作自动编码器系统，在该转换模式中，源说话者的话语提供具有目标说话者风格的源语音话语。

附图说明

图1一般性地示出了生成对抗网络(generativeadversarialnetwork)(gan)和条件式变分自动编码器(conditionalvariationalautoencoder)(cvae)；

图2示出了本发明要解决的问题；

图3示例性地示出了在本发明中使用的自动编码器风格转变框架；

图4示例性地示出了其中根据本发明的概念的瓶颈太宽的自动编码器；

图5示例性地示出了其中瓶颈太窄的自动编码器；

图6示例性地示出了其中瓶颈正好的自动编码器；

图7示例性地示出了其中瓶颈正好并且用于零次语音转变的自动编码器；

图8示出了为描述本发明的发表物而开发和测试的本发明的示例性实施例；

图9示出了使用本发明实现零次过程的流程图；

图10示出了根据本发明的实施例的云计算环境；以及

图11描绘了根据本发明的实施例的抽象模型层。

具体实施方式

随着深层风格转变的最新进展，传统的语音转换问题已被重铸为风格转变问题，其中，音质(vocalquality)可以被视为风格，说话者可以被视为域。有多种风格转变算法不需要并行数据，并且适用于多个域，因此它们很容易用作语音转换的新解决方案。特别地，如图1所示，生成对抗网络(gan)100和条件式变分自动编码器(cvae)102在语音转换中越来越受欢迎。

首先，gan系统100在本领域中已知是一类机器学习系统，其中，两个神经网络在零和博弈(zero-sumgame)框架中相互竞争，作为一种无监督学习的形式。gan技术作为如下技术开始，在该技术中可生成通过具有至少一些现实特性来至少对人类观察者来说表面上看起来真实的照片。gan通过使用第一生成网络生成候选者来实现，而第二区分网络评估候选者，竞赛根据数据分布进行。生成网络学习从潜在空间映射到感兴趣的数据分布，而区分网络则将生成器产生的候选者与真实数据分布区分开。图1的“欺骗/区分”符号旨在指代生成网络的训练目标，以增加区分网络的误差率。也就是说，生成网络gan组件g试图通过产生区分器神经网络确定为未合成的新的候选者来“欺骗”区分网络组件d，这意味着它们是真实数据分布的一部分。

gan系统的生成器g基于该生成器是否成功欺骗区分器d来进行训练。生成器通常使用从预定义的潜在空间采样的随机输入作为种子，然后由该生成器合成的候选者被区分器评估，并且后向传播应用于生成网络和区分器网络两者。结果是，生成器网络学习产生更好的图像，而区分器学习更好地标记合成图像。在gan系统中，生成器神经网络g通常是反卷积神经网络，区分器神经网络d通常是卷积神经网络。

图1的cvae系统102使用神经网络e作为编码器并使用神经网络d作为解码器。自动编码器使用编码器e将来自输入层的输入数据压缩为短代码，并且解码器d学习将该代码解压缩为与原始数据紧密匹配的内容。这种解压缩是通过在解码器的上采样阶段中复制数据而发生的，使得使用信道的系统交替(systematicalternation)将数据填充到附加信道中，如示例性地在图8的右下角的插图中所示。在解码器的学习阶段期间使用后向传播，以适应解码器d中的神经网络，从而试图匹配作为输入提供给编码器e的原始数据。

但是，gan和cvae方法都不是完美的。gan100具有很好的理论证明：生成的数据将与真实数据的分布相匹配，并且已经取得了最新的成果，尤其是在计算机视觉方面。但是，众所周知，gan非常难以训练，并且其收敛性很脆弱。同样，尽管有越来越多的工作将gan引入语音生成，但是没有强有力的证据表明所生成的语音听起来是真实的，因为能够欺骗区分器的语音尚未能欺骗人耳。

另一方面，cvae102更易于训练。它所需要做的就是执行自重构，并使输出概率的变化下限最大化。直觉是推断一个假设的与风格无关的隐藏变量，然后将其与新风格信息组合以生成风格转变的输出。但是，仅cvae不能保证分布匹配，并且经常会遭受转换输出的过度平滑。

由于缺乏合适的风格转变算法，现有的语音转换系统尚未产生令人满意的结果，这自然导致以下问题：是否有一种风格转变算法在理论上也被证明如gan一样地匹配分布，并且像cvae一样容易训练，并且对语音效果更好？

受该问题的启示，本发明提出了一种用于风格转变的新方案，该方案仅涉及vanilla自动编码器，但是使用了精心设计的瓶颈。与cvae相似，所提出的方案仅需要针对自重构损失进行训练，但是它具有类似于gan的分布匹配属性。这是因为本发明的正确设计的瓶颈学习减少与来自源的风格信息相对应的信息，以获得与风格无关的代码(即，通过去除源说话者的风格从源语音中提取内容)，其是cvae的目标但是是cvae的训练计划无法保证的。通过设计如本文所述的瓶颈，本发明已经发现了一种提供零次语音转换能力的风格转变系统。

本申请的发明人将他们的新系统称为“autovc”(自动语音转换)，是不具有并行数据并且能够进行零次语音转变的多对多语音风格转变算法。

图2以数学格式示意性地示出了本发明要解决的问题，如涉及随机变量。即使本发明的预期应用是语音转换，该数学基础也可适用于其他风格转变应用。如图2中示例性地所示，假设语音200是作为随机过程生成的，其中，大写字母(例如，说话者身份u、内容z和语音x)标示随机变量。小写变量(例如z)标示确定值或随机变量的实例，符号x(1:t)标示随机过程，(1:t)标示从1到t的时间索引集合。为了便于说明，有时会省略时间索引以始终表示随机过程的集合。符号px(·|y)标示以y为条件的x的概率质量函数(pmf)或概率密度函数(pdf)；px(·|y＝y)或有时px(·|y)，在不引起混淆的情况下，标示以y为条件的x的pmf/pdf，其中，y取特定的值y；类似地，e[x|y]、e[x|y＝y]和e[x|y]标示对应的条件期望。h(·)标示熵，并且h(·|·)标示条件熵。

从数学上讲，可以假设语音话语200是通过随机过程生成的，在该过程中，首先，说话者身份u是从说话者总体pu(·)中得出的随机变量。然后，内容矢量z＝z(1：t)是从联合内容分布pz(·)中得出的随机过程。这里，内容是指语音和韵律信息。最后，给定说话者身份和内容，语音段x＝x(1:t)是从表征了说出内容z的u的语音的分布的语音分布(即px(·|u,z))中随机采样的随机过程。x(t)可表示语音波形的样本或语音频谱图的帧，但是本发明涉及语音频谱图，另外，假设每个说话者产生相同量的总(gross)信息，即，h(x|u＝u)＝h语音＝常数，而与u无关。

现在，假设两组变量(u1,z1,x1)和(u2,z2,x2)是独立的，并且是从该过程中生成的相同分布的(i.i.d)随机样本，其中，(u1,z1,x1)属于源说话者202，(u2,z2,x2)属于目标说话者204。本发明的目的是设计一种产生转换输出的语音转换器206，该转换输出保留x1中的内容但与说话者u2的说话者特性匹配。从形式上讲，理想的语音转换器应具有以下理想属性：

上面的等式意味着，给定目标说话者的身份为u2＝u2且源语音中的内容z1＝z1，转换语音应听起来像目标说话者u2在说z1。

当在训练集中看到u1和u2时，问题是标准的多说话者转换问题，该问题先前已在本领域中得到了解决。当训练集中不包括u1或u2时，该问题将成为更具挑战性的零次语音转换问题，这也是本发明当autovc的目标任务。此问题的提法(formulation)可扩展到常规风格转变设置，其中，u1和u2可表示两个域，而x1和x2可表示来自其各自域的样本。

如图3的高级示意图所示，本发明的autovc遵循图1下部示例性示出的通用自动编码器框架。图3所示的autovc的该非常简单的基线编码器框架由三个模块组成：内容编码器ec(·)，其从语音产生内容嵌入；说话者编码器es(·)，其从语音产生目标说话者嵌入；以及解码器d(·，·)，其从内容嵌入和说话者嵌入产生语音，类似地用于将目标说话者的风格“混合”到源语音的内容上。

图3中的圆圈标示语音生成过程的概率图形模型。两个es(·)符号表示本文称为“说话者编码器”或“风格编码器”的模块，该模块是经过预训练以将输入语音的风格矢量s提取到该模块中的模块，其中，该风格矢量表征了该输入说话者的语音质量。在转换期间，在图3的左侧示出，源语音x1被馈送到内容编码器ec(·)以具有提取的内容信息(即，通过从输入语音中去除风格)。目标说话者x2的话语被馈送到风格编码器es(·)，以提供目标说话者风格信息。解码器d(·,·)基于源语音中的内容信息c1和目标语音中的风格信息s2产生转换后的语音。这里，其中，c1和都是随机过程，而s2只是随机矢量。解码器d(·,·)的输出是转换后的源语音，其中，说话者u1的内容c1以目标说话者u2的风格s2转换以听起来好像目标说话者u2正在说源说话者u1的内容c1一样。

autovc系统的训练示出在图3的右侧。假设说话者编码器es(·)已被预训练为目标说话者的说话者相关的嵌入。因此，说话者编码器es(·)也被视为“风格”编码器或“目标说话者编码器”，因为已经针对目标说话者的语音特性对它进行了训练。因此，如图3右侧所示，通过“训练”autovc，此过程意味着训练内容编码器ec(·)和解码器d(·,·)。另外，如图3所示，由于未假设并行数据，因此仅需要自重构以用于训练。

更具体地，在图3右侧所示的训练期间，内容编码器ec(·)的输入仍然是u1，但是风格编码器es(·)的输入变为从同一说话者u1提取的另一语音(说出不同的内容z1′，标示为x1′)。然后，对于每个输入语音x1，autovc系统基于保留在说话者编码器es(·)中的目标说话者的风格来学习重构自身(即，自重构)，该说话者编码器使用目标说话者的特性被预训练：

图3示出损失函数使自重构误差和内容代码重构误差的加权组合302最小化。

因为基于具有针对autovc的适当信息瓶颈，这种简单的训练方案足以产生理想的分布匹配语音转换。由于在理解和应用本发明时不需要这样的数学基础，因此这里不叙述作为该结果的基础的数学定理。基本上，数学表明，需要设置内容编码器ec(·)的瓶颈维度，以使得其足以编码与说话者无关的信息s2。基础数学的直观解释在图4-6中示出，记住图1下部的cvae自动编码器的说明，解码器d在训练期间试图重构原始输入，编码器e在训练期间减少该原始输入。

因此，如图4所示，语音包含两种类型的信息：以纯色显示的说话者信息和以条纹显示的与说话者无关的信息，这被称为内容信息。如果瓶颈非常宽，如图4所示，甚至与输入语音x1一样宽。进行自重构的最方便方法是将x1照原样复制到内容嵌入c1中，这将保证完美的重构。但是，随着维度c1的减少，c1被迫损失一些信息。由于自动编码器试图实现完美的重构，因此它将选择损失说话者信息，因为说话者信息已在s1中提供。在这种情况下，完美的重构仍然是可能的，但是c1可能包含一些说话者信息，如图4所示。

另一方面，如果瓶颈非常狭窄，则内容编码器ec(·)将被迫损失太多信息，以致不仅损失说话者信息s1，而且损失内容信息c1中的一些信息。在这种情况下，不可能实现完美的重构，如图5所示。

因此，如在图6中示例性地示出的，当c1的维度被选择为使得维度减少刚好足以去除所有说话者信息而又不损害内容信息时，达到了以下两个属性成立的理想条件：

1.实现完美的重构；以及

2.内容嵌入c1不包含源说话者u1的任何信息，在本文中称为“说话者解纠缠”。

也可以通过矛盾证明这两个属性如何暗示理想的转换，如下所示。假设当autovc正在执行实际转换时(源说话者和目标说话者不同，如图3左侧所示)，其质量很低，或者听起来根本不像目标说话者。通过上面的属性i，我们知道重构(源说话者和目标说话者是相同的，如图3的右侧所示)质量很高。但是，在图3的左侧的输出语音只能访问c1和s2，这两个都不包含源说话者u1的任何风格信息。换句话说，给定图7中假设的瓶颈，从图3的左侧所示的转换输出，永远无法分辨它是通过自重构还是转换产生的。因此，如图7所示，如果自构建听起来不错，则转换听起来不错，如图7中的标签702所示。如果转换质量低，但重构质量高，那么人们将能够有机会区分转换和重构，这导致了矛盾。

图8示出了autovc体系结构的示例性实施例，包括三个主模块：内容编码器802、说话者编码器804和解码器806。autovc在大小为n乘t的语音mel-频谱图上工作，其中，n是mel-频率仓(mel-frequencybin)的数量，t是时间步(帧)数。引入频谱图反相器(spectrograminverter)808以将输出的mel-频谱图转换回波形810。

本发明的瓶颈调谐由矩形800的内容表示，正是这种调谐允许内容解码器802在保留输入语音x1的内容方面的同时消除源语音输入x1的风格方面。说话者编码器804(在本文中也称为风格编码器)已被预训练为目标说话者的语音嵌入，使得当autovc在转换模式中起作用时，说话者编码器804的输出s2提供目标说话者的风格方面。

内容编码器802

内容编码器802的输入是在每个时间步处与说话者嵌入es(x1)级联的x1的mel-频谱图。级联的特征被馈送到三个5×1卷积层中，每层都进行批量归一化和整流线性单元(relu)激活。信道数为512。输出随后传递到两个双向长短期存储器(lstm)层的堆栈。前向和后向的单元(cell)维度均为32。

作为构建信息瓶颈的关键步骤，双向lstm的前向和后向输出都以32下采样。对前向和后向路径不同地执行下采样。对于前向输出，保留时间步{0,32,64,……}；对于后向输出，保留时间步{31,63,95,……}。插图812和814还演示了如何执行下采样(为便于演示，下采样因子被设置为3)。最终的内容嵌入是分别标示为c1→和c←的两个32乘t/32矩阵的集合。下采样可以看作是沿时间轴的降维，它与沿信道轴的降维一起构建信息瓶颈。

因此，根据该描述和图8中所示的示例，作为本发明的目的的瓶颈调协在两个维度上发生：在信道轴上，示例性输入信道维度512示例性地被减少到32；以及在时间轴上，下采样示例性地被设置为32。

尽管在图8中的示例性实施例示出了32的下采样，其也等于32的时间因子，这些值不是限制性的，因为当将下采样设置为在大约32到64之间的范围内的值并且时间因子被设置为大约16到32之间的值时，本发明的方法预期可以令人满意地起作用。

说话者编码器804

说话者编码器804(在本文中也称为风格编码器或目标说话者编码器)的目的是针对相同说话者的不同话语产生相同的嵌入，并且针对不同说话者产生不同的嵌入。对于常规的多对多语音转换，说话者身份的一次编码就足够了。但是，为了执行零次转换，有必要应用可普遍应用于看不见的说话者的嵌入。因此，本发明的说话者编码器804遵循wan等人在2018年的常规设计，并且包括具有单元大小为768的两个长短期存储器(lstm)层的堆栈。仅选择最后一次的输出并将其向下投影到具有完全连接层的维度256。产生的说话者嵌入是256×1矢量。说话者编码器在ge2e损失的soft-max损失版本上进行了预训练。ge2e损失试图使同一说话者的不同话语之间的嵌入相似度最大化，并使不同说话者之间的相似度最小化。

在示例性原型实现方式中，说话者编码器804在voxcelebl和librispeech语料库的组合上被预训练，其中，总共有3549个说话者。一旦对说话者编码器804已经被训练以传达目标说话者的风格，本发明就提供了零次能力，而无需再次针对零次话语进行训练。

解码器806

解码器806的体系结构类似于shen等人在2018年描述的架构。首先，内容和说话者嵌入都通过复制被上采样以恢复到原始时间分辨率。正式地，分别将上采样的特征标示为u→和u←，然后

其中，(:,t)标示索引第t列。该复制在图8的右下角的插图812、814中示出，其示例性地示出了基于不同的采样周期如何在不同的方向上进行复制。基础直觉是，在每个时间步的每个嵌入都应包含过去和将来的信息。对于目标说话者嵌入，简单地将矢量复制t次。

然后，将上采样的嵌入进行级联，并馈入具有512个信道的三个5×1卷积层中，每个层然后进行批量归一化和relu激活函数，然后是单元维度为1024的三个lstm层。lstm层的输出被投影到具有1×1卷积层的维度80。该投影输出是在图8中标示为的转换后的语音816的初始估计。

为了在初始估计的基础上更好地构建频谱图的精细细节，如shen等人在2018年所述，在初始估计之后引入了后网络(postnetwork)。后网络由五个5×1卷积层组成，其中，批量归一化和双曲正切被应用于前四层。前四层的信道维度为512，在最后一层下降到80。最终的转换结果是通过将残差与初始估计相加得出的。

频谱图反相器

由vandenoord等人在2016年提出的wavenet声码器由四个反卷积层组成。在此实现方式中，mel-频谱图的帧速率为62.5hz，语音波形的采样率为16khz。因此，反卷积层将对频谱图进行上采样，以匹配语音波形的采样率。然后，应用上采样的频谱图上的标准40层wavenet条件，以生成语音波形。wavenet声码器在vctk语料库上使用shen等人(2018年)描述的方法预训练。

图9示出了本发明用于实现零次转换的方法的流程图格式900。在步骤902中，通过训练神经网络以使同一说话者的话语之间的相似度最大化而使其他说话者的话语之间的相似度最小化，来为目标说话者训练目标说话者编码器。

在步骤904，在内容编码器中实现瓶颈设计，并且在步骤906，使用自重构来训练内容编码器/解码器，其中，将源语音用作到内容编码器和目标说话者编码器中的输入。在自重构训练完成之后，在步骤908中，现在可进行零次转换。

系统实现

可以以多种计算机实现方式来实现本发明，包括所提供的实现autovc体系结构的云服务。因此，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理pda)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(saas)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(paas)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(iaas)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图10，其中显示了示例性的云计算环境50。如图所示，云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10，本地计算设备例如可以是个人数字助理(pda)或移动电话54a，台式电脑54b、笔记本电脑54c和/或汽车计算机系统54n。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(iaas)、平台即服务(paas)和/或软件即服务(saas)。应当理解，图10显示的各类计算设备54a-n仅仅是示意性的，云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图11，其中显示了云计算环境50(图10)提供的一组功能抽象层。首先应当理解，图11所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图11所示，提供下列层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的例子包括：主机61；基于risc(精简指令集计算机)体系结构的服务器62；服务器63；刀片服务器64；存储设备65；网络和网络组件66。软件组件的例子包括：网络应用服务器软件67以及数据库软件68。

虚拟层70提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74，以及虚拟客户端75。

在一个示例中，管理层80可以提供下述功能：资源供应功能81：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能82：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能83：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(sla)计划和履行功能85：为根据sla预测的对云计算资源未来需求提供预先安排和供应。

工作负载层90提供了对其可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括与提供能够进行零次语音转换的autovc系统中的本发明的实现有关的任务。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

尽管已经根据几个示例性实施例描述了本发明，但是本领域技术人员将认识到，可以通过修改来实践本发明。此外，请注意，即使以后在诉讼期间进行了修改，申请人的意图也包括所有权利要求要素的等同内容。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。