用于口语中的声调识别的系统和方法与流程

2021-01-28 13:01:37|

320|

起点商标网

对相关申请的引用本申请要求于2017年12月29日提交的美国临时申请第62/611,848号的优先权，该临时申请的全部内容通过引用结合在此。本发明涉及一种用于处理和/或识别声学信号的方法和装置。更具体地说，在本文中所述的系统能够识别语言的语音声调，其中该声调可用于区分词汇或语法含义，包括声调变化。
背景技术：
：声调是许多语言的音韵学的一个重要组成部分。声调是一种区分或改变单词的音高模式，例如音高轨迹。声调语言的一些例子包括亚洲的汉语和越南语、印度的旁遮普语以及非洲的坎金语和富拉尼语。例如，在汉语普通话中，单词“妈”(mā)、“麻”(má)、“马”(mǎ)和“骂”(mà)由相同的两个音素(/ma/)组成，只能通过它们的声调模式来区分。因此，针对声调语言的自动语音识别系统不能仅依赖音素，必须结合一些关于声调识别(无论是暗含的还是外显的)的知识，以避免歧义。除了声调语言中的语音识别之外，声调识别的示例性实施例还包括自动声调识别的其他用途，包括大规模语料库语言学和计算机辅助语言学习。由于说话者之间和说话者内部的声调发音的差异，声调识别是一个很难实现的功能。虽然有这些变化，但是研究人员发现可利用学习算法(例如神经网络)来识别声调。例如，可训练简单的多层感知器(mlp)神经网络，以从音节中提取的一组声调特征作为输入，并输出声调预测。类似地，训练好的神经网络可将一组梅尔频率倒谱系数(mfcc)帧作为输入，并输出中心帧的声调预测。现有的基于神经网络的声调识别系统的一个缺点是，它们需要分段语音的数据集(即，每个声学帧都标记有训练目标的语音)，以便进行训练。人工分割语音的成本高昂，需要时间和大量的语言专业知识。可以使用强制对准器来自动分割语音，但是强制对准器本身必须首先在手动分割的数据上进行训练。对于几乎没有训练数据和专业知识可用的语言来说，这尤其成问题。因此，仍非常需要一种支持在没有分割好的语音的情况下训练声调识别的系统和方法。技术实现要素：根据一个方面，提供了一种在计算设备中处理和/或识别与声调语言相关联的声学信号中的声调的方法，该方法包括：将特征向量提取器应用于输入声学信号，并输出输入声学信号的特征向量序列；以及将一个或多个神经网络的至少一个运行时模型应用于该特征向量序列，并从输入声学信号产生声调序列作为输出；其中该声调序列被预测为特征向量序列的每个给定语音特征向量代表声调的一部分的概率。根据一个方面，使用一个或多个序列到序列网络将特征向量序列映射到声调序列，以学习用于将特征向量序列映射到声调序列的至少一个模型。根据一个方面，该特征向量提取器包括多层感知器(mlp)、卷积神经网络(cnn)、递归神经网络(rnn)、倒谱图计算机、谱图计算机、梅尔滤波倒谱系数(mfcc)计算机或滤波器组系数(fbank)计算机之中的一种或多种。根据一个方面，该输出声调序列可与互补的声学向量(例如mfcc或fbank特征向量或音素后验图)相结合，以实现一种能够以更高精度进行声调语言的语音识别的语音识别系统。根据一个方面，该序列到序列网络包括使用适合于ctc训练、编码器-解码器训练或注意力训练的损失函数训练的mlp、前馈神经网络(dnn)、cnn或rnn之中的一种或多种。根据一个方面，使用单向或双向gru、lstm单元或其衍生装置之中的一种或多种来实现rnn。所述的系统和方法可在语音识别系统中实现，以帮助估计单词。该语音识别系统是在具有处理器、存储器和麦克风输入装置的计算设备上实现的。在另一个方面中，提供了一种处理和/或识别声学信号中的声调的方法，该方法包括可训练的特征向量提取器和序列到序列神经网络。在另一个方面中，提供了一种包括用于执行所述方法的计算机可执行指令的计算机可读介质。在另一个方面中，提供了一种用于处理声学信号的系统，该系统包括处理器和存储器，该存储器包括用于执行所述方法的计算机可执行指令。在该系统的一种实现方案中，该系统包括用于执行基于云的处理的基于云的装置。在另一个方面中，提供了一种电子装置，该电子装置包括用于接收声学信号的声学传感器、本文所述的系统以及与该系统的接口，该接口用于在所述系统输出估计声调时利用它们。附图说明通过结合附图阅读下文的详细说明，本公开的其他特征和优点将变得明显。图1示出了用于实现口语声调识别的系统的框图；图2示出了使用具有ctc的双向递归神经网络、基于倒谱(cepstrum)的预处理以及卷积神经网络进行声调预测的方法；图3示出了不使用由所公开的方法产生的声调后验信息的语音识别器的混淆矩阵的一个示例；图4示出了使用由所公开的方法产生的声调后验信息的语音识别器的混淆矩阵的一个示例；图5示出了用于实现所公开的系统的计算设备；和图6示出了用于处理和/或识别与声调语言相关联的声学信号中的声调的方法。应注意，在所有附图中，相似的特征以相似的附图标记标识。具体实施方式本发明提供了一种使用序列到序列网络学习识别声调序列而无需分割的训练数据的系统和方法。序列到序列网络是一种被训练为以一个序列作为输入并输出一个序列的神经网络。序列到序列网络包括联结主义时间分类(ctc)网络、编码器-解码器网络和注意网络等。在序列到序列网络中使用的模型通常是递归神经网络(rnn)；但是，也存在非递归架构，可使用类似于ctc的序列损失函数将这种架构训练为用于语音识别的卷积神经网络。根据一个方面，提供了一种在计算设备中处理和/或识别与声调语言相关联的声学信号中的声调的方法，该方法包括：将特征向量提取器应用于输入声学信号，并输出输入声学信号的特征向量序列；以及将一个或多个神经网络的至少一个运行时模型应用于该特征向量序列，并从输入声学信号产生声调序列作为输出；其中该声调序列被预测为特征向量序列的每个给定语音特征向量代表声调的一部分的概率。根据另一个方面，使用一个或多个序列到序列网络将特征向量序列映射到声调序列，以学习用于将特征向量序列映射到声调序列的至少一个模型。根据一个方面，该特征向量提取器包括多层感知器(mlp)、卷积神经网络(cnn)、递归神经网络(rnn)、倒谱图计算机、谱图计算机、梅尔滤波倒谱系数(mfcc)计算机或滤波器组系数(fbank)计算机之中的一种或多种。根据一个方面，该输出声调序列可与互补的声学向量(例如mfcc或fbank特征向量或音素后验图)相结合，以实现一种能够以更高精度进行声调语言的语音识别的语音识别系统。根据一个方面，该序列到序列网络包括使用适合于ctc训练、编码器-解码器训练或注意力训练的损失函数训练的mlp、前馈神经网络(dnn)、cnn或rnn之中的一种或多种。根据一个方面，使用单向或双向gru、lstm单元或其衍生装置之中的一种或多种来实现rnn。所述的系统和方法可在语音识别系统中实现，以帮助估计单词。该语音识别系统是在具有处理器、存储器和麦克风输入装置的计算设备上实现的。在另一个方面中，提供了一种处理和/或识别声学信号中的声调的方法，该方法包括可训练的特征向量提取器和序列到序列神经网络。在另一个方面中，提供了一种包括用于执行所述方法的计算机可执行指令的计算机可读介质。在另一个方面中，提供了一种用于处理声学信号的系统，该系统包括处理器和存储器，该存储器包括用于执行所述方法的计算机可执行指令。在该系统的一种实现方案中，该系统包括用于执行基于云的处理的基于云的装置。在另一个方面中，提供了一种电子装置，该电子装置包括用于接收声学信号的声学传感器、本文所述的系统以及与该系统的接口，该接口用于在该系统输出估计声调时利用它们。请参考图1，该系统由可训练特征向量提取器104和序列到序列网络108组成。使用基于随机梯度的优化以端到端的方式训练该组合系统，以最大限度地减少由语音音频和声调序列组成的数据集的序列损失。向该系统提供输入声学信号(例如语音波形102)，可训练特征向量提取器104确定特征向量序列106。序列到序列网络108使用特征向量序列106来学习用于将特征向量映射到声调序列110的至少一个模型。声调序列110被预测为每个给定语音特征向量代表声调的一部分的概率。这也可称为声调后验图。请参考图2，在一个实施例中，在预处理网络210中，使用汉明窗(hammingwindow)212从帧计算倒谱图214。对于声调识别目的，倒谱图214是输入表示的一个好选择：它在与说话者的声音的声调对应的索引处有一个峰值，并且包含声音信号中存在的除相位之外的所有信息。相反，f0特征和mfcc特征破坏输入信号中的大部分信息。或者，也可使用对数梅尔滤波特征(也称为滤波器组特征(fbank))而不是倒谱图。虽然倒谱图是高度冗余的，但可训练特征向量提取器可学习仅保留与声调辨别相关的信息。如图2所示，特征提取器104可使用cnn220。cnn220适于提取声调信息，因为声调模式可能随着时间和频率而出现转换。在一个示例性实施例中，在应用整流线性单元(relu)激活功能226之前，cnn220可使用三层网络对倒谱图执行3×3卷积222，然后执行2×2最大池化224。卷积(例如2×3、4×4等)、池化(例如平均池化、l2-范数池化等)和激活层(例如sigmoid、tanh等)的其他配置也是可能的。序列到序列网络通常是可具有一个或多个单向或双向递归层的递归神经网络(rnn)230。递归神经网络230还可具有更复杂的递归单元，例如长-短期记忆(lstm)或门控递归单元(gru)等。在一个实施例中，序列到序列网络使用ctc损失函数240来学习输出正确的声调序列。可使用贪婪搜索或定向搜索从由网络产生的logit中解码输出。示例和实验在图2中示出了所述方法的一个示例。使用这个示例的实验是在如huibu等人于2017年在《orientalcocosda2017》上发表的论文“aishell-1：开源普通话语音语料库和语音识别基准”中所述的aishell-1数据集上进行的，该论文通过引用结合在此。aishell-1由来自中国各地的400名讲话者录制的165个小时的清晰语音组成，其中47％是男性，53％是女性。该语音是在无噪声环境中录制的，并且量化为16位并以16000赫兹重新采样。训练集包含340名讲话者的120098条话语(150小时的语音)，开发集包含40名讲话者的14326条话语(10小时)，测试集包含其余20名讲话者的7176条话语(5小时)。表1列出了在用于这些示例性实验的识别器中使用的一组可能的超参数。我们使用双向门控递归单元(bigru)作为rnn，每个方向上有128个隐藏单元。该rnn具有一个带6路输出的仿射层：5路输出用于5个普通话声调，1路输出用于ctc“空白”标签。表1：实验中描述的识别器的层次层类型超参数帧结构25毫秒，具有10毫秒跨度开窗汉明窗fft长度-512abs-log-ifft长度-512conv2d11x11，16个提升器，跨度1池化4x4，最大，跨度2激活reluconv2d11x11，16个提升器，跨度1池化4x4，最大，跨度2激活reluconv2d11x11，16个提升器，跨度1池化4x4，最大，跨度2激活relu丢弃50％递归bigru，128个隐藏单元ctc-使用优化方法、0.001学习速率和梯度截断方式对该网络进行了最多20个时期的训练，该优化方法例如是diederikkingma和jimmyba于2015年在国际学习表征会议(iclr)上发表的论文“adam：一种随机优化方法”中所公开的方法，该论文通过引用结合在此。利用了rnn的批量归一化和称为sortagrad课程学习策略的新优化课程，该课程在darioamodei、sundaramananthanarayanan、rishitaanubhai、jingliangbai、ericbattenberg、carlcase、jaredcasper、bryancatanzaro、qiangcheng、guoliangchen等人在2016年第33届国际机器学习会议(icml)论文集的第173-182页上发表的论文“深度语音2：英语和汉语的端到端语音识别”中有所说明，其中，训练序列在第一时期内是按照以下长度顺序从训练集中提取的，而在后续时期内是随机提取的。为了进行正则化，使用验证集的早期停止来选择最终模型。为了从logit解码声调序列，使用了贪婪搜索法。在一个实施例中，该预测声调与互补的声学信息相结合，以增强语音识别系统的性能。这种互补的声学信息的例子包括通过一个单独的模型或一组模型(例如全连接网络、卷积神经网络或递归神经网络)获得的声学特征向量序列或后验音素概率序列(也称为音素后验图)。后验概率也可通过联合学习方法获得，例如对组合声调的多任务学习以及其他任务中的音素识别。进行了一个实验，表明预测的声调能改善语音识别系统的性能。在这个实验中，记录了31名母语为汉语的说话者阅读由8对发音相似的命令构成的一组命令。如表1所示的16个命令被选择为除了声调之外在语音上是相同的。训练了两个神经网络来识别这组命令：一个神经网络仅以音素后验信息作为输入，另一个神经网络同时以音素后验信息和声调后验信息作为输入。表2：在易混淆命令实验中使用的命令结果表3比较了一些声调识别器的性能。在表的第[1]-[5]行中，提供了在文献中的其他地方报告的其他普通话声调识别结果。在表的第[6]行中示出了当前公开的方法的一个例子的结果。当前公开的方法获得的结果比其他报告的结果更好，具有11.7％的ter。表3：声调识别结果的比较方法模型和输入特征ter[1]lei等人hdpf→mlp23.8％[2]kalinli声谱图→gabor→mlp21.0％[3]huang等人hdpf→gmm19.0％[4]huang等人mfcc+hdpf→rnn17.1％[5]ryant等人mfcc→mlp15.6％[6]当前方法cg→cnn→rnn→ctc11.7％[1]-xinlei、manhungsiu、mei-yuhhwang、mariostendorf和tanlee，“用于普通话广播新闻语音识别的改良声调模型”，国际口语处理会议论文集，第1237-1240页，2006年。[2]-ozlemkalinli，“使用听觉注意线索的声调和音高重音分类”，icassp，2011年5月，第5208-5211页。[3]-hankhuang、hanchang和frankseide，“汉语语音识别的音高跟踪和声调特征”，icassp，第1523-1526页，2000年。[4]-haohuang、yinghu和haihuaxu，“使用递归神经网络的普通话声调建模”，arxiv预印本arxiv：1711.01946，2017年。[5]-ryant、neville、jiahongyuan和markliberman，“无音高跟踪的普通话声调分类”，2014年ieee国际声学、语音和信号处理会议，2014年，第4868-4872页。图3和图4示出了易混淆命令识别任务的混淆矩阵，其中每对连续的行代表一对发音相似的命令，较暗的方块表示较高频率的事件(较亮的方块表示很少出现，较暗的方块表示多次出现)。图3示出了无声调输入的语音识别器的混淆矩阵300，图4示出了有声调输入的语音识别器的混淆矩阵400。从图3中能明显看出，仅仅依靠音素后验信息会导致一对命令之间的混淆。此外，通过比较图3和图4，能够看出由所提出的方法产生的声调特征有助于消除语音相似命令的歧义。声调识别在其中很有用的另一个实施例是计算机辅助语言学习。正确的声调发音是说话者在以声调语言说话时能够被理解的必要条件。在计算机辅助语言学习应用(例如rosettastonetm或duolingotm)中，声调识别可用于检查学习者是否对短语的声调正确发音。这可通过识别学习者所说的声调并检查它们是否与要说的短语的预期声调相匹配来完成。自动声调识别在其中很有用的另一个实施例是语料库语言学，其中口语中的模式是从为该语言获得的大量数据中推断出来的。例如，某个单词可能有多种发音(可想一下英语中的“either”可发音为“iydher”或“aydher”)，每个发音都有不同的声调模式。可使用自动声调识别来搜索大型音频数据库，并通过识别单词发音的声调来确定每种发音变化形式的使用频率以及每种发音的使用环境。图5示出了用于实现所公开的使用序列到序列网络进行口语声调识别的系统和方法的计算设备。系统500包括用于执行从非易失性存储装置506提供至内部存储器504的指令的一个或多个处理器502。该处理器可位于计算设备中，或者位于网络或基于云的计算平台的一部分中。输入/输出508接口使得包括声调的声信号能够被音频输入装置(例如麦克风510)接收。然后，处理器502可使用序列到序列网络来处理口语的声调。随后可将该声调映射到相关装置514的命令或动作，在显示器516上产生输出，提供听觉输出512，或者产生针对另一个处理器或装置的指令。图6示出了用于处理和/或识别与声调语言相关联的声学信号中的声调的方法600。电子设备(602)从音频输入(例如耦合至该设备的麦克风)接收输入声学信号。该输入可以是从位于该电子设备内或远离该电子设备的位置的麦克风接收的。此外，可从多个麦克风输入提供输入声学信号，并且可在输入级对输入声学信号进行预处理以消除噪声。将特征向量提取器应用于输入声学信号，并输出输入声学信号的特征向量序列(604)。将一个或多个序列到序列神经网络的至少一个运行时模型应用于特征向量序列(606)，并从输入声学信号产生声调序列作为输出(608)。可选地，可将该声调序列与互补的声学向量组合，以增强语音识别系统的性能(612)。将该声调序列预测为特征向量序列的每个给定语音特征向量代表声调的一部分的概率。将具有最高概率的声调映射为与该电子设备或由该电子设备控制或耦合至该电子设备的设备相关联的命令或动作(610)。该命令或动作可在所述设备或远程设备上执行软件功能，执行向用户界面或应用编程接口(api)的输入，或者导致某个设备执行用于进行一个或多个物理动作的命令。该设备例如可以是消费者或个人电子设备、智能家庭组件、车辆接口、工业设备、物联网(iot)类型的设备、或者能够使api向设备提供数据或者能够在设备上执行功能动作的任何计算设备。本公开的实施例中的每个元件可实现为硬件、软件/程序、或它们的任意组合。全部或一部分软件代码可存储在计算机可读介质或存储器中(例如作为只读存储器，例如非易失性存储器，例如闪存、cdrom、dvdrom、blu-raytm、半导体rom、usb；或者作为磁记录介质，例如硬盘)。该程序可以是源代码、目标代码、介于源代码与目标代码之间的代码的形式(例如部分编译的形式)、或者任何其他形式。本领域普通技术人员应理解，图1-6所示的系统和部件可包括未在附图中示出的部件。为了确保示图的简洁性和清晰性，附图中的元件不一定是按比例绘制的，而仅是示意性的，并且对元件结构没有限制。对于本领域技术人员来说显而易见的是，在不脱离如所附权利要求所限定的本发明的范围的前提下，能够做出各种变化和修改。当前第1页1 2 3

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。