自适应英语语音的生成方法与流程

2021-01-28 14:01:13|

244|

起点商标网

本发明涉及语音处理技术领域，特别涉及一种自适应英语语音的生成方法。

背景技术：

随着人工智能的不断发展进步，智能语音服务也越来越多地应用到人们的日常工作和生活中，同时，为适应不同的应用场景、满足不同的需求，使用英语作为输出语言的人工智能的需求也越来越多。

目前，现有技术中使用的英语语音输出的方式，基本上都是直接将语音信号输入对应的语音输出模型中，并获取语音输出结果，从而直接输出英语语音。这种处理方式没有对输入的语音信号进行缺陷分析和识别，使得输出的英语语音不够准确。

技术实现要素：

本发明提供一种自适应英语语音的生成方法，旨在分析输入的语音信号并进行缺陷识别，从而根据识别结果输入至对应的语音输出模型中，提高英语语音输出的精准性。

本发明提供了一种自适应英语语音的生成方法，所述方法包括：

接收触发的英语语音生成指令，基于所述英语语音生成指令，采集目标语音信号；

对采集的所述目标语音信号进行信号分析和处理，得到对应的待保留信号；

针对得到的所述待保留信号，参照英语语音对应的标准语音信号，对所述待保留信号进行缺陷识别；

根据缺陷识别结果，将包含所述目标语音信号的语音数据输入对应的英语语音输出模型中，获取语音输出结果，得到生成的英语语音。

进一步地，所述对采集的所述目标语音信号进行信号分析和处理，得到对应的待保留信号，包括：

对采集的所述目标语音信号进行信号帧节拆分，得到拆分后的m帧语音信号；

将拆分后得到的m帧语音信号进行信号转换，得到对应的电信号；

对信号转换后得到的所述电信号进行滤波处理，得到对应的待提取信号；

从所述待提取信号中提取出所述电信号的特征信息，同时将所述待提取信号中的其他杂余信息进行过滤，形成所述待保留信号。

进一步地，所述针对得到的所述待保留信号，参照英语语音对应的标准语音信号，对所述待保留信号进行缺陷识别，包括：

针对得到的所述待保留信号，对所述待保留信号进行信号预处理，并基于对所述待保留信号的预处理结果，提取所述待保留信号中与语音韵律相关的n个特征参数；

根据提取出的所述n个特征参数，计算所述待保留信号中每一帧信号的分值；

根据计算得到的所述待保留信号中每一帧信号的分值，对所述待保留信号进行缺陷识别。

进一步地，所述与语音韵律相关的n个特征参数包括：音调、音准和音律。

进一步地，所述根据提取出的所述n个特征参数，计算所述待保留信号中每一帧信号的分值，包括：

根据提取出的所述n个特征参数，利用公式(1)，计算所述待保留信号中每一帧信号分别对应的第一分数值s1，则有：

公式(1)中，βi表示所述待保留信号中每一帧信号的第i个特征参数的实际特征值，为预设值，其取值范围为[0，1]；χi表示所述待保留信号中每一帧信号的第i个特征参数的权重值，为预设值，其取值范围为[0，1]；βi′表示所述待保留信号中每一帧信号的第i个特征参数的标准特征值，为预设值，其取值范围为[0，1]。

进一步地，所述根据计算得到的所述待保留信号中每一帧信号的分值，对所述待保留信号进行缺陷识别，包括：

根据计算得到的所述待保留信号中每一帧信号的所述第一分数值，计算所述待保留信号映射的所述目标语音信号的第二分数值；

判断所述第一分数值和第二分数值是否均满足预设英语分数标准值；

若所述第一分数值和第二分数值均满足预设英语分数标准值，则识别出所述待保留信号不存在缺陷；

若所述第一分数值和第二分数值没有同时满足预设英语分数标准值，则识别出所述待保留信号存在缺陷。

进一步地，所述根据计算得到的所述待保留信号中每一帧信号的所述第一分数值，计算所述待保留信号映射的所述目标语音信号的第二分数值，包括：

根据所述第一分数值s1，找出所述第一分数值s1中的最大值smax，针对所述目标语音信号中包含的m帧信号，利用公式(2)，计算所述目标语音信号的第二分数值s2，则有：

公式(2)中，smax表示所有第一分数值s1中对应的最大分数值；λ表示所述最大分数值smax对应的待保留信号在所述目标语音信号中的占比值，a3表示所述待保留信号中包含的信号帧。

进一步地，所述根据缺陷识别结果，将包含所述目标语音信号的语音数据输入对应的英语语音输出模型中，包括：

在识别出所述待保留信号不存在缺陷时，将所述待保留信号映射的目标语音信号输入至所述英语语音输出模型中；

在识别出所述待保留信号存在缺陷时，根据缺陷识别结果，将缺陷识别结果信息与所述目标语音信号一起输入至所述英语语音输出模型中。

进一步地，所述在识别出所述待保留信号存在缺陷时，根据缺陷识别结果，将缺陷识别结果信息与所述目标语音信号一起输入至所述英语语音输出模型中，包括：

在识别出所述待保留信号存在缺陷时，调用预先存储的缺陷数据库；

基于所述缺陷数据库，对所述目标语音信号进行缺陷识别，得到与所述目标语音信号相匹配的缺陷识别结果信息；

将所述缺陷识别结果信息与所述目标语音信号一起输入至所述英语语音输出模型中。

进一步地，所述接收触发的英语语音生成指令，基于所述英语语音生成指令，采集目标语音信号，包括：

接收触发的英语语音生成指令，对触发的所述英语语音生成指令进行鉴权，并在鉴权通过时，根据所述英语语音生成指令，采集对应的目标语音信号；

其中，所述英语语音生成指令的触发方式包括：

用户触发对应的英语语音生成指令的手动触发方式，以及系统自动触发的触发方式；其中，当系统检测到满足英语语音生成指令的触发条件时，由系统自动触发所述英语语音生成指令。

本发明自适应英语语音的生成方法，通过接收触发的英语语音生成指令，基于所述英语语音生成指令，采集目标语音信号；对采集的所述目标语音信号进行信号分析和处理，得到对应的待保留信号；针对得到的所述待保留信号，参照英语语音对应的标准语音信号，对所述待保留信号进行缺陷识别；根据缺陷识别结果，将包含所述目标语音信号的语音数据输入对应的英语语音输出模型中，获取语音输出结果，得到生成的英语语音；实现了根据缺陷结果进行语音输入的目的，提高了英语语音输出的精准性和智能性，同时，也提高了英语语音的输出效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明自适应英语语音的生成方法的一种实施方式的工作流程示意图。

图2是本发明自适应英语语音的生成方法中，对目标语音信号进行处理得到待保留信号的一种实施例方式的工作流程示意图。

图3是本发明自适应英语语音的生成方法中，对待保留信号进行缺陷识别的一种实施例方式的工作流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种自适应英语语音的生成方法，通过对输入英语语音输出模型的目标语音信号进行分析并进行缺陷识别，进而根据识别结果输入相应的语音数据至对应的语音输出模型中，提高了英语语音输出的精准性。

如图1所示，图1是本发明自适应英语语音的生成方法的一种实施方式的工作流程示意图；本发明一种自适应英语语音的生成方法可以实施为如下描述的步骤s10-s40。

步骤s10、接收触发的英语语音生成指令，基于所述英语语音生成指令，采集目标语音信号。

本发明实施例中，系统接收触发的英语语音生成指令，并根据所述英语语音生成指令，进行目标语音信号的采集操作。

其中，所述英语语音生成指令的触发方式包括：用户手动触发和系统自动触发两种方式。比如，用户触发对应的英语语音生成指令的手动触发方式；针对系统自动触发的触发方式，当系统检测到满足英语语音生成指令的触发条件时，由系统自动触发所述英语语音生成指令。

进一步地，在一个实施例中，当接收到英语语音生成指令时，对触发的所述英语语音生成指令进行鉴权，即判断触发的所述英语语音生成指令是否合法，并在鉴权通过后，执行目标语音信号的采集和英语语音的生成操作。

比如，在一个具体的应用场景中，针对语音机器人当前所处的状态是进行博物馆的语音解说，当接收到触发的进入人机对话模式并执行语音语音输出的英语语音生成指令时，判断该语音机器人当前执行的博物馆解说事件的优先级较高，因此，该语音机器人针对当前触发的所述英语语音生成指令的鉴权不通过，则不执行对应的目标语音信号采集和英语语音的生成操作。

步骤s20、对采集的所述目标语音信号进行信号分析和处理，得到对应的待保留信号。

本发明实施例中，系统对采集的所述目标语音信号进行信号分析和信号处理，比如，进行信号滤波、去除无效信息等信号处理操作，从而得到信号分析和信号处理后的待保留信号。

步骤s30、针对得到的所述待保留信号，参照英语语音对应的标准语音信号，对所述待保留信号进行缺陷识别。

针对信号分析处理后得到的所述待保留信号，系统参照英语语音对应的标准的语音信号，对所述待保留信号进行缺陷识别；比如，将所述待保留信号中的信号特征，与所述标准英语语音信号进行一一比对，判断该待保留信号中是否存在缺失等缺陷，从而达到对所述待保留信号映射的所述目标语音信号的缺陷识别的目的。

步骤s40、根据缺陷识别结果，将包含所述目标语音信号的语音数据输入对应的英语语音输出模型中，获取语音输出结果，得到生成的英语语音。

根据对待保留信号的缺陷识别结果，比如，若识别出所述待保留信号存在缺陷，则根据缺陷识别结果对应的识别结果信息，将所述识别结果信息与所述目标语音信号一并输入至对应的英语语音输出模型中。若识别出所述待保留信号不存在缺陷，则直接将所述待保留信号映射的所述目标语音信号对应的语音数据输入至英语语音输出模型中。根据该英语语音输出模型的输出，获取对应的语音输出结果，得到生成的英语语音。

本发明实施例中所使用的英语语音输出模型可以为现有的英语语音输出模型，比如，获取英语标准发音、英语标准表达指标等，得到对应的标准英语语音样本数据库；利用标准的英语语音样本数据库，训练得到对应的语音输出模型等。

基于图1所述实施例的描述，如图2所示，图2是本发明自适应英语语音的生成方法中，对目标语音信号进行处理得到待保留信号的一种实施例方式的工作流程示意图。在图2所述的实施例中，图1所述实施例中的“步骤s20、对采集的所述目标语音信号进行信号分析和处理，得到对应的待保留信号”，可以实施为如下描述的步骤s21-s24。

步骤s21、对采集的所述目标语音信号进行信号帧节拆分，得到拆分后的m帧语音信号；

步骤s22、将拆分后得到的m帧语音信号进行信号转换，得到对应的电信号；

步骤s23、对信号转换后得到的所述电信号进行滤波处理，得到对应的待提取信号；

步骤s24、从所述待提取信号中提取出所述电信号的特征信息，同时将所述待提取信号中的其他杂余信息进行过滤，形成所述待保留信号。

本发明实施例中，在对采集的所述目标语音信号进行信号分析和处理时，并对所述目标语音信号进行信号帧节拆分，得到m帧语音信号。将每帧语音信号进行转换，得到转换后对应的电信号；对转换后得到的所述电信号进行滤波处理，得到对应的待提取信号a1。从所述待提取信号的每一帧信号中提取出对应的特征信息，同时滤掉杂余信息a2，形成对应的待保留信号a3；即有：a3＝a1-a2。

本发明实施例中，通过对采集的目标语音信号进行信号帧的拆分，得到拆分后的m帧语音信号；将拆分后得到的语音信号进行信号转换，得到对应的电信号；对信号转换后得到的所述电信号进行滤波处理，得到对应的待提取信号；从所述待提取信号中提取出所述电信号的特征信息，同时将所述待提取信号中的其他杂余信息进行过滤，形成所述待保留信号；为后续对目标语音信号的缺陷识别提供了重要的数据，提高了信号缺陷识别的准确性，同时也提高了信号缺陷识别的效率。

基于图1和图2所述实施例的描述，如3所示，图3是本发明自适应英语语音的生成方法中，对待保留信号进行缺陷识别的一种实施例方式的工作流程示意图。在图3所述的实施例中，图1所述实施例中的“步骤s30、针对得到的所述待保留信号，参照英语语音对应的标准语音信号，对所述待保留信号进行缺陷识别”，可以实施为如下描述的步骤s31-s33。

步骤s31、针对得到的所述待保留信号，对所述待保留信号进行信号预处理，并基于对所述待保留信号的预处理结果，提取所述待保留信号中与语音韵律相关的n个特征参数；

步骤s32、根据提取出的所述n个特征参数，计算所述待保留信号中每一帧信号的分值；

步骤s33、根据计算得到的所述待保留信号中每一帧信号的分值，对所述待保留信号进行缺陷识别。

本发明实施例中，针对从所述目标语音信号中得到的待保留信号，对所述待保留信号进行信号预处理，根据预处理结果，提取所述待保留信号中与语音韵律相关的n个特征参数；所述特征参数包括但不限于：与英语语音韵律相关的音调、音准和音律等。根据提取出的所述n个特征参数，计算所述待保留信号中每一帧信号的分值，进而根据计算得到的分值，对所述待保留信号进行缺陷识别。

进一步地，在一个实施例中，图3所述实施例中的步骤s33，根据计算得到的所述待保留信号中每一帧信号的分值，对所述待保留信号进行缺陷识别，可以按照如下技术手段实施：

根据计算得到的所述待保留信号中每一帧信号的所述第一分数值，计算所述待保留信号映射的所述目标语音信号的第二分数值；判断所述第一分数值和第二分数值是否均满足预设英语分数标准值。

若所述第一分数值和第二分数值均满足预设英语分数标准值，则识别出所述待保留信号不存在缺陷；若所述第一分数值和第二分数值没有同时满足预设英语分数标准值，则识别出所述待保留信号存在缺陷。

进一步地，在一个实施例中，根据提取出的所述n个特征参数，计算得到的所述待保留信号中每一帧信号的所述第一分数值，可以利用公式(1)实施。

本发明实施例中，根据提取出的所述n个特征参数，利用公式(1)，计算所述待保留信号中每一帧信号分别对应的第一分数值s1，则有：

进一步地，根据计算得到的所述待保留信号中每一帧信号的所述第一分数值s1，计算所述待保留信号映射的所述目标语音信号的第二分数值，可以按照如下技术手段实施：

根据所述第一分数值s1，找出所述第一分数值s1中的最大值smax，针对所述目标语音信号中包含的m帧信号，利用公式(2)，计算所有所述第一分数值s1对应的所述目标语音信号的第二分数值s2，则有：

进一步地，基于上述计算得到的所述待保留信号对应的第一分数值s1，以及所述目标语音信号对应的第二分数值s2，当所述第一分数值s1和第二分数值s2均满足预设英语分数标准值，识别出所述待保留信号不存在缺陷；若所述第一分数值s1和第二分数值s2没有同时满足预设英语分数标准值，则识别出所述待保留信号存在缺陷。

在图1所述实施例的步骤s40中，系统根据缺陷识别结果，将包含所述目标语音信号的语音数据输入对应的英语语音输出模型中，可以按照如下技术手段实施：

系统在识别出所述待保留信号不存在缺陷时，将所述待保留信号映射的目标语音信号输入至所述英语语音输出模型中；系统在识别出所述待保留信号存在缺陷时，根据缺陷识别结果，将缺陷识别结果信息与所述目标语音信号一起输入至所述英语语音输出模型中。

进一步地，系统在识别出所述待保留信号存在缺陷时，根据缺陷识别结果，将缺陷识别结果信息与所述目标语音信号一起输入至所述英语语音输出模型中，可以按照如下技术手段实施：

系统在识别出所述待保留信号存在缺陷时，调用预先存储的缺陷数据库；基于所述缺陷数据库，对所述目标语音信号进行缺陷识别，得到与所述目标语音信号相匹配的缺陷识别结果信息；将所述缺陷识别结果信息与所述目标语音信号一起输入至所述英语语音输出模型中。

本发明实施例中，通过采集目标语音信号，便于对采集的目标语音信号进行分析处理，首先对目标语音信号进行帧拆分，其次，对拆分后的帧内容进行特征参数提取；根据公式(1)，计算对应的第一分数值，并根据公式(2)，计算所有第一分数值对应的第二分数值，最后基于比较分析，确定目标语音信号是单纯的输入到语音输出模型，还是结合缺陷识别结果共同输入，可以提高对目标语音信号识别的精准性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除