一种基于文本的自动化语音合成方法与流程

2021-01-28 17:01:39|

354|

起点商标网

本发明属于文本语音合成技术领域，具体涉及一种基于文本的自动化语音合成方法。

背景技术：

随着移动互联网和人工智能技术的快速发展，语音播报、听小说、听新闻、智能交互等一系列语音合成的场景越来越多。

目前，语音合成系统在对文本进行语音合成时，首先对输入的文本进行归一化预处理，然后对文本进行分词、词性标注、注音等操作，再对文本进行韵律等级的预测，以及预测声学参数，最后输出最终的语音结果。

但是，现有语音合成系统生成的语音多为模板化语音，普遍存在语音不连续和不自然的现象，同时无法生成用户对应音色音调的语音，不具备深度学习的功能，无法满足使用需求。

因此，如何解决现有的语音合成系统无法生成用户对应音色音调的语音的问题，具有重要的研究意义。

技术实现要素：

本发明的目的在于：提供一种基于文本的自动化语音合成方法，解决现有的语音合成系统无法生成用户对应音色音调的语音的问题。

本发明采用的技术方案如下：

一种基于文本的自动化语音合成方法，包括以下步骤：

(1)语音合成系统根据输入的文本和对应用户的语音，自动学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征；

(2)输入待合成语音的文本；

(3)基于深度学习后的语音合成系统根据输入的待合成语音的文本，结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。

进一步地，所述语音合成系统可识别的文本和生产语音的类型为英文。

进一步地，所述语音合成系统可识别的文本和生产语音的类型为中文。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，通过语音合成系统深度学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征，从而可以根据文本内容结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音，同时其适用于多种语言，适用范围广，生成的语音准确度高、清晰度高，有效解决了现有的语音合成系统无法生成用户对应音色音调的语音的问题。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

一种基于文本的自动化语音合成方法，包括以下步骤：

(1)语音合成系统根据输入的文本和对应用户的语音，自动学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征；

(2)输入待合成语音的文本；

进一步地，所述语音合成系统可识别的文本和生产语音的类型为英文。

进一步地，所述语音合成系统可识别的文本和生产语音的类型为中文。

本发明在实施过程中，通过语音合成系统深度学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征，从而可以根据文本内容结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音，同时其适用于多种语言，适用范围广，生成的语音准确度高、清晰度高，有效解决了现有的语音合成系统无法生成用户对应音色音调的语音的问题。

实施例1

一种基于文本的自动化语音合成方法，包括以下步骤：

(1)语音合成系统根据输入的文本和对应用户的语音，自动学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征；

(2)输入待合成语音的文本；

实施例2

在实施例1的基础上，所述语音合成系统可识别的文本和生产语音的类型为英文。

实施例3

在实施例1的基础上，所述语音合成系统可识别的文本和生产语音的类型为中文。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除