一种TTS系统的混合加速合成方法与流程

2021-01-28 14:01:29|

344|

起点商标网

本发明涉及语音合成技术领域，具体涉及一种tts系统的混合加速合成方法。

背景技术：

近年来，随着计算机技术的飞速发展，语音技术慢慢融入人们的生活，电话机器人、ai助手、儿童故事机等产品在人机交互过程中，无一不依赖语音合成技术播报出清晰易懂的机器合成声音。随着语音技术应用的广泛性，人们对合成声音的清晰度、自然度、流畅度的要求也越来越高。tts技术不断创新，tts合成方法从起初的拼接法，到近年来的参数合成法，再到最近兴起的端到端合成法，合成声音的效果有了质的飞跃。现有技术的缺点：

现有技术由于着重关注声音的清晰度、自然度、流畅度等指标，而无法消除庞大计算量带来的客观影响，首包响应速度、合成速度越来越慢，cpu占用率、计算机主频等计算机性能指标要求越来越高。成本高，反应速度慢易卡顿等问题，直接影响到tts应用于人机交互场景时的落地效果。如何使合成的声音在保持高拟人度的基础上，又不会受限于计算机性能，提高tts合成效率，避免人机交互过程中语音播报卡顿的现象，一直是tts技术落地的一大重要难题。

为此，本专利申请的方法，综合了清晰度、自然度、流畅度、响应速度、合成速度、合成效率六个维度指标，保障tts应用于人机交互场景的用户体验和成本控制。

技术实现要素：

针对现有技术存在的不足，本发明本专利申请所提的方案为tts系统的混合加速合成方案，能保障声音清晰、自然、流畅的基础上，提高其响应速度、合成速度、合成效率。

本发明的技术方案如下：

一种tts系统的混合加速合成方法，其特征在于：所述方法采用录音+tts实时合成的方式对整段请求合成的文本进行语音合成，所述方法具体包括如下步骤：

第一步：对整段请求合成的文本进行合规性检查；tts系统收到语音合成请求后，首先检查整段请求合成的文本是否含有语音标记文本，如果没有语音标记文本，则进行语音合成，如果含有语音标记文本，则对请求合成的文本进行合规性检查，检查是否出现了非完整标签，如果有非完整标签，则系统报错，停止语音合成，如果文本的语音标记完整，符合正确格式要求，进入第二步；

第二步：判断选择合成方式；语音合成从请求合成文本的首字节开始合成，通过检测首字节文本内容，判断选择哪种合成方式；首字节检测为标记语言，且为语音合成标记，则此段需要调取录音，采用录音的合成方式；首字节检测不是标记语言，则采用实时语音合成的方式；

第三步：调取已有录音，进行播报；采用录音合成时，通过获取完整的音频标记，从标记的开始到标记的结束，读取音频文件路径，调取已有录音，进行播报；

第四步：录音异常处置；若录音出现异常，搜素是否有可替代文本，有替代文本时，正常合成该文本，直到检测到下一个语音合成标记，再次执行第三步；无替代文本时，执行第六步；若录音无问题，则直接播报录音，而后执行第六步；

第五步：正常合成文本；如果首字节非语音合成标记，则采用实时语音合成的方式正常合成文本，直到检测到下一个语音合成标记，再次从第三步开始执行；

第六步：结束语音合成动作；检测语音结束标记后是否仍有待合成文本，如果有待合成文本，再次从第二步开始执行；如果无其他待合成文本，结束语音合成动作。

优选的，所述的第三步当中，采用录音合成，包括tts预录音合成和人声录音合成两种方式。

优选的，所述的录音部分前后分别由音频标记语言，合成过程中，通过解析长文本中的音频标记，机器自动选择预录音播报或实时合成方式，混合合成整段文本，前一段的播放时间为后一段实时合成的响应时间。

本发明与现有技术相比，优点在于：

1)本发明采用tts混合合成方案播报待合成内容，固定文本部分采用tts预录音的方式，直接调用已有录音，优化了语音合成效率；

2)本发明支持tts预录音+tts实时合成，或人声录音+tts实时合成两种应用方案，变量文本部分实时合成，流式播报，极大的减少了实时合成的计算压力，提高首句文字播报的响应速度，避免语音播报卡顿现象；

3)本发明降低计算机硬件成本，解决了服务器成本高等问题。

附图说明

图1一种tts系统的混合加速合成方法流程图。

具体实施方式

下面结合具体实施例来对本发明进行进一步说明，一种tts系统的混合加速合成方法，采用录音+tts实时合成的方式对整段请求合成的文本进行语音合成，如图1所示，所述方法具体包括如下步骤：

技术方案带来的有益效果：

本发明应用到电话机器人项目中，可以有效的提升机器人话术播报的响应速度，节省服务器资源占用，减少语音播报中的卡顿现象。基于机器人知识存储90％的固定文本内容，在cpu主频2.6ghz的服务器下，以50字合成文本，高并发情况，对两种主流合成方式进行验证，加速合成前后对比结果如下：

参数合成法下：tts首包响应时间从原几十毫秒，缩短在10ms上下浮动，并发压力越大，加速方案带来的cpu资源节省情况越显著，极大的节省了服务器成本，语音播报无卡顿现象。

端到端合成法下：tts首包响应时间从原几千毫秒，缩短在10ms上下浮动，并发压力越大，加速方案带来的cpu资源节省情况越显著，极大的节省了服务器成本，语音播报无卡顿现象。

具体测试结果如下表所示：

如上所示，本发明虽然已参照有限的实施例和附图进行了说明，但在本发明所属领域中具备通常知识的人均可以从此记载中进行各种修改和变形。由此，其他实施例及权利要求书与等同物均属于权利要求的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签：语音合成tts录音电话

上一篇建立音频生成模型的方法以及装置与流程

下一篇一种人机交互方法、装置及智能交互终端与流程

热门咨询

热门标签

热门产品

tips