外呼系统的语音合成方法、平台、服务器以及介质与流程

2021-01-28 15:01:31|

335|

起点商标网

本申请涉及在线支付的技术领域，具体而言，本申请涉及一种外呼系统的语音合成方法、平台、服务器以及介质。

背景技术：

目前的智能外呼系统，一般是采用媒体资源控制协议(mediaresourcecontrolprotocol,mrcp)，即通过流媒体的形式进行文字的语音合成，也就是文字可以一边合成为语音流，同时语音流可以一边被播放给客户听取。这样可以带来更小的延时，避免发生大段文字需要全部合成完语音之后再播放所带来的较长时间的等待。但同时也带来了相应的问题，即在租用的有限语音合成并发通路条件下，一段文字通过流媒体形式的语音合成，在全部的文字合成完并且合成的语音流全部播放完之前会一直占用使用的语音合成通路不会释放，进而在高并发的外呼通话情况下出现合成语音需要等待的情况，进而影响给客户的应答反馈速度，严重影响客户体验。换句话说，在有限语音合成能力并发通路的前提下，当出现高并发的外呼通话时，能获取到语音合成通路的一方确实能够实现较低延时的体验，但是不能获取语音合成通路的一方则有可能出现较长时间的等待来获取通路，进而导致在进行智能外呼应答时，容易出现有较大延时的情况。

技术实现要素：

本申请针对现有方式的缺点，提出一种外呼系统的语音合成方法、平台、服务器以及介质，用以解决上述至少一个技术问题。

第一方面，本申请实施例提供了一种外呼系统的语音合成方法，包括：

互动式语音应答模块接收待合成文字段，将待合成文字段发送至中间件；

中间件将待合成文字段切分成第一数量的单位文字段，并将第一数量的单位文字段发送至语音合成服务器，使得语音合成服务器基于各单位文字段在待合成文字段中的位置顺序，将第一数量的单位文字段合并成第二数量的子文字段；

互动式语音应答模块基于各语音文件被合成的时间顺序，依次播放被语音合成服务器合成的各语音文件。

在本申请的一个实施例中，将待合成文字段切分成第一数量的单位文字段，包括：

中间件以待合成文字段中的标点符号作为切分位置，将待合成文字段切分成第一数量的单位文字段。

在本申请的一个实施例中，基于各语音文件被合成的时间顺序，依次播放被语音合成服务器合成的各语音文件，包括：

互动式语音应答模块根据中间件提供的存储路径确定出语音文件的存储位置，根据中间件提供的文件名称确定出第一个语音文件；

互动式语音应答模块从第一个语音文件开始，基于各语音文件被合成的时间顺序依次播放存储位置中的各语音文件。

第二方面，本申请实施例提供了一种外呼系统的语音合成方法，包括：

接收中间件发送的第一数量的单位文字段；

基于各单位文字段在待合成文字段中的位置顺序，将第一数量的单位文字段合并成第二数量的子文字段；

基于各子文字段被合并的时间顺序，将各子文字段分别合成对应的语音文件并进行存储。

在本申请的一个实施例中，基于各单位文字段在待合成文字段中的位置顺序，将第一数量的单位文字段合并成第二数量的子文字段，包括：

基于各单位文字段在待合成文字段中的位置顺序，将第一数量的单位文字段中位置相邻的至少两个单位文字段作为一组；

将每组单位文字段合并成一个子文字段，得到第二数量的子文字段。

在本申请的一个实施例中，基于各子文字段被合并的时间顺序，将各子文字段分别合成对应的语音文件并进行存储，包括：

每确定出一个子文字段合并完成后，将合并完成后的子文字段合成为对应的语音文件，基于中间件提供的存储路径将语音文件保存至存储位置；

以及，在第一个语音文件合成完成后，基于中间件提供的文件名称为第一个语音文件命名。

第三方面，本申请实施例提供了一种外呼平台，包括互动式语音应答模块和中间件；互动式语音应答模块和中间件分别执行本申请实施例第一方面提供的的外呼系统的语音合成方法中对应的步骤。

第四方面，本申请实施例提供了一种语音合成服务器，包括存储器和处理器；处理器分别与存储器和外呼平台通信连接；

存储器存储有计算机程序，计算机程序由处理器执行时，实现本申请实施例第二方面提供的外呼系统的语音合成方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本申请实施例第一方面提供的外呼系统的语音合成方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本申请实施例第二方面提供的外呼系统的语音合成方法。

本申请实施例提供的技术方案，至少具有如下有益效果：

应用本申请实施例提供的外呼系统的语音合成方法，在使用在有限语音合成能力并发通路的前提下，能够尽可能的满足高并发通话时的语音合成较低延时的需求，在节约成本的同时更大能力的发挥语音合成的能力效果，有效地提高了语音合成能力的利用率，从而降低了因等待获取语音合成而导致通路出现响应延时的机率，显著地提升了客户的使用体验。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的一种外呼平台与语音合成服务器的通信示意图；

图2为本申请的一种外呼系统的语音合成方法的流程示意图；

图3为本申请提供的一种语音合成服务器的模块示意图。

具体实施方式

下面详细描述本申请，本申请的实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的部件或具有相同或类似功能的部件。此外，如果已知技术的详细描述对于示出的本申请的特征是不必要的，则将其省略。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

首先对本申请涉及的专业名词做简单的解释说明：

(智能)外呼系统，英文全称为intelligentoutboundcallingsystem，是指一个机器人可以通过语音识别(asr)、语音合成(tts)、自然语言处理(nlp)等技术与客户进行自动交互的系统。其可以完成收集信息、产品推广营销等业务流程场景，从而可以极大地节省人力和物力成本等。

互动式语音应答(模块)，英文全称为interactivevoiceresponse(简称ivr)，是一种功能强大的电话自动服务系统，在一体化呼叫中心平台中，ivr是一个子系统，它与其他子系统协同来实现一个呼叫中心平台的标准功能。

以mrcp流媒体为例，现有的通过流媒体的形式进行文字的语音合成的流程大致如下：ivr通过sip协议将待合成文字段发送到多媒体资源服务器，之后多媒体服务器使用mrcp协议将待合成文字通过mrcpserver中间件转发给语音合成服务器；语音合成服务器对接收的文字一边合成，一边将语音流转发给多媒体资源服务器，通过ivr把语音流播放给客户，直至语音流全部播放完毕，语音合成服务器提供的该通路才会释放给其他语音合成任务。

由上述内容可知，在现有技术中，即使有下一个待合成文字段需要反馈给客户是，也必须要等待当前的待合成文字段的语音流全部播放完毕后，才能开始进行针对下一个待合成文字段的语音合成操作，导致下一个待合成文字段需要等待较长的时间后才能进行语音合成，进而影响给客户的应答反馈速度，严重影响客户体验。

为了解决上述问题，本申请实施例提供了一种外呼系统、以及外呼系统的语音合成方法。如图1所示，外呼系统包括外呼平台100和语音合成服务器200，二者分别执行外呼系统的语音合成方法中对应的步骤。如图1所示，外呼平台100具体包括互动式语音应答模块101和中间件102。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。

图2示出了本申请实施例提供的一种外呼系统的语音合成方法的流程示意图，如图2所示，该语音合成方法主要可以包括：

s301：互动式语音应答模块101接收待合成文字段。

s302：互动式语音应答模块101将待合成文字段发送至中间件102。

s303：中间件102将待合成文字段切分成第一数量的单位文字段。

应当说明的是，第一数量的具体数值可以根据实际的设计需要而定，可以根据需要设置第一数量的上限值和下限值。

在本申请的一个实施例中，步骤s303具体包括：中间件102以待合成文字段中的标点符号作为切分位置，将待合成文字段切分成第一数量的单位文字段。此时，第一数量的具体数值需要根据待合成文字段中标点符号的数量而定。

下面以某一待合成文字段为例，对切分的方法做具体的介绍。例如，待合成文字段的具体内容为：可以去任意一家建行网点进行咨询和购买，也可以下载建行手机银行，在手机银行上操作很方便的，在投资理财里面的净值型产品搜索产品名称，产品的具体说明里面都有的，稍后会把具体的产品名字和操作步骤短信发送给您。理财非存款，产品有风险，投资需谨慎，祝您工作顺利生活愉快，再见。

将上述待合成文字段中的逗号“，”和句号“。”作为切分位置，对待合成文字段进行切分，此时可以切分出11个单位文字段，这11个单位文字段分别是：可以去任意一家建行网点进行咨询和购买/也可以下载建行手机银行/在手机银行上操作很方便的/在投资理财里面的净值型产品搜索产品名称/产品的具体说明里面都有的/稍后会把具体的产品名字和操作步骤短信发送给您/理财非存款/产品有风险/投资需谨慎/祝您工作顺利生活愉快/再见，其中，“/”为相邻两个单位文字段之间的分界。这11个单位文字段可以一次记作图1中的p1、p2、p3、p4...p11。

s304：中间件102将第一数量的单位文字段发送至语音合成服务器200。

可选地，中间件102可以在待合成文字段的所有单位文字段切分完成后，将所有的所有单位文字段按顺序发送给语音合成服务器200。以步骤s303中的待合成文字段为例，中间件102将待合成文字段切分成11个单位文字段后，将11个单位文字段一起发送给语音合成服务器200。

可选地，中间件102也可以每切分出待合成文字段中的一个单位文字段，就将该切分出的单位文字段发送给语音合成服务器200。以步骤s303中的待合成文字段为例，中间件102将切分出“可以去任意一家建行网点进行咨询和购买”这个单位文字段后，立即将该单位文字段发送给语音合成服务器200，之后继续切分并发送“在手机银行上操作很方便的/在投资理财里面的净值型产品搜索产品名称”这个单位文字段，直至11个单位文字段全部切分并发送完成。

在本申请的一个实施例中，在执行步骤s304之前，中间件102设置音色和语速等请求参数，这些参数为播放语音文件时所用的音色和语速等参数。

s305：语音合成服务器200接收中间件102发送的第一数量的单位文字段。

基于步骤s304的具体内容可知，语音合成服务器200既可以同时接收待合成文字段中的所有单位文字段，也可以依次接收待合成文字段中的各个单位文字段。

s306：语音合成服务器200基于各单位文字段在待合成文字段中的位置顺序，将第一数量的单位文字段合并成第二数量的子文字段。

在本申请的一个实施例中，步骤s306具体包括：基于各单位文字段在待合成文字段中的位置顺序，将第一数量的单位文字段中位置相邻的至少两个单位文字段作为一组；将每组单位文字段合并成一个子文字段，得到第二数量的子文字段。

一般情况下，需要将至少两个单位文字段合并成一个子文字段，因此子文字段的数量通常小于单位文字段的数量，即第二数量小于第一数量。在本申请实施例中，可以设置子文字段的字数上限值，通过该字数上限值以及各单位文字段中的字数，确定出构成一个子文字段的单位文字段的数量。

假设子文字段的字数上限值为50，字数最少的一个单位文字段的字数为2。若某3个单位文字段的字数和为49，则将这3个相邻的单位文字段合并为一个子文字段；若某4个相邻单位文字段的字数和为50，则将这3个单位文字段合并为一个子文字段，当然子文字段的字数也完全可以远小于50。

对步骤s304所切分的11个单位文字段，可以将这11个单位文字段合并成4个子文字段。具体地，将第1至第3个单位文字段合并成第一子文字段，将第4和第5个单位文字段合并成第二子文字段，将第6至第9个单位文字段合并成第三子文字段，将第10和第11个单位文字段合并成第四子文字段。

第一子文字段的内容为：可以去任意一家建行网点进行咨询和购买/也可以下载建行手机银行/在手机银行上操作很方便的。

第二子文字段的内容为：在投资理财里面的净值型产品搜索产品名称/产品的具体说明里面都有的。

第三子文字段的内容为：稍后会把具体的产品名字和操作步骤短信发送给您/理财非存款/产品有风险/投资需谨慎。

第四子文字段的内容为：祝您工作顺利生活愉快/再见。

s307：语音合成服务器200基于各子文字段被合并的时间顺序，将各子文字段分别合成对应的语音文件并进行存储。

在本申请的一个实施例中，步骤s307具体包括：每确定出一个子文字段合并完成后，将合并完成后的子文字段合成为对应的语音文件，基于中间件102提供的存储路径将语音文件保存至存储位置；在第一个语音文件合成完成后，基于中间件102提供的文件名称为第一个语音文件命名。

以步骤s306中的4个子文字段为例，当确定出第一子文字段合并完成时，将第一子文字段合成为第一语音文件，记作图1中的file1；当确定出第二子文字段合并完成时，将第二子文字段合成为第二语音文件，记作图1中的file2；当确定出第三子文字段合并完成时，将第三子文字段合成为第三语音文件，记作图1中的file3；当确定出第四子文字段合并完成时，将第四子文字段合成为第四语音文件，记作图1中的file4。

每合成为一个语音文件，就可以根据存储路径将该将语音文件保存至存储位置。在本申请实施例中，将第一语音文件、第二语音文件、第三语音文件和第四语音文件依次保存至存储位置。

s308：互动式语音应答模块101基于各语音文件被合成的时间顺序，依次播放被语音合成服务器200合成的各语音文件。

在本申请的一个实施例中，步骤s308具体包括：互动式语音应答模块101根据中间件102提供的存储路径确定出语音文件的存储位置，根据中间件102提供的文件名称确定出第一个语音文件；互动式语音应答模块101从第一个语音文件开始，基于各语音文件被合成的时间顺序依次播放存储位置中的各语音文件。

在本申请实施例中，中间件102将合成的语音文件个数、第一个语音文件的名称以及存储路径响应给互动式语音应答模块101，互动式语音应答模块101根据存储路径确定出语音文件的存储位置，从第一个语音文件开始，基于各语音文件被合成的时间顺序依次播放存储位置中的各语音文件。对于步骤s307中的4个语音文件，互动式语音应答模块101依次第一语音文件、第二语音文件、第三语音文件和第四语音文件。应当说明的是，若互动式语音应答模块101在存储位置未能读取到语音文件时将进行短暂等待，直至获取到合成的文件或者响应超时。可选地，如图1所述，互动式语音应答模块101将语音文件播放给通话设备400，客户在通过通话设备400收听语音。通话设备400可以是手机和座机电话等设备。

应当说明的是，互动式语音应答模块101在播放当前的语音文件的同时，语音合成服务器200可以合成后续子文字段进行语音合成以形成语音文件。同样地，互动式语音应答模块101将当前的待合成文字段全部合成对应的语音文件后，无论该的语音文件是否已经播放完成，互动式语音应答模块101都可以继续进行下一个待合成文字段的语音合成，这在总体上减少了对语音合成通路的整体占用时间，可以提高智能外呼系统语音合成能力的利用率。而且，客户在收听语音文件时，对后续的多个子文字段的语音合成是没有感知的，不会影响客户体验。

基于同一发明构思，本申请实施例还提供了一种外呼平台100，如图1所示，外呼平台100包括互动式语音应答模块101和中间件102。互动式语音应答模块101和中间件102分别执行本申请上述实施例提供的外呼系统的语音合成方法中对应的步骤。

在本申请的一个实施例中，互动式语音应答模块101接收待合成文字段，将待合成文字段发送至中间件102。中间件102将待合成文字段切分成第一数量的单位文字段，并将第一数量的单位文字段发送至语音合成服务器200，使得语音合成服务器200基于各单位文字段在待合成文字段中的位置顺序，将第一数量的单位文字段合并成第二数量的子文字段。互动式语音应答模块101基于各语音文件被合成的时间顺序，依次播放被语音合成服务器200合成的各语音文件。

在本申请的一个实施例中，中间件102以待合成文字段中的标点符号作为切分位置，将待合成文字段切分成第一数量的单位文字段。

在本申请的一个实施例中，互动式语音应答模块101根据中间件102提供的存储路径确定出语音文件的存储位置，根据中间件102提供的文件名称确定出第一个语音文件；互动式语音应答模块101从第一个语音文件开始，基于各语音文件被合成的时间顺序依次播放存储位置中的各语音文件。

本申请实施例提供的外呼平台100，与前面所述的各实施例具有相同的发明构思，该外呼平台100中未详细示出的内容可参照前面所述的各实施例，在此不再赘述。

基于同一发明构思，本申请实施例还提供了一种语音合成服务器200，如图3所示，语音合成服务器200包括存储器203和处理器201，处理器201分别与存储器203和外呼平台100通信连接。

存储器203存储有计算机程序，计算机程序由处理器201执行时，实现本申请上述实施例中语音合成服务器200所执行的外呼系统的语音合成方法。

可选地，处理器201和存储器203可以通过总线202相连。可选的，语音合成服务器200还可以包括收发器204。需要说明的是，实际应用中收发器204不限于一个，该语音合成服务器200的结构并不构成对本申请实施例的限定。

处理器201应用于本申请实施例中，用于实现上述方法实施例所示的方法。收发器204可以包括接收机和发射机，收发器204应用于本申请实施例中，用于执行时实现本申请实施例的语音合成服务器200与其他设备通信的功能。

处理器201可以是cpu(centralprocessingunit，中央处理器)，通用处理器，dsp(digitalsignalprocessor，数据信号处理器)，asic(applicationspecificintegratedcircuit，专用集成电路)，fpga(fieldprogrammablegatearray，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器201也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等。

总线20²可包括一通路，在上述组件之间传送信息。总线202可以是pci(peripheralcomponentinterconnect，外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture，扩展工业标准结构)总线等。总线202可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器203可以是rom(readonlymemory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，ram(randomaccessmemory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是eeprom(electricallyerasableprogrammablereadonlymemory，电可擦可编程只读存储器)、cd-rom(compactdiscreadonlymemory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。

本申请实施例提供的语音合成服务器200，与前面所述的各实施例具有相同的发明构思，该语音合成服务器200中未详细示出的内容可参照前面所述的各实施例，在此不再赘述。

基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本申请上述实施例中由外呼平台100所执行的外呼系统的语音合成方法。

本申请提供的上述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom、ram、eprom(erasableprogrammableread-onlymemory，可擦写可编程只读存储器)、eeprom、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本申请实施例提供的计算机可读存储介质，与前面所述的各实施例具有相同的发明构思，该计算机可读存储介质中未详细示出的内容可参照前面所述的各实施例，在此不再赘述。

基于同一发明构思，本申请实施例还提供了另一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本申请上述实施例中由语音合成服务器200所执行的外呼系统的语音合成方法。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

应该理解的是，虽然附图的流程图中的各个步骤基于箭头的指示依次显示，但是这些步骤并不是必然基于箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。