一种混合播报方法、装置、设备及存储介质与流程

2021-01-28 13:01:46|

229|

起点商标网

本发明实施例涉及语音处理技术领域，尤其涉及一种混合播报方法、装置、设备及存储介质。

背景技术：

为了通过语音给用户提供交互内容，在语音交互系统中，通常采用从文本到语音(texttospeech，tts)技术进行合成播报，满足用户多变的反馈需求。

tts技术分为在线和离线，其中，在线tts通过云端服务器进行合成；离线tts通过本地终端进行合成。基于云端服务器的运算能力强以及存储空间大等优势，在线tts可以采用更优质的算法，合成音质更好且贴近真人播报的tts音频。而本地终端运算能力与存储能力远低于云端服务器，受限于此，离线tts无法采用与云端服务器相同的算法，合成的tts音频音效不如在线tts。但是，离线tts可以不考虑网络条件，实现稳定的tts合成播报。

为了能够提供更好音效的语音播报并保证播报的稳定性，现有技术采用在线和离线融合的方案。其策略是优先使用在线tts，若在线tts不可用或超时，则使用离线tts。然而，现有技术的融合方案粗糙，离线播报时存在时延，且无法与在线tts无缝衔接，用户体验差。

技术实现要素：

本发明实施例提供了一种混合播报方法、装置、设备及存储介质，可以提高语音播报的稳定性，在在线播报异常时，可以使离线播报在播报时间与播报进度上进行无缝衔接。

第一方面，本发明实施例提供了一种混合播报方法，该方法包括：

获取在线流式音频并对所述在线流式音频进行语音播报；

判断所述在线流式音频在播报过程中是否出现异常中断；若是，则停止播报所述在线流式音频，并获取异常播报点；

在离线流式音频中，确定与所述异常播报点匹配的第一起始播报位置；

以所述第一起始播报位置为播报起点，对离线流式音频进行继续播报。

第二方面，本发明实施例还提供了一种混合播报装置，该装置包括：

第一语音播报模块，用于获取在线流式音频并对所述在线流式音频进行语音播报；

异常播报点获取模块，用于判断所述在线流式音频在播报过程中是否出现异常中断；若是，则停止播报所述在线流式音频，并获取异常播报点；

播报位置确定模块，用于在离线流式音频中，确定与所述异常播报点匹配的第一起始播报位置；

第二语音播报模块，用于以所述第一起始播报位置为播报起点，对离线流式音频进行继续播报。

第三方面，本发明实施例还提供了一种电子设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的一种混合播报方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的一种混合播报方法。

本发明实施例的技术方案，通过获取在线流式音频并对在线流式音频进行语音播报；如果确定在线流式音频在播报过程中出现异常中断，则停止播报在线流式音频，并获取异常播报点；在离线流式音频中，确定与异常播报点匹配的第一起始播报位置；以第一起始播报位置为播报起点，对离线流式音频进行继续播报，解决了语音播报不稳定的问题，实现了提高语音播报稳定性，降低语音播报中在线转离线的时延，并在播报内容上进行无缝衔接的效果。

附图说明

图1是本发明实施例一提供的一种混合播报方法的流程图；

图2是本发明实施例二提供的一种混合播报方法的流程图；

图3是本发明实施例三提供的一种混合播报方法的流程图；

图4是本发明实施例三提供的一种混合播报方法的流程图；

图5是本发明实施例四提供的一种混合播报装置的结构示意图；

图6是本发明实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种混合播报方法的流程图，本实施例可适用于车载语音交互系统中，在线tts播报异常时采用离线tts进行播报的情况，该方法可以由混合播报装置来执行，该装置可以通过软件，和/或硬件的方式实现，装置可以集成在电子设备如车载终端中，如图1所示，该方法具体包括：

步骤110、获取在线流式音频并对在线流式音频进行语音播报。

其中，在线流式音频为服务器根据播报文本生成并下发的音频。服务器可以是云端服务器。车载终端可以通过网络将播报文本发送至服务器。服务器中可以设置优质的文本转换语音算法，可以通过tts技术将播报文本转换为在线流式音频。服务器在将播报文本转换为在线流式音频时，可以设置发音人，比如模拟某明星的声音生成在线流式音频。服务器在将播报文本转换为在线流式音频时，还可以设置语速、音量以及一些音频标记等。服务器下发音频至车载终端的方式可以是实时下发，边合成音频边进行下发。车载终端对在线流式音频的播报可以是实时播报。

步骤120、判断在线流式音频在播报过程中是否出现异常中断；若是，则停止播报在线流式音频，并获取异常播报点。

其中，异常中断是指在在线流式音频在未播放结束时的中断，例如由于网络原因造成的超时或卡顿等。

为了便于获取异常播报点，在本发明实施例的一个具体实施方式中，在线流式音频中可以存在音频标记，如播报时间标记，或者播报字符次序标记等。车载终端在对在线流式音频进行语音播报时，可以同步记录播报时间或者播报字符次序，可以便于精准确定在线流式音频的异常播报点，如异常中断时的播报时间、播报字符次序或正在播报哪一字符；其中，正在播报哪一字符可以根据播报时间或播报字符次序进一步确定。

在本发明实施例的另一个具体实施方式中，车载终端中可以设置收音设备如麦克风，可以对麦克风获取的声音进行语音识别，确定异常播报点。

步骤130、在离线流式音频中，确定与异常播报点匹配的第一起始播报位置。

其中，离线流式音频为终端根据播报文本离线生成的音频。终端可以是车载终端。车载终端在生成离线流式音频时可以是与服务器生成在线流式音频同步进行的。可以保证在线流式音频异常中断，需要切换离线流式音频时，存在缓存的离线流式音频。可以避免在线流式音频异常中断时，需要先生成离线流式音频再播报，造成时延的情况。

进一步的，为了在线流式音频在播报前几个字出现异常中断，而离线流式音频未完成整段话的音频合成的情况。在本发明实施例的一个具体实施方式中，可以将播报文本进行拆分，对拆分的播报文本分别生成音频段并进行标记。对各音频段可以缓存，并根据音频段的生成情况不断补充缓存，可以提升离线流式音频生成的速度。而不至于播报文本过长，造成生成离线流式音频所需时间长，在线流式音频在播报前几个字出现异常中断时，离线流式音频还未生成的情况。

示例性的，对于播报文本“今天天气是阴转多云”，车载终端可以拆分为“今天天气是”和“阴转多云”。车载终端对于“今天天气是”可以生成音频1并标记为1，可以生成缓存文件，缓存文件中包含音频1；对于“阴转多云”可以生成音频2并标记2，并在缓存文件中进行补充，缓存文件中包含音频1和音频2。拆分的播报文本可以采用串行方式生成音频，可以减轻车载终端的负担；或者，也可以采用并行方式生成音频，可以进一步提升离线流式音频的生成速度。

在本实施例中，车载终端根据异常播报点确定匹配的离线流式音频的第一起始播报位置的方式可以是多样的。可以对在线流式音频和离线流式音频进行同步播放，在线流式音频播放正常时，离线流式音频可以采用静音方式播放；而在线流式音频播放异常时，可以停止播放在线流式音频，采用非静音方式播放离线流式音频。可以采用相同音量播放离线流式音频。静音方式与非静音方式的临界点即为离线流式音频的第一起始播报位置。

或者，车载终端可以将异常中断时的播报时间、播报字符次序或正在播报哪一字符与离线流式音频进行对应，确定离线流式音频中的目标播报时间、目标播报字符次序或者目标字符，将目标播报时间、目标播报字符次序或者目标字符作为离线流式音频的第一起始播报位置。

为了使车载终端可以根据异常播报点准确对离线流式音频进行继续播报，在本实施例中，可选的，在线流式音频与离线流式音频分别为服务器和终端采用相同音频生成参数所生成的音频。其中，音频生成参数可以包括发音人(例如模拟某明星的声音)、语速以及音频标记等。

步骤140、以第一起始播报位置为播报起点，对离线流式音频进行继续播报。

其中，对于离线流式音频的播报可以采用与在线流式音频播报相同的音量，可以达到对在线流式音频播报进行无缝衔接，保证播报稳定的效果。

本实施例的技术方案，通过获取在线流式音频并对在线流式音频进行语音播报；如果确定在线流式音频在播报过程中出现异常中断，则停止播报在线流式音频，并获取异常播报点；在离线流式音频中，确定与异常播报点匹配的第一起始播报位置；以第一起始播报位置为播报起点，对离线流式音频进行继续播报，解决了语音播报不稳定的问题，实现了提高语音播报稳定性，降低语音播报中在线转离线的时延，并在播报内容上进行无缝衔接的效果。

实施例二

图2是本发明实施例二提供的一种混合播报方法的流程图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合，如图2所示，该方法包括：

步骤210、获取在线流式音频并对在线流式音频进行语音播报。

其中，在线流式音频为服务器根据播报文本生成并下发的音频。在在线流式音频中标注有播报文本中的每个字符在音频中的起止时刻。

步骤220、同步记录在线流式音频的实时语音播报时间。

其中，语音播报时间的开始时刻与在线流式音频的开始时刻一致。在线流式音频的开始时刻可以分至少两种情况进行说明。例如，在线流式音频在先没有被播报过，即从头对在线流式音频进行播报，在线流式音频的开始时刻可以是启动在线流式音频的时刻，可以是0；或者，在线流式音频的开始时刻可以是不包括启动时间，可以是第一个字符的播报时刻，如“今天天气是阴转多云”中“今”的开始时刻，如120毫秒。

又如，在线流式音频在先被播报过，即从在线流式音频的某一中间位置进行继续播报，在线流式音频的开始时刻可以是在线流式音频中播报开始的字符所对应的开始时刻，如“今天天气是阴转多云”中“天”的开始时刻，如175毫秒。

同步记录在线流式音频的实时语音播报时间，可以同步记录在线流式音频的播报进度。在线流式音频可以是根据语音播报速度确定，可以根据记录的语音播报时间以及在线流式音频中标注的字符的起止时刻确定当前语音播报时刻播报的字符。例如，语音播报时间的当前语音播报时刻为160毫秒，在线流式音频中“今”的结束时刻为160毫秒，“天”的开始时刻为175毫秒，车载终端可以确定当前在线流式音频的播报处于“今”与“天”的播报间隔之间，即将播放“天”。

步骤230、判断在线流式音频在播报过程中是否出现异常中断；若是，则停止播报在线流式音频，并获取异常播报点；根据异常播报点以及记录的实时语音播报时间，确定异常播报点对应的第一目标音频时刻。

其中，异常播报点对应的第一目标音频时刻可以是通过同步记录的在线流式音频的实时语音播报时间确定的。例如，异常播报点时，实时语音播报时间对应的时刻为180毫秒，可以将180毫秒作为异常播报点对应的第一目标音频时刻。通过同步记录在线流式音频的实时语音播报时间，便于根据当前的语音播报时刻确定异常播报点对应的第一目标音频时刻。在语音播报时间与在线流式音频中各字符播报的起止时刻能够对齐的情况下，异常播报点的第一目标音频时刻的确定是非常准确，便于离线流式音频与在线流式音频的无缝衔接。其中，语音播报时间与在线流式音频中各字符播报的起止时刻对齐是指，记录的语音播报时间是在字符的开始时刻对该字符开始进行播报，在该字符的结束时刻对该字符结束播报。

步骤240、根据异常播报点对应的第一目标音频时刻，以及在线流式音频中各字符在音频中的起止时刻，确定异常播报点对应的第一目标字符。

为了精准确定在线流式音频的异常播报点以及第一起始播报位置，便于离线流式音频对在线流式音频进行无缝隙衔接，在本发明实施例的一个实施方式中，可选的，在在线流式音频与离线流式音频中，分别标注有播报文本中的每个字符在音频中的起止时刻。

其中，起止时刻是指字符在语音播报时的开始时刻和结束时刻。示例性的，播报文本为“今天天气是阴转多云”，在线流式音频中“今”的开始时刻为120毫秒，结束时刻为160毫秒；“天”的开始时刻是175毫秒，结束时刻为190毫秒等。车载终端在播放在线流式音频时可以按照起止时刻对各字符进行播报，如在160毫秒开始播报“今”。车载终端也可以根据播报时刻以及起止时刻确定当前播报字符，例如播报时刻为175毫秒，“天”的起止时刻为175毫秒和190毫秒，可以确定当前播报字符为“天”。

需要说明的是，上述确定当前播报字符的方式是通过语音播报时间以及字符的起止时刻确定的，因此，即便播报文本中存在相同字符也不会存在确认失误。例如，上述例子中，通过语音播报时间与起止时刻可以精确确定播报时间为175毫秒时，当前播报字符为175毫秒至190毫秒的“天”(第一个“天”)，而非190毫秒之后的“天”(第二个“天”)。

其中，在线流式音频与离线流式音频分别为服务器和终端采用相同音频生成参数所生成的音频；在在线流式音频与离线流式音频中，分别标注有播报文本中的每个字符在音频中的起止时刻。

在线流式音频异常中断时，车载终端可以记录异常播报点对应的语音播放时间的异常播报时刻作为第一目标音频时刻。第一目标音频时刻可以是语音播放时刻在在线流式音频中时间标记的体现。确定第一目标字符的过程可以是通过第一目标音频时刻与在线流式音频中各字符在音频中的起止时刻进行比对，确定第一目标音频时刻与哪一字符的起止时刻对应，将该字符作为第一目标字符。

示例性的，播报文本为“今天天气是阴转多云”，其中“今”的开始时刻为120毫秒，结束时刻为160毫秒；“天”的开始时刻为175毫秒，结束时刻为190毫秒。例如，异常播报点的异常播报时刻为180毫秒，第一目标音频时刻为180毫秒，处于在线流式音频的175毫秒与190毫秒之间，可以确定第一目标字符为“天”。又如，异常播报点的异常播报时刻为170毫秒，第一目标音频时刻为170毫秒，处于在线流式音频的160毫秒与175毫秒之间，此时“今”已播报完毕，可以确定第一目标字符为“天”。再如，异常播报点的异常播报时刻为175毫秒，第一目标音频时刻为175毫秒，处于在线流式音频“天”播报开始的临界处，可以确定第一目标字符为“天”。

步骤250、将第一目标字符作为在离线流式音频中与异常播报点匹配的第一起始播报位置。

例如，车载终端可以确定第一目标字符为“天”并根据“天”的起止时刻以及第一目标音频时刻，确定“天”的开始时刻为异常播报点匹配的起始播报位置。示例性的，异常播报点的异常播报时刻为180毫秒，第一目标音频时刻为180毫秒，第一目标字符为“天”，“天”尚未播报完整，可以将离线流式音频“天”的开始时刻175毫秒作为第一起始播报位置。

步骤260、以第一起始播报位置为播报起点，对离线流式音频进行继续播报。

其中，车载终端确定离线流式音频的第一起始播报位置后，可以跟从第一起始播报位置开始，采用与在线流式音频相同的播报参数如音量等对离线流式音频进行继续播报，可以使离线流式音频与在线流式音频进行无缝衔接，并且可以节省车载终端的内存，而无需离线流式音频与在线流式音频进行同步播报。

本实施例的技术方案，通过获取在线流式音频并对在线流式音频进行语音播报；同步记录所述在线流式音频的实时语音播报时间；如果确定在线流式音频在播报过程中出现异常中断，则停止播报在线流式音频，并获取异常播报点；根据异常播报点对应的第一目标音频时刻，以及在线流式音频中各字符在音频中的起止时刻，确定异常播报点对应的第一目标字符；将第一目标字符作为在离线流式音频中与异常播报点匹配的第一起始播报位置；以起始播报位置为播报起点，对离线流式音频进行继续播报，解决了语音播报不稳定的问题，实现了提高语音播报稳定性，降低语音播报中在线转离线的时延，并在播报内容上进行无缝衔接的效果。

实施例三

图3是本发明实施例三提供的一种混合播报方法的流程图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合，如图3所示，该方法包括：

步骤310、获取在线流式音频并对在线流式音频进行语音播报。

其中，在线流式音频为服务器根据播报文本生成并下发的音频。

步骤320、同步记录在线流式音频的实时语音播报时间。

其中，语音播报时间的开始时刻与在线流式音频的开始时刻一致。在线流式音频与离线流式音频分别为服务器和终端采用相同音频生成参数所生成的音频；在在线流式音频与离线流式音频中，分别标注有播报文本中的每个字符在音频中的起止时刻。

其中，对离线流式音频的播放时间标注可以是车载终端接收服务器对在线流式音频的标注结果，对应的作为离线流式音频的标注结果；或者，可以是车载终端与服务器中存储有相同的标注算法，分别对离线流式音频与在线流式音频进行相同的标注。

步骤330、如果确定在线流式音频在播报过程中出现异常中断，则停止播报在线流式音频，并获取异常播报点；根据异常播报点以及记录的实时语音播报时间，确定异常播报点对应的第一目标音频时刻。

步骤340、根据异常播报点对应的第一目标音频时刻，以及在线流式音频中各字符在音频中的起止时刻，确定异常播报点对应的第一目标字符。

步骤350、将第一目标字符作为在离线流式音频中与异常播报点匹配的第一起始播报位置。

步骤360、确定第一起始播报位置对应的第一起始音频时刻与异常播报点对应的第一目标音频时刻的前后关系。

其中，第一起始音频时刻可以是第一起始播报位置在离线流式音频中对应的音频时间。例如，播报文本为“今天天气是阴转多云”，目标字符为“天”，离线流式音频“天”的开始时刻175毫秒作为第一起始播报位置，第一起始音频时刻为175毫秒。前后关系是指第一起始音频时刻与第一目标音频时刻在时间轴上的先后顺序。

示例性的，第一目标音频时刻为180毫秒，第一起始音频时刻175毫秒，第一起始音频时刻在第一目标音频时刻之前。第一目标音频时刻为170毫秒，第一起始音频时刻175毫秒，第一起始音频时刻在第一目标音频时刻之后。第一目标音频时刻为175毫秒，第一起始音频时刻175毫秒，第一起始音频时刻与第一目标音频时刻相同。

步骤370、根据前后关系对离线流式音频进行继续播报。

其中，为了提高用户在听觉上的体验，可以根据第一起始音频时刻与第一目标音频时刻的前后关系确定不同的播放方式对离线流式音频进行播放。例如，第一起始音频时刻在第一目标音频时刻之前时，可以采用静音播放或者低音量播放第一起始音频时刻与第一目标音频时刻对应的离线流式音频，可以使用户听到完整的目标字符，而不存在重复。

为了具体说明本实施例中根据前后关系对离线流式音频进行继续播报的方案，在本发明实施例的一个实施方式中，可选的，根据前后关系对离线流式音频进行继续播报，包括：如果第一起始音频时刻在第一目标音频时刻之前，则在第一起始音频时刻与第一目标音频时刻对应的目标播放时间段内，采用静音播放方式对离线流式音频进行继续播报；在目标播放时间段后，采用非静音播放方式对离线流式音频进行继续播报。

其中，以第一目标音频时刻为180毫秒，第一起始音频时刻为175毫秒，第一起始音频时刻在第一目标音频时刻之前为例，目标播放时间段可以是175毫秒至180毫秒。对离线流式音频可以从175毫秒对应的音频开始播报，在播报的前180-175＝5毫秒内采用静音播报方式。静音播报方式可以是完全静音或者音量很低以达到用户无法辨识的效果。在离线流式音频播报开始5毫秒之后，采用非静音播报方式继续播报离线流式音频。非静音播报方式可以是与在线流式音频播报时的音量相同，可以达到与在线流式音频相同音量的播放效果，并且对离线流式音频的播报不会出现重复播报已经播过的声音，用户可以听到一个完整的没有重复播报的目标字符。

示例性的，第一目标音频时刻为180毫秒，第一起始音频时刻为175毫秒，目标字符为“天”。对“天”的播报可以具体分为“t”、“i”和“an”，在线流式音频在180毫秒时异常中断，已经播报了“t”。离线流式音频从175毫秒开始播报，会继续播报“t”，而如果在离线流式音频播报的前5毫秒采用静音方式播报，用户不会重复听到“t”，而可以听到完整的“t”、“i”和“an”。

在本发明实施例的一个实施方式中，可选的，根据前后关系对离线流式音频进行继续播报，包括：如果第一起始音频时刻在第一目标音频时刻之后，或者第一起始音频时刻与第一目标音频时刻相同，则采用非静音播放方式对离线流式音频进行继续播报。

其中，第一起始音频时刻在第一目标音频时刻之后，或者第一起始音频时刻与第一目标音频时刻相同时，不会存在离线流式音频播报在线流式音频已经播报过的声音，因此，对离线流式音频的播报可以采用非静音播报方式。

在上述实施方式的基础上，可选的，在对离线流式音频进行继续播报时，还包括：如果在线流式音频恢复，停止播报离线流式音频，并确定离线流式音频的当前播报点；根据当前播报点，对在线流式音频进行继续播报。

其中，离线流式音频的当前播报点的确认方式可以与在线流式音频的异常播报点的确认方式类似，例如，通过播报时间标记、播报字符次序标记或者目标字符的确认等方式，这里不再赘述。

在本实施例的一个实施方式中，可选的，在对离线流式音频进行继续播报时，同步记录离线流式音频的实时语音播报时间，其中，语音播报时间的开始时刻与离线流式音频的起始音频时刻一致。

其中，离线流式音频的实时语音播报时间可以是在对在线流式音频的实时语音播报时间记录的基础上进行更新记录，可以作为同一分语音播报时间进行记录。语音播报时间的开始时刻与离线流式音频的起始音频时刻一致，可以是根据离线流式音频的起始音频时刻更新语音播报时间中离线流式音频开始播报时对应的语音播报时刻。

示例性的，离线流式音频的起始音频时刻为175毫秒，实时语音播报时间在离线流式音频开始播报之前在对在线流式音频进行时间记录。因此，实时语音播报时间在离线流式音频的开始播报时，可能不为175毫秒，例如为180毫秒。可以将实时语音播报时间中与离线流式音频开始播报对应的时刻(开始时刻)更新为175毫秒，可以保持实时语音播报时间与当前离线流式音频播报时，离线流式音频中字符的起止时刻对齐。

在一个具体示例中，实时语音播报时间可以是…，120，…180，175，…。其中，180，175可以表示实时语音播报时间存在更新点(变更点)，可以确定存在在线流式音频与离线流式音频的播报转换。在一些情况下，可以根据播报转换的次数，对网络或者车载语音交互系统进行检修。

在本实施例的一个可选实施方式中，确定离线流式音频的当前播报点，包括：根据当前播报点以及记录的实时语音播报时间，确定当前播报点对应的第二目标音频时刻；根据当前播报点，对在线流式音频进行继续播报，包括：根据当前播报点对应的第二目标音频时刻，以及离线流式音频中各字符在音频中的起止时刻，确定当前播报点对应的第二目标字符；将第二目标字符作为在在线流式音频中与当前播报点匹配的第二起始播报位置；确定第二起始播报位置对应的第二起始音频时刻与当前播报点对应的第二目标音频时刻的前后关系；根据前后关系对在线流式音频进行继续播报。其中，第二目标音频时刻、第二目标字符以及第二起始播报位置的具体确定过程可以分别与第一目标音频时刻、第一目标字符以及第一起始播报位置类似，这里不再赘述。

根据第二起始音频时刻与第二目标音频时刻的前后关系确定播报方式的过程可以与根据第一起始音频时刻与第一目标音频时刻的前后关系确定播报方式类似，这样不再赘述。

需说明的是，在本实施例中，因为离线流式音频可以进行稳定播报，所以可以在在线流式音频恢复后可以不立即对离线流式音频进行切换。示例性的，可以等待在线流式音频稳定后再切换，例如，可以在离线流式音频播放完一个完整的字符时，在字符的间隙时切换为在线流式音频。并对实时语音播报时间进行更新。更新过程可以与前述的切换为离线流式音频时语音播报时间的更新类似，可以将第二起始音频时刻作为实时语音播报时间的开始时刻，这里不再赘述。

本实施例的技术方案，通过确定起始播报位置对应的第一起始音频时刻与异常播报点对应的第一目标音频时刻的前后关系；根据前后关系对离线流式音频进行继续播报；在在线流式音频恢复时，停止播报离线流式音频，并确定离线流式音频的当前播报点；根据当前播报点，对在线流式音频进行继续播报，解决了语音播报的问题，实现了不会重复进行播报，并且可以根据在线流式音频是否存在数据而进行语音播报自动切换的效果，提高了语音播报稳定性，降低语音播报中在线转离线的时延，并在播报内容上进行无缝衔接，提高用户体验。

图4是本发明实施例三提供的一种混合播报方法的流程图，如图4所示，本实施例的一个实现方式可以是：服务器与车载终端可以针对播报文本同时分别生成在线流式音频和离线流式音频；其中，生成音频时，服务器和车载终端可以采用相同音频生成参数。在在线流式音频与离线流式音频中，分别标注有播报文本中的每个字符在音频中的起止时刻。车载终端的音频播放设备如喇叭可以接收服务器生成的在线流式音频并进行播报。如果在线流式音频的播报出现异常中断，车载终端可以切换离线流式音频进行播报。在离线流式音频播报的任一环节中，车载终端可以检测在线流式音频是否恢复，如果恢复切换在线流式音频进行播报。其中，车载终端切换离线流式音频进行播报的过程可以是：确定在线流式音频的异常播报点，并确定对应的第一目标音频时刻。判断第一目标音频时刻是否在某一字符的起止时刻之间。如果是，确定该字符为第一目标字符，并从第一目标字符的头部采用静音方式播报离线流式音频；在播报到异常播报点时，采用与在线流式音频播报相同的音量继续播报离线流式音频。如果否，判断是否播报到异常播报点，如果播报到异常播报点采用与在线流式音频播报相同的音量继续播报离线流式音频。其中，在线流式音频与离线流式音频的播报切换可以根据在线流式音频的播报情况进行一次或者多次切换，本发明实施例不做具体限定。从在线流式音频切换至离线流式音频或者从离线流式音频切换至在线流式音频的过程可以是相似的。如图4所示的方法可以实现精确确定异常播报点，并精确控制离线流式音频的播报，能够在拼接时间和播报进度上达到无缝衔接，提高播报稳定性达到最佳播报效果。

实施例四

图5是本发明实施例四提供的一种混合播报装置的结构示意图。结合图5，该装置包括：第一语音播报模块510，异常播报点获取模块520，播报位置确定模块540和第二语音播报模块530。

其中，第一语音播报模块510，用于获取在线流式音频并对在线流式音频进行语音播报；

异常播报点获取模块520，用于判断在线流式音频在播报过程中是否出现异常中断；若是，则停止播报在线流式音频，并获取异常播报点；

播报位置确定模块540，用于在离线流式音频中，确定与异常播报点匹配的第一起始播报位置；

第二语音播报模块530，用于以第一起始播报位置为播报起点，对离线流式音频进行继续播报。

可选的，在线流式音频与离线流式音频分别为服务器和终端采用相同音频生成参数所生成的音频；

在在线流式音频与离线流式音频中，分别标注有播报文本中的每个字符在音频中的起止时刻。

可选的，第一语音播报模块510，包括：

第一语音播报时间记录单元，用于同步记录在线流式音频的实时语音播报时间，其中，语音播报时间的开始时刻与在线流式音频的开始时刻一致；

可选的，异常播报点获取模块520，包括：

第一音频时刻确定单元，用于根据异常播报点以及记录的实时语音播报时间，确定异常播报点对应的第一目标音频时刻。

可选的，播报位置确定模块540，包括：

第一目标字符确定单元，用于根据异常播报点对应的第一目标音频时刻，以及在线流式音频中各字符在音频中的起止时刻，确定异常播报点对应的第一目标字符；

第一起始播报位置确定单元，用于将第一目标字符作为在离线流式音频中与异常播报点匹配的第一起始播报位置。

可选的，第二语音播报模块530，包括：

第一前后关系确定单元，用于确定第一起始播报位置对应的第一起始音频时刻与异常播报点对应的第一目标音频时刻的前后关系；

语音播报单元，用于根据前后关系对离线流式音频进行继续播报。

可选的，语音播报单元，具体用于：

如果第一起始音频时刻在第一目标音频时刻之前，则在第一起始音频时刻与第一目标音频时刻对应的目标播放时间段内，采用静音播放方式对离线流式音频进行继续播报；

在目标播放时间段后，采用非静音播放方式对离线流式音频进行继续播报。

可选的，语音播报单元，还具体用于：

如果第一起始音频时刻在第一目标音频时刻之后，或者第一起始音频时刻与第一目标音频时刻相同，则采用非静音播放方式对离线流式音频进行继续播报。

可选的，该装置，还包括：

当前播报点确定模块550，用于在对离线流式音频进行继续播报时，如果在线流式音频恢复，停止播报离线流式音频，并确定离线流式音频的当前播报点；

第三语音播报模块560，用于根据当前播报点，对在线流式音频进行继续播报。

可选的，第二语音播报模块530，包括：

第二语音播报时间记录单元，用于同步记录离线流式音频的实时语音播报时间，其中，语音播报时间的开始时刻与离线流式音频的起始音频时刻一致。

可选的，当前播报点确定模块550，包括：

第二目标音频时刻确定单元，用于根据所述当前播报点以及记录的实时语音播报时间，确定所述当前播报点对应的第二目标音频时刻。

可选的，第三语音播报模块560，包括：

第二目标字符确定单元，用于根据当前播报点对应的第二目标音频时刻，以及离线流式音频中各字符在音频中的起止时刻，确定当前播报点对应的第二目标字符；

第二起始播报位置确定单元，用于将第二目标字符作为在在线流式音频中与当前播报点匹配的第二起始播报位置；

第二前后关系确定单元，用于确定第二起始播报位置对应的第二起始音频时刻与当前播报点对应的第二目标音频时刻的前后关系；

第三语音播报单元，用于根据前后关系对在线流式音频进行继续播报。

本发明实施例所提供的混合播报装置可执行本发明任意实施例所提供的混合播报方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6是本发明实施例五提供的一种电子设备的结构示意图，如图6所示，该设备包括：

一个或多个处理器610，图6中以一个处理器610为例；

存储器620；

所述设备还可以包括：输入装置630和输出装置640。

所述设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器620作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种混合播报方法对应的程序指令/模块(例如，附图5所示的第一语音播报模块510，异常播报点获取模块520，播报位置确定模块540和第二语音播报模块530)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种混合播报方法，即：

获取在线流式音频并对所述在线流式音频进行语音播报；

判断所述在线流式音频在播报过程中是否出现异常中断；若是，则停止播报所述在线流式音频，并获取异常播报点；

在离线流式音频中，确定与所述异常播报点匹配的第一起始播报位置；

以所述第一起始播报位置为播报起点，对离线流式音频进行继续播报。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

实施例六

本发明实施例六提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种混合播报方法：

获取在线流式音频并对所述在线流式音频进行语音播报；

判断所述在线流式音频在播报过程中是否出现异常中断；若是，则停止播报所述在线流式音频，并获取异常播报点；

在离线流式音频中，确定与所述异常播报点匹配的第一起始播报位置；

以所述第一起始播报位置为播报起点，对离线流式音频进行继续播报。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除