HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音朗读文字信息的方法、系统、计算机设备及存储介质与流程

2021-01-28 16:01:38|323|起点商标网
语音朗读文字信息的方法、系统、计算机设备及存储介质与流程

本公开涉及通信技术领域,尤其涉及一种语音朗读文字信息的方法、系统、计算机设备及计算机可读存储介质。



背景技术:

由于文字信息通常需要人集中注意力去读,经常有不方便查看文字短信的情况,比如开车时、运动中,而对于有视觉障碍人士、老年人等也不方便查看文字短信。虽然目前有些车载系统可以连接到手机,当手机收到短信息会采用读音阅读手机短信,但是这种语音朗读文字信息的方法需要用户声控操作,且阅读的声音比较生硬,没有情感,缺乏亲和力,体验有待提高。

因此,提出一种无需声控操作即可采用个性化语音来朗读文字信息的方案是目前亟待解决的问题。



技术实现要素:

为了至少部分解决现有技术中存在的技术问题而完成了本公开。

根据本公开实施例的一方面,提供一种语音朗读文字信息的方法,应用于通信管理平台,所述方法包括:

接收发信方用户终端发送的发信方用户编辑完的文字信息和收发信双方用户的身份标识;

将所述文字信息发送至边缘服务器,以使边缘服务器将所述文字信息转换成具有发信方用户声纹特征的音频;

接收边缘服务器发送的所述音频;以及,

根据收发信双方用户的身份标识与收信方用户终端建立通信连接,并在连接成功后播放所述音频。

根据本公开实施例的另一方面,提供一种语音朗读文字信息的方法,应用于边缘服务器,所述方法包括:

接收通信管理平台发送的文字信息,其中所述文字信息是通信管理平台从发信方用户终端处接收的、由发信方用户编辑完的文字信息;

将所述文字信息转换成具有发信方用户声纹特征的音频;以及,

将所述音频发送至通信管理平台,以使通信管理平台根据收发信双方用户的身份标识与收信方用户终端建立通信连接,并在连接成功后播放所述音频。

根据本公开实施例的又一方面,提供一种语音朗读文字信息的系统,所述系统包括通信管理平台,所述通信管理平台包括:

第一接收模块,其设置为接收发信方用户终端发送的发信方用户编辑完的文字信息和收发信双方用户的身份标识;

转发模块,其设置为将所述文字信息发送至边缘服务器,以使边缘服务器将所述文字信息转换成具有发信方用户声纹特征的音频;

所述第一接收模块还设置为,接收边缘服务器发送的所述音频;以及,

通信模块,其设置为根据收发信双方用户的身份标识与收信方用户终端建立通信连接,并在连接成功后播放所述音频。

根据本公开实施例的再一方面,提供一种语音朗读文字信息的系统,所述系统包括边缘服务器,所述边缘服务器包括:

第二接收模块,其设置为接收通信管理平台发送的文字信息,其中所述文字信息是通信管理平台从发信方用户终端处接收的、由发信方用户编辑完的文字信息;以及,

转换模块,其设置为将所述文字信息转换成具有发信方用户声纹特征的音频,并将所述音频发送至通信管理平台,以使通信管理平台根据收发信双方用户的身份标识与收信方用户终端建立通信连接,并在连接成功后播放所述音频。

根据本公开实施例的还一方面,提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行前述语音朗读文字信息的方法。

根据本公开实施例的还一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行前述语音朗读文字信息的方法。

本公开的实施例提供的技术方案可以包括以下有益效果:

本公开实施例提供的语音朗读文字信息的方法,通过边缘服务器将发信方用户编辑完的文字信息转换成具有发信方用户声纹特征的音频,并在通信管理平台与收信方用户终端建立通信连接后自动向收信方用户播放所述音频,一方面在语音朗读文字信息的过程中避免了声控操作,另一方面采用符合发信方用户声纹特征的个性化语音来朗读文字信息,阅读的声音富有情感和亲和力,用户体验较好。

本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。

图1为本公开实施例提供的一种语音朗读文字信息的方法的流程示意图;

图2为本公开实施例提供的另一种语音朗读文字信息的方法的流程示意图;

图3为本公开实施例提供的一种语音朗读文字信息的系统的结构示意图;

图4为本公开实施例提供的另一种语音朗读文字信息的系统的结构示意图;

图5为本公开实施例提供的又一种语音朗读文字信息的系统的结构示意图;

图6为本公开实施例提供的计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序;并且,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互任意组合。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。

图1为本公开实施例提供的一种语音朗读文字信息的方法的流程示意图。所述语音朗读文字信息的方法应用于通信管理平台,如图1所示,所述方法包括如下步骤s101至s104。

s101.接收发信方用户终端发送的发信方用户编辑完的文字信息和收发信双方用户的身份标识,其中所述身份标识至少包括:手机号码;

s102.将所述文字信息发送至边缘服务器,以使边缘服务器将所述文字信息转换成具有发信方用户声纹特征的音频;

s103.接收边缘服务器发送的所述音频;

s104.根据收发信双方用户的身份标识与收信方用户终端建立通信连接,并在连接成功后播放所述音频。

在步骤s104中,通信管理平台以发信方用户身份向收信方用户拨打一个语音电话,当收信方用户接通后,即与收信方用户终端建立通信连接,而后通信管理平台立即播放所述音频,播放完后自动挂断。

需要说明的是,在执行上述语音朗读文字信息的相关步骤之前,还需要发信方用户在通信管理平台处定制“个性化语音朗读文字信息业务”,该业务指的是:当收信方用户不方便查看来自该发信方用户的文字短消息时,通信管理平台与边缘服务器相互协作将所述文字短消息转换成具有发信方用户声纹特征的音频,再以拨打电话的形式向收信方用户播放所述音频,从而使用该发信方用户本人的声音将所述文字短消息朗读出来。

本公开实施例中,通过边缘服务器将发信方用户编辑完的文字信息转换成具有发信方用户声纹特征的音频,并在通信管理平台与收信方用户终端建立通信连接后自动向收信方用户播放所述音频,一方面在语音朗读文字信息的过程中避免了声控操作,另一方面采用符合发信方用户声纹特征的个性化语音来朗读文字信息,阅读的声音富有情感和亲和力,用户体验较好。

在一种实施方式中,所述方法还包括如下步骤s105:

s105.将所述音频制作成语音短信,并将所述语音短信下发至收信方用户终端,方便收信方用户以后查看。

其中,所述语音短信也是采用该发信方用户本人的声音制作的。向收信方用户终端下发所述语音短信可以发生在播放所述音频的同时,也可以发生在播放所述音频之后。

在一种实施方式中,所述方法还包括如下步骤s106:

s106.根据发信方用户的身份标识采集发信方用户与其他用户的语音通话数据,得到时长超过预设的时长阈值的多个声音样本,并将所述多个声音样本发送至边缘服务器,以使边缘服务器对所述多个声音样本进行训练以得出神经网络语音模型,并将所述文字信息输入至所述神经网络语音模型中,以生成具有发信方用户声纹特征的音频。

本公开实施例中,在通信管理平台采集发信方用户的声音样本之前,还需要发信方用户对通信管理平台进行授权,以许可通信管理平台获取发信方用户与其他用户的语音通话数据,从而得到多个声音样本。具体地,在发信方用户授权以后,发信方用户与其他用户建立通话,且语音通话数据进行传输的过程中,通信管理平台获取发信方用户的语音通话数据n秒钟,并作为声音样本保存,然后将其保存的多个声音样本发送给边缘服务器。通过这种方式,通信管理平台大量采集发信方用户在通话过程中的声音样本,以供边缘服务器将所述文字信息生成具有发信方用户声纹特征的音频。

边缘服务器可通过神经网络语言方法模拟真实人类自然语言训练大量声音样本,得出符合发信方用户声纹特征的个性化语音,以便通过该发信方用户的个性化语音朗读所述文字信息。其中,边缘服务器具备收发数据、数据处理判断、对象标识、数据存储等功能。

在一种实施方式中,在步骤s102之前,所述方法还包括如下步骤s107:

s107.根据收信方用户的身份标识查询收信方用户是否处于方便查看所述文字信息的状态。

则步骤s102具体为:若查询到收信方用户处于不方便查看所述文字信息的状态,则将所述文字信息发送至边缘服务器。

在一种实施方式中,步骤s107包括如下步骤s107-1、s107-2和s107-3中的至少一个。

s107-1.根据收信方用户的身份标识向收信方用户终端下发检测指令,以使收信方用户终端接收到所述检测指令后,检测自身是否处于移动状态或者是否与车载系统(如carplay、carlife等)连接,若检测结果为收信方用户终端处于移动状态或者与车载系统连接,则向通信管理平台反馈收信方用户处于不方便查看所述文字信息的状态;

s107-2.根据收信方用户的身份标识获取收信方用户的年龄,并判断收信方用户的年龄是否大于预设的年龄阈值(如60岁),若大于预设的年龄阈值,则判定收信方用户处于不方便查看所述文字信息的状态;

s107-3.根据收信方用户的身份标识向医疗服务平台发送查询指令,以使医疗服务平台基于所述查询指令查询收信方用户是否具有视觉障碍疾病,若具有视觉障碍疾病,则向通信管理平台反馈收信方用户处于不方便查看所述文字信息的状态。其中,医疗服务平台是指具有个人健康数据等医疗信息的平台。

本公开实施例中,通信管理平台可采用上述步骤s107-1、s107-2和s107-3中的至少一个来查询收信方用户是否处于方便查看所述文字信息的状态,通信管理平台只要获得一条收信方用户处于不方便查看所述文字信息状态的查询结果,就将所述文字信息发送至边缘服务器。当然,如果通信管理平台没有获得一条收信方用户处于不方便查看所述文字信息状态的查询结果,则表明收信方用户此时方便查看所述文字信息,并直接将该文字信息下发至收信方用户终端。

图2为本公开实施例提供的另一种语音朗读文字信息的方法的流程示意图。所述语音朗读文字信息的方法应用于边缘服务器,如图2所示,所述方法包括如下步骤s201至s203。

s201.接收通信管理平台发送的文字信息,其中所述文字信息是通信管理平台从发信方用户终端处接收的、由发信方用户编辑完的文字信息;

s202.将所述文字信息转换成具有发信方用户声纹特征的音频;

s203.将所述音频发送至通信管理平台,以使通信管理平台根据收发信双方用户的身份标识与收信方用户终端建立通信连接,并在连接成功后播放所述音频。

本公开实施例中,通过边缘服务器将发信方用户编辑完的文字信息转换成具有发信方用户声纹特征的音频,并在通信管理平台与收信方用户终端建立通信连接后自动向收信方用户播放所述音频,一方面在语音朗读文字信息的过程中避免了声控操作,另一方面采用符合发信方用户声纹特征的个性化语音来朗读文字信息,阅读的声音富有情感和亲和力,用户体验较好。

在一种实施方式中,所述方法还包括如下步骤s204和s205。

s204.接收通信管理平台发送的多个声音样本,其中所述多个声音样本是通信管理平台根据发信方用户的身份标识采集发信方用户与其他用户的语音通话数据而得到的时长超过预设的时长阈值的多个声音样本;

s205.对所述多个声音样本进行训练以得出神经网络语音模型。

则步骤s202具体为:将所述文字信息输入至所述神经网络语音模型中,以生成具有发信方用户声纹特征的音频。

本公开实施例中,所述神经网络语音模型为发信方用户专属,边缘服务器将收到的所述文字信息输入至发信方用户专属的神经网络语音模型中,神经网络语音模型将所述文字信息的字符序列输入编码器中,由编码器提取出文本的顺序表示,且每个字符都被表示为一个独热向量嵌入到连续向量中,然后加入非线性变换,再加上一个dropout,以减少过度拟合,从而在本质上减少单词的发音错误。神经网络语音模型所用的解码器是基于内容注意力的tanh解码器,然后使用griffin-lim算法生成波形图,即将所述文字信息成功转换为具有发信方用户朗读语气的音频。

在一种实施方式中,步骤s205包括如下步骤s205-1至s205-3。

s205-1.分别对各个声音样本进行预处理,以形成标准化数字语音特征文件;

s205-2.分别将各个声音样本转换为语音文本,所述语音文本包括文字、语调和持续时长;

s205-3.将所述标准化数字语音特征文件和所述语音文本通过神经网络进行训练与参数拟合,以形成神经网络语音模型。

本公开实施例中,步骤s205-1对声音样本进行预处理具体为:对声音样本进行去除噪音、降维与帧结构化、插入静音帧等处理。步骤s205-3中,所述标准化数字语音特征文件作为输入集,所述语音文本作为输出集,由神经网络(如卷积网络、半隐马尔可夫网络)进行训练与参数拟合,最后形成神经网络语音模型。

需要说明的是,上述步骤的顺序只是为了说明本公开实施例而提出的一个具体实例,本公开对上述步骤的顺序不做限定,本领域技术人员在实际应用中可按需对其进行调整。

本公开实施例提供的语音朗读文字信息的方法,通过通信管理平台采集发信方用户与其他用户的语音通话数据得到时长超过预设的时长阈值的多个声音样本,再通过边缘服务器对所述多个声音样本进行训练以得出神经网络语音模型,并将所述文字信息输入至所述神经网络语音模型中,以生成具有发信方用户声纹特征的音频,然后由通信管理平台判断收信方用户是否处于不便查看文字信息的状态,如果收信方用户处于不便查看文字信息的状态,则边缘服务器将所述文字信息输入至神经网络语音模型以生成具有该用户个性化语音特征的音频,再由通信管理平台以该发信方用户的身份呼叫收信方用户并播放该段音频,同时下发一条语音信息给收信方用户,方便其以后查看,用户体验较好。

图3为本公开实施例提供的一种语音朗读文字信息的系统的结构示意图。如图3所示,所述系统包括通信管理平台3,且通信管理平台3包括:第一接收模块31、转发模块32和通信模块33。

其中,第一接收模块31设置为,接收发信方用户终端发送的发信方用户编辑完的文字信息和收发信双方用户的身份标识;转发模块32设置为,将所述文字信息发送至边缘服务器,以使边缘服务器将所述文字信息转换成具有发信方用户声纹特征的音频;第一接收模块31还设置为,接收边缘服务器发送的所述音频;通信模块33设置为,根据收发信双方用户的身份标识与收信方用户终端建立通信连接,并在连接成功后播放所述音频。

本公开实施例中,通过边缘服务器将发信方用户编辑完的文字信息转换成具有发信方用户声纹特征的音频,并在通信管理平台与收信方用户终端建立通信连接后自动向收信方用户播放所述音频,一方面在语音朗读文字信息的过程中避免了声控操作,另一方面采用符合发信方用户声纹特征的个性化语音来朗读文字信息,阅读的声音富有情感和亲和力,用户体验较好。

在一种实施方式中,通信管理平台3还包括:语音短信模块34,其设置为,将所述音频制作成语音短信,并将所述语音短信下发至收信方用户终端。

在一种实施方式中,通信管理平台3还包括:采集模块35,其设置为,根据发信方用户的身份标识采集发信方用户与其他用户的语音通话数据,得到时长超过预设的时长阈值的多个声音样本,并将所述多个声音样本发送至边缘服务器,以使边缘服务器对所述多个声音样本进行训练以得出神经网络语音模型,并将所述文字信息输入至所述神经网络语音模型中,以生成具有发信方用户声纹特征的音频。

在一种实施方式中,通信管理平台3还包括:查询模块36,其设置为,根据收信方用户的身份标识查询收信方用户是否处于方便查看所述文字信息的状态。

则转发模块32具体设置为,若查询模块36查询到收信方用户处于不方便查看所述文字信息的状态,则将所述文字信息发送至边缘服务器。

在一种实施方式中,查询模块36包括:第一查询单元、第二查询单元和第三查询单元中的至少一个。

第一查询单元设置为,根据收信方用户的身份标识向收信方用户终端下发检测指令,以使收信方用户终端接收到所述检测指令后,检测自身是否处于移动状态或者是否与车载系统连接,若检测结果为收信方用户终端处于移动状态或者与车载系统连接,则向第一查询单元反馈收信方用户处于不方便查看所述文字信息的状态;

第二查询单元设置为,根据收信方用户的身份标识获取收信方用户的年龄,并判断收信方用户的年龄是否大于预设的年龄阈值,若大于预设的年龄阈值,则判定收信方用户处于不方便查看所述文字信息的状态;

第三查询单元设置为,根据收信方用户的身份标识向医疗服务平台发送查询指令,以使医疗服务平台基于所述查询指令查询收信方用户是否具有视觉障碍疾病,若具有视觉障碍疾病,则向第三查询单元反馈收信方用户处于不方便查看所述文字信息的状态。

本公开实施例中,查询模块36可采用第一查询单元、第二查询单元和第三查询单元中的至少一个来查询收信方用户是否处于方便查看所述文字信息的状态,只要第一查询单元、第二查询单元和第三查询单元中的一者获得收信方用户处于不方便查看所述文字信息状态的查询结果,就将所述文字信息发送至边缘服务器。

图4为本公开实施例提供的另一种语音朗读文字信息的系统的结构示意图。如图4所示,所述系统包括边缘服务器4,且边缘服务器4包括:第二接收模块41和转换模块42。

其中,第二接收模块41设置为,接收通信管理平台发送的文字信息,其中所述文字信息是通信管理平台从发信方用户终端处接收的、由发信方用户编辑完的文字信息;转换模块42设置为,将所述文字信息转换成具有发信方用户声纹特征的音频,并将所述音频发送至通信管理平台,以使通信管理平台根据收发信双方用户的身份标识与收信方用户终端建立通信连接,并在连接成功后播放所述音频。

本公开实施例中,通过边缘服务器将发信方用户编辑完的文字信息转换成具有发信方用户声纹特征的音频,并在通信管理平台与收信方用户终端建立通信连接后自动向收信方用户播放所述音频,一方面在语音朗读文字信息的过程中避免了声控操作,另一方面采用符合发信方用户声纹特征的个性化语音来朗读文字信息,阅读的声音富有情感和亲和力,用户体验较好。

在一种实施方式中,第二接收模块41还设置为,接收通信管理平台发送的多个声音样本,其中所述多个声音样本是通信管理平台根据发信方用户的身份标识采集发信方用户与其他用户的语音通话数据而得到的时长超过预设的时长阈值的多个声音样本。

边缘服务器4还包括:训练模块43,其设置为,对所述多个声音样本进行训练以得出神经网络语音模型。

则转换模块42具体设置为:将所述文字信息输入至所述神经网络语音模型中,以生成具有发信方用户声纹特征的音频。

在一种实施方式中,训练模块43包括:预处理单元、转换单元和训练单元。

其中,预处理单元设置为,分别对各个声音样本进行预处理,以形成标准化数字语音特征文件;转换单元设置为,分别将各个声音样本转换为语音文本,所述语音文本包括文字、语调和持续时长;训练单元设置为,将所述标准化数字语音特征文件和所述语音文本通过神经网络进行训练与参数拟合,以形成神经网络语音模型。

基于相同的技术构思,本公开实施例相应还提供一种语音朗读文字信息的系统。如图5所示,所述系统包括:发信方用户终端1、收信方用户终端2、通信管理平台3和边缘服务器4。

其中,发信方用户终端1设置为,将发信方用户编辑完的文字信息和收发信双方用户的身份标识发送至通信管理平台3;通信管理平台3设置为,将所述文字信息发送至边缘服务器4;边缘服务器4设置为,将所述文字信息转换成具有发信方用户声纹特征的音频,并将所述音频发送至通信管理平台3;通信管理平台3还设置为,根据收发信双方用户的身份标识与收信方用户终端2建立通信连接,并在连接成功后播放所述音频。

在一种实施方式中,通信管理平台3还设置为,将所述音频制作成语音短信,并将所述语音短信下发至收信方用户终端2。

在一种实施方式中,通信管理平台3还设置为,根据发信方用户的身份标识采集发信方用户与其他用户的语音通话数据,得到时长超过预设的时长阈值的多个声音样本,并将所述多个声音样本发送至边缘服务器4;边缘服务器4还设置为,对所述多个声音样本进行训练以得出神经网络语音模型。

边缘服务器4将所述文字信息转换成具有发信方用户声纹特征的音频,具体为:边缘服务器4将所述文字信息输入至所述神经网络语音模型中,以生成具有发信方用户声纹特征的音频。

在一种实施方式中,边缘服务器4对所述多个声音样本进行训练以得出神经网络语音模型,具体为:

分别对各个声音样本进行预处理,以形成标准化数字语音特征文件;

分别将各个声音样本转换为语音文本,所述语音文本包括文字、语调和持续时长;以及,

将所述标准化数字语音特征文件和所述语音文本通过神经网络进行训练与参数拟合,以形成神经网络语音模型。

在一种实施方式中,通信管理平台3还设置为,根据收信方用户的身份标识查询收信方用户是否处于方便查看所述文字信息的状态,若查询到收信方用户处于不方便查看所述文字信息的状态,则将所述文字信息发送至边缘服务器4。

在一种实施方式中,通信管理平台3根据收信方用户的身份标识查询收信方用户是否处于方便查看所述文字信息的状态,具体为如下三种方式中的至少一种:

通信管理平台3根据收信方用户的身份标识向收信方用户终端2下发检测指令,以使收信方用户终端2接收到所述检测指令后,检测自身是否处于移动状态或者是否与车载系统连接,若检测结果为收信方用户终端2处于移动状态或者与车载系统连接,则向通信管理平台3反馈收信方用户处于不方便查看所述文字信息的状态;

通信管理平台3根据收信方用户的身份标识获取收信方用户的年龄,并判断收信方用户的年龄是否大于预设的年龄阈值,若大于预设的年龄阈值,则判定收信方用户处于不方便查看所述文字信息的状态;

通信管理平台3根据收信方用户的身份标识向医疗服务平台发送查询指令,以使医疗服务平台基于所述查询指令查询收信方用户是否具有视觉障碍疾病,若具有视觉障碍疾病,则向通信管理平台3反馈收信方用户处于不方便查看所述文字信息的状态。

本公开实施例中,通信管理平台3可采用上述三种方式中的至少一种来查询收信方用户是否处于方便查看所述文字信息的状态,通信管理平台3只要获得一条收信方用户处于不方便查看所述文字信息状态的查询结果,就将所述文字信息发送至边缘服务器4。当然,如果通信管理平台3没有获得一条收信方用户处于不方便查看所述文字信息状态的查询结果,则表明收信方用户此时方便查看所述文字信息,并直接将该文字信息下发至收信方用户终端2。

本公开实施例提供的语音朗读文字信息的系统,通过通信管理平台采集发信方用户与其他用户的语音通话数据得到时长超过预设的时长阈值的多个声音样本,再通过边缘服务器对所述多个声音样本进行训练以得出神经网络语音模型,并将所述文字信息输入至所述神经网络语音模型中,以生成具有发信方用户声纹特征的音频,然后由通信管理平台判断收信方用户是否处于不便查看文字信息的状态,如果收信方用户处于不便查看文字信息的状态,则边缘服务器将所述文字信息输入至神经网络语音模型以生成具有该用户个性化语音特征的音频,再由通信管理平台以该发信方用户的身份呼叫收信方用户并播放该段音频,同时下发一条语音信息给收信方用户,方便其以后查看,用户体验较好。

基于相同的技术构思,本公开实施例相应还提供一种计算机设备,如图6所示,所述计算机设备6包括存储器61和处理器62,所述存储器61中存储有计算机程序,当所述处理器62运行所述存储器61存储的计算机程序时,所述处理器62执行前述语音朗读文字信息的方法。

基于相同的技术构思,本公开实施例相应还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行前述语音朗读文字信息的方法。

综上所述,本公开实施例提供的语音朗读文字信息的方法、系统、计算机设备及计算机可读存储介质,通过对收发信双方用户身份识别,并大量训练已定制业务的发信方用户在与其他用户通话过程中的声音样本,使用神经网络语音训练方法分析计算得出专属于该发信方用户的神经网络语音模型,即向神经网络语音模型输入文字信息可生成具有该发信方用户个性化语音特征的音频,然后通信管理平台判断收信方用户是否处于不便查看文字信息的状态,如果收信方用户处于不便查看文字信息的状态,则由边缘服务器将所述文字信息输入至神经网络语音模型以生成具有该用户个性化语音特征的音频,再由通信管理平台以该发信方用户的身份呼叫收信方用户并播放该段音频,同时下发一条语音信息给收信方用户,方便其以后查看,用户体验较好。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips