HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音转换方法、装置和电子设备与流程

2021-01-28 12:01:13|283|起点商标网
语音转换方法、装置和电子设备与流程

[0001]
本申请涉及计算机技术领域中的语音转换、语音交互、自然语言处理、深度学习技术领域,尤其涉及一种语音转换方法、装置、电子设备和存储介质。


背景技术:

[0002]
语音转换方法可将一个用户的一段语音转换为具有目标用户的音色的一段语音,即可实现目标用户的音色的模仿。目前,相关技术中的语音转换方法需要用户提前录制语音片段,并根据用户的语音片段进行模型的训练和更新,之后根据更新后的模型进行语音转换,该方法对用户的语音录制要求较高,每次进行语音转换之前都需要更新模型,语音转换的等待时间较长,灵活性较差。


技术实现要素:

[0003]
提供了一种语音转换方法、装置、电子设备和存储介质。
[0004]
根据第一方面,提供了一种语音转换方法,包括:获取第一用户的源语音和第二用户的参照语音;从所述源语音中提取出第一语音内容信息和第一声学特征;从所述参照语音中提取出第二声学特征;将所述第一语音内容信息、所述第一声学特征和所述第二声学特征输入至预先训练好的语音转换模型中,得到重构的第三声学特征,所述预先训练好的语音转换模型根据第三用户的语音训练得到;以及根据所述第三声学特征合成目标语音。
[0005]
根据第二方面,提供了一种语音转换装置,包括:获取模块,用于获取第一用户的源语音和第二用户的参照语音;第一提取模块,用于从所述源语音中提取出第一语音内容信息和第一声学特征;第二提取模块,用于从所述参照语音中提取出第二声学特征;转换模块,用于将所述第一语音内容信息、所述第一声学特征和所述第二声学特征输入至预先训练好的语音转换模型中,得到重构的第三声学特征,所述预先训练好的语音转换模型根据第三用户的语音训练得到;以及合成模块,用于根据所述第三声学特征合成目标语音。
[0006]
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请第一方面所述的语音转换方法。
[0007]
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请第一方面所述的语音转换方法。
[0008]
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0009]
附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0010]
图1是根据本申请第一实施例的语音转换方法的流程示意图;
[0011]
图2是根据本申请第二实施例的语音转换方法的场景示意图;
[0012]
图3是根据本申请第三实施例的语音转换方法的场景示意图;
[0013]
图4是根据本申请第四实施例的语音转换方法中得到重构的第三声学特征的流程示意图;
[0014]
图5是根据本申请第四实施例的语音转换方法中获取预先训练好的语音转换模型的流程示意图;
[0015]
图6是根据本申请第一实施例的语音转换装置的框图;
[0016]
图7是根据本申请第二实施例的语音转换装置的框图;
[0017]
图8是用来实现本申请实施例的语音转换方法的电子设备的框图。
具体实施方式
[0018]
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]
图1是根据本申请第一实施例的语音转换方法的流程示意图。
[0020]
如图1所示,本申请第一实施例的语音转换方法包括:
[0021]
s101,获取第一用户的源语音和第二用户的参照语音。
[0022]
需要说明的是,本申请实施例的语音识别方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选的,执行主体可包括工作站、服务器,计算机、用户终端及其他设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
[0023]
需要说明的是,源语音为第一用户发出的、音色未被转换的一段语音,具有第一用户的音色特征,参照语音为第二用户发出的一段语音,具有第二用户的音色特征。本公开的实施例中的语音转换方法可将第一用户的源语音转换为具有第二用户的参照语音表征的第二用户的音色的一段语音,即可实现第二用户的音色的模仿。其中,第一用户、第二用户包括但不限于人、智能语音交互设备等。
[0024]
可选的,第一用户的源语音、第二用户的参照语音均可通过录制、网络传输等方式获取。
[0025]
可以理解的是,当采用录制的方式获取第一用户的源语音和/或第二用户的参照语音时,设备上具有语音采集装置,语音采集装置可为麦克风(microphone)、麦克风阵列(microphone array)等。
[0026]
或者,当采用网络传输的方式获取第一用户的源语音和/或第二用户的参照语音时,设备上具有联网装置,可通过联网装置与其他设备或者服务器进行网络传输。
[0027]
在具体实施中,本公开实施例的语音转换方法可应用于智能语音交互设备中,该智能语音交互设备可实现文章朗读、问答等功能。若某个用户想将智能语音交互设备朗读某段文字的音色替换为自己的音色,则该应用场景下,可获取智能语音交互设备朗读某段文字的源语音,并录制一段自己的参照语音。
[0028]
在具体实施中,本公开实施例的语音转换方法还可应用于某视频app
(application,应用程序),该视频app可实现影视作品的二次创作,例如,用户可将影视作品中的某段语音替换为具有某个演员的音色、语义不同的语音,则该应用场景下,用户可录制一段自己的源语音,并通过网络下载一段某个演员的参照语音。
[0029]
s102,从源语音中提取出第一语音内容信息和第一声学特征。
[0030]
本公开的实施例中,第一语音内容信息包括但不限于源语音的语音文本、语义文本,第一声学特征包括但不限于梅尔(mel)特征、梅尔倒谱系数(mel-scale frequency cepstral coefficients,mfcc)特征、感知线性预测(perceptual linear predict,plp)特征等,这里不做过多限定。
[0031]
在具体实施中,可通过语音识别模型从源语音中提取出第一语音内容信息,以及可通过声学模型从源语音中提取出第一声学特征,语音识别模型、声学模型均可根据实际情况预先设置。
[0032]
s103,从参照语音中提取出第二声学特征。
[0033]
步骤s103的具体实现过程及原理,请参照上述实施例中从源语音中提取出第一声学特征的相关内容,这里不再赘述。
[0034]
s104,将第一语音内容信息、第一声学特征和第二声学特征输入至预先训练好的语音转换模型中,得到重构的第三声学特征,预先训练好的语音转换模型根据第三用户的语音训练得到。
[0035]
本公开的实施例中,可根据第三用户的语音预先训练语音转换模型,以得到预先训练好的语音转换模型,用于根据第一语音内容信息、第一声学特征和第二声学特征,得到重构的第三声学特征。
[0036]
需要说明的是,关于第三声学特征的相关内容可参照上述实施例中第一声学特征的相关内容,这里不再赘述。
[0037]
可选的,第一声学特征、第二声学特征和第三声学特征均可为梅尔特征。
[0038]
可以理解的是,预先训练好的语音转换模型与第一用户、第二用户均无关,相较于相关技术中每次进行语音转换之前,需要用户录制较长时长的高质量语音,并根据用户录制的语音训练和更新语音转换模型,该方法中的语音转换模型预先建立,且后续不需要根据不同的用户进行训练和更新,灵活性较高,还有助于节省计算资源和存储资源,可实现即时语音转换,有助于缩短语音转换的等待时间,对用户的语音录制要求也较低。
[0039]
可以理解的是,本公开实施例的语音转换方法可适用于多语种、多音色切换等应用场景。其中,多语种应用场景指的是第一用户的源语音对应的语种与第二用户的参照语音对应的语种不同的情况,多音色切换应用场景指的是第一用户唯一,第二用户为多个的情况。
[0040]
相关技术中多语种、多音色切换等应用场景下,需要建立多个不同的语音转换模型,语音转换模型的训练和更新较为繁琐,语音转换的稳定性和流畅性较差,而本申请中仅需预先建立一个语音转换模型,且后续不需要根据不同的用户进行训练和更新,有助于提高包含普通话在内的多语种、多音色切换等应用场景下语音转换的稳定性和流畅性。
[0041]
s105,根据第三声学特征合成目标语音。
[0042]
本公开的实施例中,目标语音对应的音色特征可为第二用户的参照语音对应的音色特征,即该方法可实现第二用户的音色的模仿。
[0043]
可选的,目标语音对应的语音内容信息可为源语音的第一语音内容信息,即该方法可保留第一用户的源语音的语音内容信息。
[0044]
可选的,目标语音对应的语速、情感、节奏等特征可为源语音对应的语速、情感、节奏等特征,即该方法可保留第一用户的源语音的语速、情感、节奏等特征,有助于提升目标语音与源语音的一致性。
[0045]
可选的,可通过声码器根据第三声学模型合成目标语音。
[0046]
综上,根据本申请实施例的语音转换方法,能够将源语音的第一语音内容信息和第一声学特征、参照语音的第二声学特征输入至预先训练好的语音转换模型中,得到并根据重构的第三声学特征合成目标语音,语音转换模型预先建立且后续无需训练和更新,灵活性较高,可实现即时语音转换,有助于缩短语音转换的等待时间,可适用于多语种、多音色切换等应用场景。
[0047]
在上述任一实施例的基础上,步骤s102中从源语音中提取出第一语音内容信息,可包括将源语音输入至预先训练好的多语种自动语音识别模型中,得到语音后验概率矩阵,将语音后验概率矩阵作为第一语音内容信息。
[0048]
需要说明的是,语音后验概率矩阵(phonetic posterior gram,ppg)可表征语音的语音内容信息,与语音的发出者无关。
[0049]
本公开的实施例中,可通过多语种自动语音识别(automatic speech recognition,asr)模型得到语音后验概率矩阵,将语音后验概率矩阵作为源语音的第一语音内容信息。其中,多语种自动语音识别模型对源语音的语种不作限制,可对多个不同语种的源语音进行语音识别,得到语音后验概率矩阵。
[0050]
在上述任一实施例的基础上,如图2所示,可从源语音中提取出第一语音内容信息和第一声学特征,从参照语音中提取出第二声学特征,并将第一语音内容信息、第一声学特征、第二声学特征输入至预先训练好的语音转换模型中,得到重构的第三声学特征,之后可根据第三声学特征合成目标语音,以实现语音转换。
[0051]
可以理解的是,语音转换模型中可包括多个网络。以图3为例,语音转换模型可包括隐变量网络、音色网络和重构网络。
[0052]
进一步地,如图4所示,步骤s104中将第一语音内容信息、第一声学特征和第二声学特征输入至预先训练好的语音转换模型中,得到重构的第三声学特征,可包括:
[0053]
s201,将第一声学特征输入至隐变量网络,得到基频能量参数。
[0054]
本公开的实施例中,隐变量网络可根据第一声学特征得到源语音的基频(fundamental frequency)和能量参数。其中,隐变量网络可根据实际情况进行设置,能量参数包括但不限于源语音的频率、振幅等,这里不做过多限定。
[0055]
可以理解的是,源语音的基频能量参数为源语音的低维度参数,可反映源语音的基频、能量等低维度特征。
[0056]
可选的,将第一声学特征输入至隐变量网络,得到基频能量参数,可包括将第一声学特征输入至隐变量网络,隐变量网络在帧尺度上对第一声学特征进行压缩,从压缩后的第一声学特征中提取基频能量参数。由此,该方法可通过压缩的方式从第一声学特征中得到基频能量参数。
[0057]
在具体实施中,假设源语音的长度为t秒,则隐变量网络可根据第一声学特征得到
一个大小为t*3的矩阵,矩阵中包括源语音的基频能量参数。
[0058]
s202,将第二声学特征输入至音色网络,得到音色参数。
[0059]
本公开的实施例中,音色网络可根据第二声学特征得到参照语音的音色参数。其中,音色网络可根据实际情况进行设置,例如,音色网络包括但不限于深度神经网络(deep neural networks,dnn)、递归神经网络(recurrent neural networks,rnn)、卷积神经网络(convolutional neural networks,cnn)等。
[0060]
可以理解的是,参照语音的音色参数可反映参照语音的音色特征。
[0061]
可选的,将第二声学特征输入至音色网络,得到音色参数,可包括将第二声学特征输入至音色网络,音色网络采用深度循环神经网络(deep recurrent neural networks,drnn)和变分自编码器(variational auto encoder,vae)对第二声学特征进行抽象,得到音色参数。由此,该方法可通过抽象的方式从第二声学特征中得到音色参数。
[0062]
在具体实施中,音色网络可根据第二声学特征得到一个1*64的矩阵,矩阵中包括参照语音的音色参数。
[0063]
s203,将第一语音内容信息、基频能量参数和音色参数输入至重构网络,得到第三声学特征。
[0064]
本公开的实施例中,重构网络可根据第一语音内容信息、基频能量参数和音色参数,得到第三声学特征。其中,关于重构网络的相关内容可参照上述实施例中音色网络的相关内容,这里不再赘述。
[0065]
可以理解的是,第一语音内容信息可反映源语音的语音内容信息,基频能量参数可反映源语音的基频、能量等低维度特征,音色参数可反映参照语音的音色特征,则基于第一语音内容信息、基频能量参数和音色参数得到的第三声学特征,可反映源语音的语音内容信息,以及源语音的基频、能量等低维度特征,以及参照语音的音色特征,以便在后续根据第三声学特征合成目标语音时,可保留第一用户的源语音的语音内容信息,以及保持目标语音的基频和能量的稳定性,以及保留第二用户的参照语音的音色特征。
[0066]
可选的,将第一语音内容信息、基频能量参数和音色参数输入至重构网络,得到第三声学特征,可包括将第一语音内容信息、基频能量参数和音色参数输入至重构网络,重构网络采用深度循环神经网络对第一语音内容信息、基频能量参数和音色参数进行声学特征重构,得到第三声学特征。
[0067]
由此,该方法中的语音转换模型包括隐变量网络、音色网络和重构网络,隐变量网络可根据第一声学特征得到源语音的基频能量参数、音色网络可根据第二声学特征得到参照语音的音色参数、重构网络可根据第一语音内容信息、基频能量参数和音色参数,得到第三声学特征,从而在根据第三声学特征合成目标语音时,可保留第一用户的源语音的语音内容信息,以及保持目标语音的基频和能量的稳定性,以及保留第二用户的参照语音的音色特征。
[0068]
在上述任一实施例的基础上,如图5所示,获取预先训练好的语音转换模型,可包括:
[0069]
s301,获取第三用户的第一语音和第二语音。
[0070]
本公开的实施例中,第一语音和第二语音不同。
[0071]
s302,从第一语音中提取出第二语音内容信息和第四声学特征。
[0072]
s303,从第二语音中提取出第五声学特征。
[0073]
s304,将第二语音内容信息、第四声学特征和第五声学特征输入至待训练的语音转换模型中,得到重构的第六声学特征。
[0074]
步骤s301-s304的具体实现过程及原理,请参照上述实施例中的相关内容,这里不再赘述。
[0075]
s305,根据第六声学特征和第四声学特征的差异,调整待训练的语音转换模型中的模型参数,并返回获取第三用户的第一语音和第二语音步骤,直至第六声学特征和第四声学特征的差异符合预设的训练结束条件,将最后一次调整模型参数后的待训练的语音转换模型确定为预先训练好的语音转换模型。
[0076]
本公开的实施例中,每次可采用同一个用户的两段不同的语音进行待训练的语音转换模型的训练,将其中一段语音作为上述实施例中的源语音,将另外一段语音作为上述实施例中的参照语音,本申请中以第三用户的第一语音、第二语音进行待训练的语音转换模型的训练为例。
[0077]
例如,可将第三用户的第一语音作为上述实施例中的源语音,从第一语音中提取出第二语音内容信息和第四声学特征,以及将第三用户的第二语音作为上述实施例中的参照语音,从第二语音中提取出第五声学特征,之后将第二语音内容信息、第四声学特征和第五声学特征输入至待训练的语音转换模型中,得到重构的第六声学特征。
[0078]
可以理解的是,由于第一语音、第二语音都是第三用户发出的,此时目标语音应与源语音相差不大,则重构的第六声学特征也应与第四声学特征相差不大。此时可根据第六声学特征和第四声学特征的差异,调整待训练的语音转换模型中的模型参数,并返回执行获取第三用户的的第一语音和第二语音及其后续步骤,以根据多组样本数据对待训练的语音转换模型进行训练和更新,直至第六声学特征和第四声学特征的差异符合预设的训练结束条件,可将最后一次调整模型参数后的待训练的语音转换模型确定为预先训练好的语音转换模型。
[0079]
其中,预设的训练结束条件可根据实际情况进行设置,例如可设置为第六声学特征与第四声学特征的差异小于预设阈值。
[0080]
由此,该方法可根据多组样本数据,对待训练的语音转换模型进行训练和更新,以得到预先训练好的语音转换模型。
[0081]
作为另一种可能的实施方式,语音转换模型中可包括多个网络,每个网络都对应各自的网络参数,则可根据多组样本数据,对待训练的语音转换模型中的多个网络进行联合训练,以分别调整待训练的语音转换模型中每个网络中的网络参数,从而可得到预先训练好的语音转换模型。
[0082]
以图3为例,语音转换模型中可包括隐变量网络、音色网络和重构网络,则可根据多组样本数据,对待训练的语音转换模型中的隐变量网络、音色网络和重构网络进行联合训练,以分别调整待训练的语音转换模型中的隐变量网络、音色网络和重构网络中的网络参数,从而可得到预先训练好的语音转换模型。
[0083]
图6是根据本申请第一实施例的语音转换装置的框图。
[0084]
如图6所示,本申请实施例的语音转换装置600,包括:获取模块601、第一提取模块602、第二提取模块603、转换模块604、合成模块605。
[0085]
获取模块601,用于获取第一用户的源语音和第二用户的参照语音;
[0086]
第一提取模块602,用于从所述源语音中提取出第一语音内容信息和第一声学特征;
[0087]
第二提取模块603,用于从所述参照语音中提取出第二声学特征;
[0088]
转换模块604,用于将所述第一语音内容信息、所述第一声学特征和所述第二声学特征输入至预先训练好的语音转换模型中,得到重构的第三声学特征,所述预先训练好的语音转换模型根据第三用户的语音训练得到;以及
[0089]
合成模块605,用于根据所述第三声学特征合成目标语音。
[0090]
在本申请的一个实施例中,所述第一提取模块602,还用于:将所述源语音输入至预先训练好的多语种自动语音识别模型中,得到语音后验概率矩阵;以及将所述语音后验概率矩阵作为所述第一语音内容信息。
[0091]
在本申请的一个实施例中,所述第一声学特征、所述第二声学特征和所述第三声学特征为梅尔特征。
[0092]
在本申请的一个实施例中,所述语音转换模型包括隐变量网络、音色网络和重构网络,所述转换模块604,包括:第一输入单元,用于将所述第一声学特征输入至所述隐变量网络,得到基频能量参数;第二输入单元,用于将所述第二声学特征输入至所述音色网络,得到音色参数;以及第三输入单元,用于将所述第一语音内容信息、所述基频能量参数和所述音色参数输入至所述重构网络,得到所述第三声学特征。
[0093]
在本申请的一个实施例中,所述第一输入单元,还用于:将所述第一声学特征输入至所述隐变量网络,所述隐变量网络在帧尺度上对所述第一声学特征进行压缩,从压缩后的第一声学特征中提取基频能量参数。
[0094]
在本申请的一个实施例中,所述第二输入单元,还用于:将所述第二声学特征输入至所述音色网络,所述音色网络采用深度循环神经网络和变分自编码器对所述第二声学特征进行抽象,得到所述音色参数。
[0095]
在本申请的一个实施例中,所述第三输入单元,还用于:将所述第一语音内容信息、所述基频能量参数和所述音色参数输入至所述重构网络,所述重构网络采用深度循环神经网络对所述第一语音内容信息、所述基频能量参数和所述音色参数进行声学特征重构,得到所述第三声学特征。
[0096]
在本申请的一个实施例中,如图7所示,所述语音转换装置600,还包括:模型训练模块606,所述模型训练模块606,用于:获取所述第三用户的第一语音和第二语音;从所述第一语音中提取出第二语音内容信息和第四声学特征;从所述第二语音中提取出第五声学特征;将所述第二语音内容信息、所述第四声学特征和所述第五声学特征输入至待训练的语音转换模型中,得到重构的第六声学特征;以及根据所述第六声学特征和所述第四声学特征的差异,调整所述待训练的语音转换模型中的模型参数,并返回所述获取第三用户的第一语音和第二语音步骤,直至所述第六声学特征和所述第四声学特征的差异符合预设的训练结束条件,将最后一次调整模型参数后的所述待训练的语音转换模型确定为所述预先训练好的语音转换模型。
[0097]
综上,根据本申请实施例的语音转换装置,能够将源语音的第一语音内容信息和第一声学特征、参照语音的第二声学特征输入至预先训练好的语音转换模型中,得到并根
据重构的第三声学特征合成目标语音,语音转换模型预先建立且后续无需训练和更新,灵活性较高,可实现即时语音转换,有助于缩短语音转换的等待时间,可适用于多语种、多音色切换等应用场景。
[0098]
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
[0099]
如图8所示,是根据本申请实施例的语音转换方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,智能语音交互设备、个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
[0100]
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器801可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
[0101]
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音转换方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音转换方法。
[0102]
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音转换方法对应的程序指令/模块(例如,附图6所示的获取模块601、第一提取模块602、第二提取模块603、转换模块604、合成模块605)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音转换方法。
[0103]
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音转换方法的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至语音转换方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0104]
语音转换方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
[0105]
输入装置803可接收输入的数字或字符信息,以及产生与语音转换方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸
板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
[0106]
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0107]
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0108]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0109]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0110]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。
[0111]
根据本申请实施例的技术方案,服务器能够根据智能语音交互设备发送的用户的第一语音信号,进行语音识别和语义解析,以得到用户的语义文本,并可根据语义文本获取业务查询结果并反馈给智能语音交互设备,该方法可利用语音处理技术实现业务办理的自
动化,用户不需要工作人员协助就可自行办理业务,人工成本较低,有助于减少人们办理业务的等待时间和办理时间,提高了业务办理的效率。
[0112]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
[0113]
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips