HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音处理方法、装置和介质与流程

2021-01-28 13:01:21|251|起点商标网
语音处理方法、装置和介质与流程

本发明涉及通信技术领域,特别是涉及一种语音处理方法和装置、一种机器可读介质。



背景技术:

随着通信技术的发展,蓝牙耳机、智能音箱等音频设备的普及,音频内容消费在近年持续增长,包括无线电台、网络播客、有声读物、知识节目等。随时随地以“听”的方式获取声音陪伴成为了更多用户的选择,在驾驶、通勤、睡前等场景中能够轻松获得沉浸式的新闻、学习、娱乐、音乐等有声体验。

目前,可以将用户指定的文本,转换为语音,并输出给用户;或者,可以将用户输入的语音,转换为符合特定音色的语音,并输出给用户。并且,为了提升语音的质量,目前可以通过试听语音的方式,定位语音中的错误,以对语音中的错误进行修正。

发明人在实施本发明实施例的过程中发现,语音通常被存储在一个语音文件中,用户通常需要收听整个语音文件、以确定语音中的错误。整个语音文件的收听通常需要花费较多的时间成本,进而使得语音修正的效率较低。



技术实现要素:

鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音处理方法、语音处理装置及用于语音处理的装置,本发明实施例可以提高读音修正的效率。

为了解决上述问题,本发明公开了一种语音处理方法,包括:

对语音进行语音活动检测,以得到所述语音对应的多个语音单元;

输出所述多个语音单元分别对应的语音入口和语音识别结果;

接收用户针对目标语音单元的修正信息;

依据所述修正信息,对所述目标语音单元进行修正。

另一方面,本发明实施例公开了一种语音处理装置,包括:

检测模块,用于对语音进行语音活动检测,以得到所述语音对应的多个语音单元;

输出模块,用于输出所述多个语音单元分别对应的语音入口和语音识别结果;

接收模块,用于接收用户针对目标语音单元的修正信息;以及

修正模块,用于依据所述修正信息,对所述目标语音单元进行修正。

再一方面,本发明实施例公开了一种用于语音处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

对语音进行语音活动检测,以得到所述语音对应的多个语音单元;

输出所述多个语音单元分别对应的语音入口和语音识别结果;

接收用户针对目标语音单元的修正信息;

依据所述修正信息,对所述目标语音单元进行修正。

本发明实施例还公开了一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的方法。

本发明实施例包括以下优点:

本发明实施例针对语音中的多个语音单元,分别输出对应的语音入口和语音识别结果,可以使用户以语音单元为单位进行语音修正,并产生对应的修正信息。这相对于用户收听整个语音文件,本发明实施例中语音单元及其语音识别结果的对照输出,可以帮助用户确定收听哪个语音单元,由于可以对语音单元进行一定的筛选,因此能够节省用户收听语音的操作成本,提高语音纠正的效率。

并且,在定位到语音单元的错误的情况下,用户可以对出现错误的目标语音单元进行修正,以得到对应的修正信息,本发明实施例可以依据修正信息对上述目标语音单元进行修正。由于本发明实施例以语音单元为单位进行修正,可以节省对整个语音文件进行修正的操作成本,因此能够提高语音修正的效率。

附图说明

图1是本发明的一种语音处理方法实施例一的步骤流程图;

图2是本发明的一种语音处理方法实施例二的步骤流程图;

图3是本发明的一种语音处理方法实施例三的步骤流程图;

图4是本发明的一种语音处理装置的结构框图;

图5是本发明的一种用于语音处理的装置1300的框图;及

图6是本发明的一种服务端的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的语音处理场景可以包括:语音合成场景、变声场景等。其中,在语音合成场景下,可以将用户指定的文本,转换为符合指定音色的语音,语音合成场景可以应用于新闻播报、读物收听、教学、医疗、客服、法律场景等领域。在变声场景下,可以将用户输入的第一语音,转换为符合指定音色的第二语音,第一语音的讲话内容、语速、停顿及情感中的任一特征可被保留在第二语音中。可以理解,本发明实施例对于具体的语音处理场景不加以限制。

针对传统技术中语音修正的效率较低的技术问题,本发明实施例提供了一种语音处理方案,该方案具体包括:对语音进行语音活动检测,以得到上述语音对应的多个语音单元;输出上述多个语音单元分别对应的语音入口和语音识别结果;接收用户针对目标语音单元的修正信息;依据上述修正信息,对上述目标语音单元进行修正。

vad(语音活动检测,voiceactivitydetection)可以在平稳或者非平稳噪声下准确检测有效的语音和无效的语音(如噪声、笑声、哭声、音乐声、背景人声等),并依据检测结果进行语音的分割,上述分割可以实现语音的断句,并将分割得到的语音单元识别为一个独立的句子。

本发明实施例针对语音中的多个语音单元,分别输出对应的语音入口和语音识别结果,可以使用户以语音单元为单位进行语音修正,并产生对应的修正信息。这相对于用户收听整个语音文件,本发明实施例中语音单元及其语音识别结果的对照输出,可以帮助用户确定收听哪个语音单元,由于可以对语音单元进行一定的筛选,因此能够节省用户收听语音的操作成本,提高语音纠正的效率。

例如,语音中包括n(n可以为大于1的自然数)个语音单元,则本发明实施例可以按照如下展示方式,展示n个语音单元:

语音单元1语音入口1语音识别结果1

语音单元2语音入口2语音识别结果2

……

语音单元n语音入口n语音识别结果n

展示的语音识别结果可以帮助用户确定是否收听对应的语音单元,因此能够起到对语音单元进行筛选的作用,因此能够帮助用户快速定位语音单元的错误。

语音单元的错误类型可以包括但不限于:语音识别结果与语音合成前的源文本不匹配、读音信息错误、或者情感参数错误等。其中,语音识别结果与语音合成前的源文本不匹配具体包括:多读错误(如重复读某个字词)、读错字等等)、漏读错误、错读错误(如将一个字词错读为另一个字词)等。可以理解,本发明实施例对于具体的错误类型不加以限制。在语音合成场景下,用户可以上传源文本以得到对应的语音,分0源文本可以作为语音合成的依据,

例如,语音识别结果i中包括多音字,用户认为可能存在多音字的读音信息的错误,因此可以收听对应的语音单元。又如,语音识别结果j中包括抒情表达,用户认为可能存在情感表达的问题,因此可以收听对应的语音单元。

在定位到语音单元的错误的情况下,用户可以对出现错误的目标语音单元进行修正,以得到对应的修正信息,本发明实施例可以依据修正信息对上述目标语音单元进行修正。由于本发明实施例以语音单元为单位进行修正,可以节省对整个语音文件进行修正的操作成本,因此能够提高语音修正的效率。

本发明实施例提供的语音处理方法可应用于客户端与服务端对应的应用环境中,客户端与服务端位于有线或无线网络中,通过该有线或无线网络,客户端与服务端进行数据交互。

可选地,客户端可以运行在终端上,上述终端具体包括但不限于:智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准音频层面3,movingpictureexpertsgroupaudiolayeriii)播放器、mp4(动态影像专家压缩标准音频层面4,movingpictureexpertsgroupaudiolayeriv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

客户端可以对应于网站、或者app(应用程序,application)。例如,客户端可以对应有语音处理app等应用程序。

方法实施例一

参照图1,示出了本发明的一种语音单元的处理方法实施例一的步骤流程图,具体可以包括如下步骤:

步骤101、对语音进行语音活动检测,以得到上述语音对应的多个语音单元;

步骤102、输出上述多个语音单元分别对应的语音入口和语音识别结果;

步骤103、接收用户针对目标语音单元的修正信息;

步骤104、依据上述修正信息,对上述目标语音单元进行修正。

图1所示方法实施例一可由客户端和/或服务端执行,可以理解,本发明实施例对于方法实施例的具体执行主体不加以限制。

步骤101中,语音可以表征语音处理场景下待修正的语音。

vad可以将有效的语音和无效的语音进行分离,以使后续的语音处理更加高效。如果vad将有效的语音切除了,那么将会造成语音的丢失;如果vad将噪声等无效的语音放入到后续的语音处理系统,那么将对语音处理的准确率有影响。

在本发明的一种可选实施例中,语音活动检测的方法可以包括:基于语音特征的检测方法。上述语音特征具体包括:能量特征、周期特征等。可选地,可以使用能量双门限或者能量四门限的方法来进行语音活动检测,语音帧能量的门限值一般依靠经验进行设定,虽然简单快捷但是检测的准确率较低。

在本发明的另一种可选实施例中,语音活动检测的方法可以包括:基于统计模型的方法、或者基于机器学习的检测方法。

其中,基于机器学习的检测方法,将语音活动检测转换成一个二元分类的问题,对应的类别具体包括:语音类别和非语音类别。可以依据训练数据对分类器进行训练,以学习得到训练数据中语音类别和非语音类别的不同特性,以使分类器具有语音类别和非语音类别的的判别能力。

分类器可以包括数学模型。数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合,通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外,还有用其他数学工具,如代数、几何、拓扑、数理逻辑等描述的模型。其中,数学模型描述的是系统的行为和特征而不是系统的实际结构。其中,可采用机器学习、深度学习方法等方法进行数学模型的训练,机器学习方法可包括:线性回归、决策树、随机森林等,深度学习方法可包括:卷积神经网络(convolutionalneuralnetworks,cnn)、长短期记忆网络(longshort-termmemory,lstm)、门控循环单元(gatedrecurrentunit,gru)等。

在本发明的一种可选实施例中,可以利用基于lstm(长短期记忆网络,longshort-termmemory)的分类器,确定语音中语音片段对应的类别;所述类别具体包括:语音类别、或非语音类别。

本发明实施例可以利用分类器,从语音中截取语音片段。若语音片段对应语音类别,则语音片段可以为语音单元;若语音片段对应非语音类别,则语音片段可以为非语音单元。

本发明实施例可以依据语音片段属于某种类别的概率,确定语音片段对应的类别。例如,若语音片段属于非语音类别的第一概率超过第一概率阈值,则语音片段对应非语音类别。又如,若语音片段属于语音类别的第二概率超过第二概率阈值,则语音片段对应语音类别。第一概率阈值和第二概率阈值可以为0~1之间的数值,其可由本领域技术人员根据实际应用需求确定,例如,第一概率阈值和第二概率阈值可以为0.8、0.9等数值。

可选地,若语音单元i和语音单元(i+1)之间具有非语音单元,则非语音单元的起始位置可以对应语音单元i的结束位置,以及,非语音单元的结束位置可以对应语音单元i的起始位置。

lstm具有长期记忆功能,其可以适用于长序列,因此能够针对较长的语音进行处理。并且,lstm采用门的机制,能够一定程度上解决梯度爆炸、梯度消失等问题,能够提高分类的准确度。

可选地,上述分类器的训练数据具体包括:语音处理场景对应的语音数据,如语音合成场景对应的语音数据、或者变声场景对应的语音数据等。本发明实施例可以对上述语音数据中的语音片段进行标注,以得到其中的标注语音单元和标注非语音单元。可选地,本发明实施例可以依据语音识别的需求,对语音数据进行分帧处理。

可选地,上述语音数据中可以包含噪声,这样,可以使分类器能够学习到噪声和语音叠加情况下、对语音和非语音进行区分的能力,因此能够使分类器在噪声环境下具有较好的鲁棒性,

本发明实施例中,可选的是,分类器的损失函数(lossfunction)可以包括:交叉熵、平方误差损失等。损失函数可用来估量分类器的预测值f(x)与真实值y的不一致程度,损失函数越小,一般就代表分类器的鲁棒性越好。

可选地,上述确定语音对应的类别,具体包括:利用基于长短期记忆网络的分类器,确定语音片段属于非语音类别的第一概率;若所述第一概率超过第一概率阈值、且所述语音片段包括语音帧的数量超过数量阈值,则依据所述语音片段包括的语音帧,确定分割点。

本发明实施例可以结合第一概率和语音片段包括语音帧的数量,确定语音片段对应的类别。假设数量阈值为p,则在第一概率超过第一概率阈值的情况下,可以将语音片段中第p个语音帧对应的位置,作为分割点,也即可以将前p个语音帧对应的语音片段,作为非语音单元。上述结合语音帧的数量确定语音片段对应的类别,可以在一定程度上减少将讲话速率慢的语音错判为无效的语音的情况,可以提高语音活动检测的准确度。

需要说明的是,可以利用分类器,继续对第p个语音帧之后的连续语音帧进行检测。第p个语音帧之后的连续语音帧可以为语音单元或非语音单元。数量阈值可由本领域技术人员根据实际应用需求确定,例如,数量阈值为例如30的数值。

本发明实施例中,分类器可以对训练数据或待修正的语音进行特征提取,并依据提取的语音特征,确定语音中语音片段对应的类别。

上述语音特征可以包括但不限于韵律特征、音质特征和频谱特征。

其中,韵律特征,又叫超音质特征或者超音段特征,是指语音中除音质特征之外的音高、音长和音强方面的变化。该韵律特征包括但不限于本实施例中的基音频率、发音持续时间、发音振幅和发音语速。音质特征包括但不限于本发吗实施例中的共振峰、频带能量分布、谐波信噪比和短时能量抖动。

频谱特征,又称振动谱特征,是指将复杂振荡分解为振幅不同和频率不同的谐振荡,这些谐振荡的幅值按频率排列形成的图形。频谱特征与韵律特征和音质特征相融合,以提高特征参数的抗噪声效果。本发明实施例中,频谱特征采用能够反映人耳听觉特性的mfcc(梅尔频率倒谱系数,mel-frequencycepstralcoefficients)。

可选地,还可以将上述语音特征的统计信息作为语音特征,上述统计信息可以包括但不限于:均值、方差、最小值、最大值、范围、斜率等。

步骤102中,语音入口可用于收听语音单元对应的语音,语音入口可以呈现为语音播放控件的形式。

语音识别结果可以为与语音相对应的文本。可以对语音单元对应的语音进行语音识别,以得到语音识别结果。或者,在语音合成场景下,可以将语音单元对应的转换前文本作为语音识别结果。

本发明实施例可以预设的展示样式,对多个语音单元分别对应的语音入口和语音识别结果进行展示。例如,可以分别针对每个语音单元,设置对应的展示区域,在上述展示区域内展示语音入口和语音识别结果,以供对照查看。本发明实施例的用户可以为获得语音服务的用户,如前台的用户;或者,本发明实施例的用户可以为提供语音服务的用户,如后台的技术人员。

步骤103中,语音单元的错误类型可以包括但不限于:语音识别结果与语音合成前的源文本不匹配、读音信息错误、或者情感参数错误等。其中,语音识别结果与语音合成前的源文本不匹配具体包括:多读错误(如重复读某个字词)、读错字等等)、漏读错误、错读错误(如将一个字词错读为另一个字词)等。可以理解,本发明实施例对于具体的错误类型不加以限制。

修正信息可以包括:错误信息,如多读了x字,少读了y字,情感不对,或者缺乏情感等。

或者,修正信息还可以包括:错误信息的修改建议信息,如“为”的读音为四声,或者,情感应该是悲愤的等等。

或者,修正信息还可以包括:用户语音,用户语音可以为用户认为准确的读音,用户语音可以为目标语音单元中部分或全部的读音。例如,用户语音可以为带有情感的语音,或者,用户语音可以为读音准确的语音。

此种情况下,可以对用户语音进行分析,以得到对应的修正信息,例如,可以从用户语音中提取对应的修正后的情感参数,或者,可以从用户语音中提取准确的语音信息。

可选地,修正信息可以包括:修正后的读音信息,可以在目标语音单元存在读音错误的情况下,依据修正后的读音信息进行纠正。例如,目标语音单元的语音中将“昶”错读为“xu”,则可以针对“昶”提供修正后的读音信息“chang三声”。

步骤104中,可以依据修正信息,对目标语音单元进行修正。可选地,在语音合成场景下,可以对目标语音单元对应的源文本进行语音合成。语音合成技术是通过机械的、电子的方法产生人造语音的技术。tts(文语转换技术,texttospeech)隶属于语音合成技术,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

可选地,可以将目标语音单元对应的语音合成结果与非目标语音单元对应的语音进行融合,以得到结果语音,上述结果语音可以为修正后的语音,可被提供给用户。非目标语音单元可以表征未涉及修正的语音单元。可以理解,在目标语音单元为多个的情况下,可以依据目标语音单元在语音中的位置或顺序,分别对多个目标语音单元对应的语音合成结果与非目标语音单元对应的语音进行融合。

综上,本发明实施例的语音单元的处理方法,针对语音中的多个语音单元,分别输出对应的语音入口和语音识别结果,可以使用户以语音单元为单位进行语音修正。这相对于用户收听整个语音文件,本发明实施例中语音单元及其语音识别结果的对照输出,可以帮助用户确定收听哪个语音单元,由于可以对语音单元进行一定的筛选,因此能够节省用户收听语音的操作成本,提高语音纠正的效率。

在定位到语音单元的错误的情况下,用户可以对出现错误的目标语音单元进行修正,以得到对应的修正信息,本发明实施例可以依据修正信息对上述目标语音单元进行修正。由于本发明实施例以语音单元为单位进行修正,可以节省对整个语音文件进行修正的操作成本,因此能够提高语音修正的效率。

方法实施例二

参照图2,示出了本发明的一种语音单元的处理方法实施例二的步骤流程图,具体可以包括如下步骤:

步骤201、对语音进行语音活动检测,以得到上述语音对应的多个语音单元;

步骤202、输出上述多个语音单元分别对应的语音入口和语音识别结果;

相对于图1所示方法实施例一,本实施例的方法还可以包括:

步骤203、展示上述语音识别结果中多音字当前的读音信息;上述当前的读音信息为依据上述多音字及其上下文得到;

步骤204、依据用户针对上述当前的读音信息的纠正操作,展示上述多音字对应的读音输入接口,以供用户输入修正后的读音信息;

步骤205、依据修正后的读音信息,对目标语音单元对应的语音进行修正。

步骤203中,读音信息表征多音字的读法。以汉字为例,读音信息可以包括:拼音和声调。

多音字,是指一个字有两个或两个以上的读音信息,不同的读音信息表义不同,用法不同,词性也往往不同。读音信息有区别词性和词义的作用;根据使用情况不同,读音信息也不同,读音信息有区别用法的作用。

本发明实施例依据文本中多音字及其上下文,得到多音字当前的读音信息。多音字及其上下文可以对应词、或短语、或句子、或段落等语言单元,由于在确定当前的读音信息的过程中采用了更为语言单元表征的更为丰富的语言信息,因此能够提高当前的读音信息的准确度。

并且,本发明实施例一旦确定当前的读音信息,即可展示文本中多音字当前的读音信息,而可以不受到语音的收听等条件的限制。由于本发明实施例可以在不收听语音的情况下,向用户提供当前的读音信息,以供用户进行读音修正;因此本发明实施例可以节省语音的收听所花费的时间成本,进而能够提高语音修正的效率。

本发明实施例中,可选的是,可以在文本区域展示语音识别结果,并在语音识别结果中多音字的周围区域展示当前的读音信息。例如,可以在多音字的上方区域展示当前的读音信息。例如,文本中包括“为了”,其中“为”为多音字,故可以在“为”的上方展示当前的读音信息“wei4”,“4”代表声调为四声。

本发明实施例的上下文可以包括:上文、和/或、下文。可选地,该上文通常为多音字之前的部分,该下文通常为多音字之后的部分。

多音字及其上下文可以对应词、或短语、或句子、或段落等语言单元,由于在确定当前的读音信息的过程中采用了更为语言单元表征的更为丰富的语言信息,因此能够提高当前的读音信息的准确度。

在本发明的一种可选实施例中,上述方法还可以包括:依据所述多音字及其上下文、以及包含多音字的标注语料,确定所述文本中多音字当前的读音信息。标注语料可以表征对多音字的读音信息进行标注的语料。标注语料可以对应词、或短语、或句子、或段落等语言单元。

本发明实施例中,可选的是,可以依据多音字集合,检测文本中的多音字。例如,将文本中的字与多音字集合进行匹配,以得到文本中命中多音字集合的多音字。

根据一种实施例,标注语料可以位于词典中,可以基于词典匹配的方式,确定文本中多音字当前的读音信息。

根据另一种实施例,可以将多音字及其上下文与标注语料进行匹配,并依据匹配成功的目标标注语料中多音字的读音信息,得到文本中多音字当前的读音信息。

根据再一种实施例,可以基于标注语料对数学模型进行训练,以得到数据分析器。数据分析器可表征输入数据(多音字及其上下文)和输出数据(多音字当前的读音信息)之间的映射关系。

标注语料可以表征语言环境,数据分析器可以基于学习,得到特定语言环境下多音字当前的读音信息的规律。因此,在使用数据分析器的情况下,可以不要求多音字及其上下文与标注语料在字面方面的匹配,而是可以依据多音字及其上下文与标注语料两者之间的语言环境的匹配,确定多音字当前的读音信息。

步骤204中,修正操作可用于触发当前的读音信息的修正。修正操作可以为语音操作或者触摸操作或鼠标操作。

例如,语音操作可以为“修正x字的读音”,则可以响应该语音操作,展示x字对应的读音输入接口。“x字”可以表征多音字。

又如,触摸操作可以为针对x字的点击操作,则可以响应该点击操作,展示x字对应的读音输入接口。

再如,触摸操作可以为针对x字的鼠标选中操作,则可以响应该鼠标选中操作,展示x字对应的读音输入接口。

本发明实施例展示上述多音字对应的读音输入接口,可以供用户输入修正后的读音信息。

根据一种实施例,上述展示所述多音字对应的读音输入接口,具体可以包括:展示所述多音字对应的读音选项,以供用户选择;例如,针对多音字“为”,提供“wei4”、“wei2”等读音选项。

根据另一种实施例,上述展示所述多音字对应的读音输入接口,具体可以包括:展示所述多音字对应的读音输入框,以供用户输入。用户可以在语音输入框中输入对应的读音信息,如“wei2”等。

步骤205中,将修正后的读音信息用于目标语音单元的语音的修正,可以提高语音的准确度。

根据一种实施例,修正后的读音信息对应第一目标语音单元,则可以依据修正后的读音信息,对第一目标语音单元对应的语音识别结果进行语音合成;并将第一目标语音单元对应的语音合成结果与非第一目标语音单元对应的语音进行融合,以得到结果语音,上述结果语音可以为修正后的语音,可被提供给用户。

本发明实施例在语音修正的过程中以语音单元为单位进行语音合成,可以节省对整个语音文件进行语音合成的操作成本,因此能够提高语音修正的效率。

本发明实施例中,可选的是,可以对修正后的语音进行保存,以供用户收听或下载。

综上,本发明实施例的语音单元的处理方法,依据语音识别结果中多音字及其上下文,得到多音字当前的读音信息。多音字及其上下文可以对应词、或短语、或句子、或段落等语言单元,由于在确定当前的读音信息的过程中采用了更为语言单元表征的更为丰富的语言信息,因此能够提高当前的读音信息的准确度。

并且,本发明实施例一旦确定当前的读音信息,即可展示语音识别结果中多音字当前的读音信息,而可以不受到语音的收听等条件的限制。由于本发明实施例可以在不收听语音的情况下,向用户提供当前的读音信息,以供用户进行读音修正;因此本发明实施例可以节省收听所花费的时间成本,进而能够提高语音修正的效率。

方法实施例三

参照图3,示出了本发明的一种语音单元的处理方法实施例三的步骤流程图,具体可以包括如下步骤:

步骤301、对语音进行语音活动检测,以得到上述语音对应的多个语音单元;

步骤302、输出上述多个语音单元分别对应的语音入口和语音识别结果;

相对于图1所示方法实施例一,本实施例的方法还可以包括:

步骤303、展示上述语音识别结果中语言单元当前的情感参数;

步骤304、依据用户针对上述当前的情感参数的修正操作,展示上述语言单元对应的情感输入接口,以供用户输入修正后的情感参数;

步骤305、依据修正后的情感参数,对目标语音单元对应的语音进行修正。

本发明实施例向用户提供语音识别结果中语言单元当前的情感参数,以供用户进行情感修正,以将用户所需的情感参数应用于语音处理,进而能够提高语音处理的准确度、以及用户对于语音处理结果的满意度。

本发明实施例的语言单元可以为词、或短语、或句子等。换言之,本发明实施例可以以语音识别结果中的词、或短语、或句子等语言单元为单位,展示当前的情感参数,以供用户修正。

情感可以表征人的内心体验和感受,用来描述具有社会意义的感情,如对真理的热爱、对美的欣赏、对怀才不遇的悲愤等。本发明实施例可以对语言单元进行语义分析,以得到当前的情感参数。或者,可以利用情感分类模型,确定语言单元所属的情感类别。具体的情感类别可由本领域技术人员根据实际应用需求确定,在此不作赘述。

本发明实施例可以识别语句或者词语的情感参数(例如某一句的情感参数为悲愤,某一句的情感参数为低沉,某一句的的情感参数为哽咽等等),并展示在对应语句或词语的周围区域。

本发明实施例中,上述展示上述语言单元对应的情感输入接口,可以包括:展示上述语言单元对应的情感选项,以供用户选择,则可以依据用户选择的情感选项,确定修正后的情感参数;或者,可以展示上述语言单元对应的情感输入框,以使用户在情感输入框中输入修正后的情感参数。

在本发明的一种可选实施例中,可以将修正后的情感参数应用于语音合成中,完成相应的情感迁移;也即,依据修正后的情感参数,对所述语音识别结果进行语音合成。这样,可以在一定程度上避免语音合成结果的呆板问题,也即可以减少类似机器人的平稳且呆板的声音的出现,进而能够提高语音合成结果的自然度和情感度。

本发明实施例中,修正后的情感参数对应第二目标语音单元,则可以依据修正后的情感参数,对第二目标语音单元对应的语音识别结果进行语音合成;并将第二目标语音单元对应的语音合成结果与非第二目标语音单元对应的语音进行融合,以得到结果语音,上述结果语音可以为修正后的语音,可被提供给用户。

本发明实施例在语音修正的过程中以语音单元为单位进行语音合成,可以节省对整个语音文件进行语音合成的操作成本,因此能够提高语音修正的效率。

需要说明的是,图2所示方法实施例二和图3所示方法实施例三可以结合,也即,本发明实施例可以提供语音信息和情感参数的修正,并将修正后的语音信息和情感参数用于语音合成,以实现以语音单元为单位的语音修正。可以理解,本发明实施例对语音信息和情感参数的修正顺序不加以限制,二者可以先后执行或后先执行。并且,本发明实施例对依据修正后的语音信息和情感参数进行语音合成的顺序不加以限制,二者可以先后执行或后先执行或同时执行。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图4,示出了本发明的一种语音处理装置实施例的结构框图,具体可以包括:

检测模块401,用于对语音进行语音活动检测,以得到所述语音对应的多个语音单元;

输出模块402,用于输出所述多个语音单元分别对应的语音入口和语音识别结果;

接收模块403,用于接收用户针对目标语音单元的修正信息;

修正模块404,用于依据所述修正信息,对所述目标语音单元进行修正。

可选地,检测模块401可以包括:

类别确定模块,用于利用基于长短期记忆网络的分类器,确定语音中语音片段对应的类别;上述类别可以包括:语音类别、或非语音类别。

可选地,上述类别确定模块可以包括:

概率确定模块,用于利用基于长短期记忆网络的分类器,确定语音片段属于非语音类别的第一概率;

分割点确定模块,用于若上述第一概率超过第一概率阈值、且上述语音片段可以包括语音帧的数量超过数量阈值,则依据上述语音片段可以包括的语音帧,确定分割点。

可选地,上述分类器的训练数据可以包括:语音处理场景对应的语音数据,上述语音数据包含噪声。

可选地,上述修正信息可以包括:修正后的读音信息。

可选地,上述装置还可以包括:

第一展示模块,用于展示上述语音识别结果中多音字当前的读音信息;上述当前的读音信息为依据上述多音字及其上下文得到;

第二展示模块,用于依据用户针对上述当前的读音信息的纠正操作,展示上述多音字对应的读音输入接口,以供用户输入修正后的读音信息。

可选地,上述修正信息可以包括:修正后的情感参数;

上述装置还可以包括:

第三展示模块,用于展示上述语音识别结果中语言单元当前的情感参数;

第四展示模块,用于依据用户针对上述当前的情感参数的修正操作,展示上述语言单元对应的情感输入接口,以供用户输入修正后的情感参数。

可选地,上述装置还可以包括:

融合模块,用于对上述目标语音单元对应的修正结果与非目标语音单元对应的语音进行融合,以得到修正后的语音。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于语音处理的装置1300的框图。例如,装置1300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图5,装置1300可以包括以下一个或多个组件:处理组件1302,存储器1304,电源组件1306,多媒体组件1308,音频组件1310,输入/输出(i/o)的接口1312,传感器组件1314,以及通信组件1316。

处理组件1302通常控制装置1300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1302可以包括一个或多个模块,便于处理组件1302和其他组件之间的交互。例如,处理组件1302可以包括多媒体模块,以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理系统,一个或多个电源,及其他与为装置1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如,音频组件1310包括一个麦克风(mic),当装置1300处于操作模式,如呼叫模式、记录模式和语音数据处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中,音频组件1310还包括一个扬声器,用于输出音频信号。

i/o接口1312为处理组件1302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器,用于为装置1300提供各个方面的状态评估。例如,传感器组件1314可以检测到设备1300的打开/关闭状态,组件的相对定位,例如所述组件为装置1300的显示器和小键盘,传感器组件1314还可以检测装置1300或装置1300一个组件的位置改变,用户与装置1300接触的存在或不存在,装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1316还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频数据处理(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置1300可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1304,上述指令可由装置1300的处理器1320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行一种语音单元的处理方法,所述方法包括:对语音进行语音活动检测,以得到所述语音对应的多个语音单元;输出所述多个语音单元分别对应的语音入口和语音识别结果;接收用户针对目标语音单元的修正信息;依据所述修正信息,对所述目标语音单元进行修正。

图6是本发明实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务端中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务端1900上执行存储介质1930中的一系列指令操作。

服务端1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

本发明实施例公开了a1、一种语音单元的处理方法,包括:

对语音进行语音活动检测,以得到所述语音对应的多个语音单元;

输出所述多个语音单元分别对应的语音入口和语音识别结果;

接收用户针对目标语音单元的修正信息;

依据所述修正信息,对所述目标语音单元进行修正。

a2、根据a1所述的方法,所述对语音进行语音活动检测,包括:

利用基于长短期记忆网络的分类器,确定语音中语音片段对应的类别;所述类别包括:语音类别、或非语音类别。

a3、根据a2所述的方法,所述确定语音对应的类别,包括:

利用基于长短期记忆网络的分类器,确定语音片段属于非语音类别的第一概率;

若所述第一概率超过第一概率阈值、且所述语音片段包括语音帧的数量超过数量阈值,则依据所述语音片段包括的语音帧,确定分割点。

a4、根据a2所述的方法,所述分类器的训练数据包括:语音处理场景对应的语音数据,所述语音数据包含噪声。

a5、根据a1至a4中任一所述的方法,所述修正信息包括:修正后的读音信息。

a6、根据a5所述的方法,所述方法还包括:

展示所述语音识别结果中多音字当前的读音信息;所述当前的读音信息为依据所述多音字及其上下文得到;

依据用户针对所述当前的读音信息的纠正操作,展示所述多音字对应的读音输入接口,以供用户输入修正后的读音信息。

a7、根据a1至a4中任一所述的方法,所述修正信息包括:修正后的情感参数;

所述方法还包括:

展示所述语音识别结果中语言单元当前的情感参数;

依据用户针对所述当前的情感参数的修正操作,展示所述语言单元对应的情感输入接口,以供用户输入修正后的情感参数。

a8、根据a1至a4中任一所述的方法,所述方法还包括:

对所述目标语音单元对应的修正结果与非目标语音单元对应的语音进行融合,以得到修正后的语音。

本发明实施例公开了b9、一种语音处理装置,包括:

检测模块,用于对语音进行语音活动检测,以得到所述语音对应的多个语音单元;

输出模块,用于输出所述多个语音单元分别对应的语音入口和语音识别结果;

接收模块,用于接收用户针对目标语音单元的修正信息;

修正模块,用于依据所述修正信息,对所述目标语音单元进行修正。

b10、根据b9所述的装置,所述检测模块包括:

类别确定模块,用于利用基于长短期记忆网络的分类器,确定语音中语音片段对应的类别;所述类别包括:语音类别、或非语音类别。

b11、根据b10所述的装置,所述类别确定模块包括:

概率确定模块,用于利用基于长短期记忆网络的分类器,确定语音片段属于非语音类别的第一概率;

分割点确定模块,用于若所述第一概率超过第一概率阈值、且所述语音片段包括语音帧的数量超过数量阈值,则依据所述语音片段包括的语音帧,确定分割点。

b12、根据b10所述的装置,所述分类器的训练数据包括:语音处理场景对应的语音数据,所述语音数据包含噪声。

b13、根据b9至b12中任一所述的装置,所述修正信息包括:修正后的读音信息。

b14、根据b13所述的装置,所述装置还包括:

第一展示模块,用于展示所述语音识别结果中多音字当前的读音信息;所述当前的读音信息为依据所述多音字及其上下文得到;

第二展示模块,用于依据用户针对所述当前的读音信息的纠正操作,展示所述多音字对应的读音输入接口,以供用户输入修正后的读音信息。

b15、根据b9至b12中任一所述的装置,所述修正信息包括:修正后的情感参数;

所述装置还包括:

第三展示模块,用于展示所述语音识别结果中语言单元当前的情感参数;

第四展示模块,用于依据用户针对所述当前的情感参数的修正操作,展示所述语言单元对应的情感输入接口,以供用户输入修正后的情感参数。

b16、根据b9至b12中任一所述的装置,所述装置还包括:

融合模块,用于对所述目标语音单元对应的修正结果与非目标语音单元对应的语音进行融合,以得到修正后的语音。

本发明实施例公开了c17、一种用于语音处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

对语音进行语音活动检测,以得到所述语音对应的多个语音单元;

输出所述多个语音单元分别对应的语音入口和语音识别结果;

接收用户针对目标语音单元的修正信息;

依据所述修正信息,对所述目标语音单元进行修正。

c18、根据c17所述的装置,所述对语音进行语音活动检测,包括:

利用基于长短期记忆网络的分类器,确定语音中语音片段对应的类别;所述类别包括:语音类别、或非语音类别。

c19、根据c18所述的装置,所述确定语音对应的类别,包括:

利用基于长短期记忆网络的分类器,确定语音片段属于非语音类别的第一概率;

若所述第一概率超过第一概率阈值、且所述语音片段包括语音帧的数量超过数量阈值,则依据所述语音片段包括的语音帧,确定分割点。

c20、根据c18所述的装置,所述分类器的训练数据包括:语音处理场景对应的语音数据,所述语音数据包含噪声。

c21、根据c17至c20中任一所述的装置,所述修正信息包括:修正后的读音信息。

c22、根据c21所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

展示所述语音识别结果中多音字当前的读音信息;所述当前的读音信息为依据所述多音字及其上下文得到;

依据用户针对所述当前的读音信息的纠正操作,展示所述多音字对应的读音输入接口,以供用户输入修正后的读音信息。

c23、根据c17至c20中任一所述的装置,所述修正信息包括:修正后的情感参数;

所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

展示所述语音识别结果中语言单元当前的情感参数;

依据用户针对所述当前的情感参数的修正操作,展示所述语言单元对应的情感输入接口,以供用户输入修正后的情感参数。

c24、根据c17至c20中任一所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

对所述目标语音单元对应的修正结果与非目标语音单元对应的语音进行融合,以得到修正后的语音。

25、一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如a1至a8中一个或多个所述的方法。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种用于语音处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips