HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音识别结果的校准方法、装置、设备及存储介质与流程

2021-01-28 17:01:22|509|起点商标网
语音识别结果的校准方法、装置、设备及存储介质与流程

本发明涉及人工智能领域,尤其涉及一种语音识别结果的校准方法、装置、设备及存储介质。



背景技术:

人工智能中的语音识别技术,是让机器通过识别和理解过程将语音信号转变为相应的文本或命令的技术,随着科学技术的进步与不断发展,语音识别及时被应用到工业、家电、通信、医疗、电子产品等多个领域中,其中,自动语音识别技术(automaticspeechrecognition,asr)是语音识别技术中应用范围最广的技术,asr是利用模型将识别到的声音信息转换为相应的文本信息。

本申请的发明人在研究中发现,利用语音识别技术进行语音识别时,因缺少对目标语句上下语句的理解与分析,导致语音识别时的文字错误识别率高,语音识别的转化效率低下。



技术实现要素:

本发明的主要目的在于解决将语音转化为文字时文字错误识别率高的问题。

本发明第一方面提供了一种语音识别结果的校准方法,包括:基于语音识别算法获取多条目标语音,并将所述多条目标语音转化为文字,得到多条初始语句;通过模糊匹配算法筛选目标语句中的多个关键词,并根据转化阈值将所述多个关键词替换为多个基础标准词,得到第一校准语句,其中,所述目标语句为所述多条初始语句中的任意一条初始语句,所述基础标准词是业务数据中的常用词;根据上文语句中的其他标准词,对所述第一校准语句进行匹配校准,得到第二校准语句,其中,所述上文语句为所述第一校准语句的前一条语句,所述其他标准词为所述业务数据中除所述基础标准词之外的常用词;采用相似度算法分别计算所述第一校准语句的第一意图匹配度以及所述第二校准语句的第二意图匹配度;若所述第二意图匹配度大于所述第一意图匹配度,且所述第二意图匹配度的数值大于匹配阈值,则将所述第二校准语句确定为输出语句,否则将所述第一校准语句确定为输出语句。

可选的,在本发明第一方面的第一种实现方式中,所述基于语音识别算法获取多条目标语音,并将所述多条目标语音转化为文字,得到多条初始语句包括:基于语音识别算法获取多条目标语音,并提取所述多条目标语音中的语音特征;通过预设的声学模型将所述语音特征转化为音素信息,其中,所述音素信息用于指示构成音节的最小语音单位;利用所述音素信息匹配对应的文字信息,得到多条初始语句。

可选的,在本发明第一方面的第二种实现方式中,所述利用所述音素信息匹配对应的文字信息,得到多条初始语句包括:在预置字典中匹配与所述音素信息相对应的文字信息,其中,所述文字信息包括单个文字或词语;在预置关联概率中获取所述文字信息的关联概率,并提取出关联概率最大的文字信息作为目标文字,其中,所述预置关联概率用于指示任意两个单个文字或词语之间相互关联的概率;按照排列顺序将所述目标文字组合在一起,得到多条初始语句,其中,所述多条初始语句的数量与所述多条目标语音的数量相同。

可选的,在本发明第一方面的第三种实现方式中,所述通过模糊匹配算法筛选目标语句中的多个关键词,并根据转化阈值将所述多个关键词替换为多个基础标准词,得到第一校准语句包括:通过模糊匹配算法将目标语句转化为拼音语句;筛选出所述拼音语句中的目标音标,并将所述目标音标转化为近音音标,得到转化拼音语句,其中,所述目标音标包括具有易混淆的韵母和/或声母;提取出所述转化拼音语句中多个带有近音音标的关键词,并计算所述关键词与对应的基础标准词之间的相似度,其中,所述基础标准词是业务数据中的常用词;当目标相似度的数值大于替换阈值时,将目标相似度对应的关键词替换为对应的基础标准词,得到第一校准语句。

可选的,在本发明第一方面的第四种实现方式中,所述根据上文语句中的其他标准词,对所述第一校准语句进行匹配校准,得到第二校准语句包括:判断所述第一校准语句的上文语句中是否包括其他标准词;若所述上文语句中包括所述其他标准词,则判断所述第一校准语句中是否包括与所述其他标准词对应的性质相近的关键词,其中,所述性质相近的关键词包括近义关键词以及同音关键词;若所述第一校准语句中包括所述性质相近的关键词,则将所述性质相近的关键词替换为对应的其他标准词,得到第二校准语句。

可选的,在本发明第一方面的第五种实现方式中,所述若所述上文语句中包括所述其他标准词,则判断所述第一校准语句中是否包括与所述其他标准词对应的性质相近的关键词包括:若所述上文语句中包括所述其他标准词,则计算所述其他标准词与所述第一校准语句之间的多个意图相似度;基于第一预置算法以及目标意图相似度判断所述第一校准语句中是否包括近义关键词;若所述第一校准语句中不包括所述近义关键词,则将所述第一校准语句转化为校准拼音语句,并计算所述校准拼音语句与所述其他标准词的拼音之间的多个拼音相似度;基于第二预置算法以及目标拼音相似度判断所述校准拼音语句中是否包括同音关键词。

可选的,在本发明第一方面的第六种实现方式中,所述分别计算所述第一校准语句的第一意图匹配度以及所述第二校准语句的第二意图匹配度包括:提取所述第一校准语句中的基础标准词;采用相似度算法计算所述基础标准词与所述第一校准语句之间的第一意图匹配度,其中,所述第一意图匹配度用于指示所述预置关键词符合所述第一校准语句表达含义的匹配值;提取所述第二校准语句中的其他标准词;采用所述相似度算法计算所述其他标准词与所述第二校准语句之间的第二意图匹配度。

本发明第二方面提供了一种语音识别结果的校准装置,包括:获取及转化模块,用于基于语音识别算法获取多条目标语音,并将所述多条目标语音转化为文字,得到多条初始语句;筛选及替换模块,用于通过模糊匹配算法筛选目标语句中的多个关键词,并根据转化阈值将所述多个关键词替换为多个基础标准词,得到第一校准语句,其中,所述目标语句为所述多条初始语句中的任意一条初始语句,所述基础标准词是业务数据中的常用词;校准模块,用于根据上文语句中的其他标准词,对所述第一校准语句进行匹配校准,得到第二校准语句,其中,所述上文语句为所述第一校准语句的前一条语句,所述其他标准词为所述业务数据中除所述基础标准词之外的常用词;计算模块,用于采用相似度算法分别计算所述第一校准语句的第一意图匹配度以及所述第二校准语句的第二意图匹配度;输出模块,若所述第二意图匹配度大于所述第一意图匹配度,且所述第二意图匹配度的数值大于匹配阈值,则用于将所述第二校准语句确定为输出语句,否则将所述第一校准语句确定为输出语句。

可选的,在本发明第二方面的第一种实现方式中,所述获取及转化模块包括:提取单元,用于基于语音识别算法获取多条目标语音,并提取所述多条目标语音中的语音特征;转化单元,用于通过预设的声学模型将所述语音特征转化为音素信息,其中,所述音素信息用于指示构成音节的最小语音单位;匹配单元,用于利用所述音素信息匹配对应的文字信息,得到多条初始语句。

可选的,在本发明第二方面的第二种实现方式中,所述匹配单元具体用于:在预置字典中匹配与所述音素信息相对应的文字信息,其中,所述文字信息包括单个文字或词语;在预置关联概率中获取所述文字信息的关联概率,并提取出关联概率最大的文字信息作为目标文字,其中,所述预置关联概率用于指示任意两个单个文字或词语之间相互关联的概率;按照排列顺序将所述目标文字组合在一起,得到多条初始语句,其中,所述多条初始语句的数量与所述多条目标语音的数量相同。

可选的,在本发明第二方面的第三种实现方式中,所述筛选及替换模块具体用于:通过模糊匹配算法将目标语句转化为拼音语句;筛选出所述拼音语句中的目标音标,并将所述目标音标转化为近音音标,得到转化拼音语句,其中,所述目标音标包括具有易混淆的韵母和/或声母;提取出所述转化拼音语句中多个带有近音音标的关键词,并计算所述关键词与对应的基础标准词之间的相似度,其中,所述基础标准词是业务数据中的常用词;当目标相似度的数值大于替换阈值时,将目标相似度对应的关键词替换为对应的基础标准词,得到第一校准语句。

可选的,在本发明第二方面的第四种实现方式中,所述校准模块包括:第一判断单元,用于判断所述第一校准语句的上文语句中是否包括其他标准词;第二判断单元,若所述上文语句中包括所述其他标准词,则用于判断所述第一校准语句中是否包括与所述其他标准词对应的性质相近的关键词,其中,所述性质相近的关键词包括近义关键词以及同音关键词;替换单元,若所述第一校准语句中包括所述性质相近的关键词,则用于将所述性质相近的关键词替换为对应的其他标准词,得到第二校准语句。

可选的,在本发明第二方面的第五种实现方式中,所述第二判断单元具体用于:若所述上文语句中包括所述其他标准词,则计算所述其他标准词与所述第一校准语句之间的多个意图相似度;基于第一预置算法以及目标意图相似度判断所述第一校准语句中是否包括近义关键词;若所述第一校准语句中不包括所述近义关键词,则将所述第一校准语句转化为校准拼音语句,并计算所述校准拼音语句与所述其他标准词的拼音之间的多个拼音相似度;基于第二预置算法以及目标拼音相似度判断所述校准拼音语句中是否包括同音关键词。

可选的,在本发明第二方面的第六种实现方式中,所述计算模块具体用于:提取所述第一校准语句中的基础标准词;采用相似度算法计算所述基础标准词与所述第一校准语句之间的第一意图匹配度,其中,所述第一意图匹配度用于指示所述预置关键词符合所述第一校准语句表达含义的匹配值;提取所述第二校准语句中的其他标准词;采用所述相似度算法计算所述其他标准词与所述第二校准语句之间的第二意图匹配度。

本发明第三方面提供了一种语音识别结果的校准设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音识别结果的校准设备执行上述的语音识别结果的校准方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的语音识别结果的校准方法。

本发明提供的技术方案中,基于语音识别算法获取多条目标语音,并将所述多条目标语音转化为文字,得到多条初始语句;通过模糊匹配算法筛选目标语句中的多个关键词,并根据转化阈值将所述多个关键词替换为多个基础标准词,得到第一校准语句,所述目标语句为所述多条初始语句中的任意一条初始语句,所述基础标准词是业务数据中的多个常用词;根据上文语句中的其他标准词,对所述第一校准语句进行匹配校准,得到第二校准语句,所述上文语句为所述第一校准语句的前一条语句,所述其他标准词为所述业务数据中除所述多个基础标准词之外的多个常用词;分别计算所述第一校准语句的第一意图匹配度以及所述第二校准语句的第二意图匹配度;若所述第二意图匹配度大于所述第一意图匹配度,且所述第二意图匹配度的数值大于预设的阈值,则将所述第二校准语句确定为输出语句,否则将所述第一校准语句确定为输出语句。本发明实施例中,根据目标语音的上文语句对目标语句进行修正,然后根据预设的阈值确定输出语句,降低了语音识别时的文字错误识别率,提高了语音识别的转化效率。

附图说明

图1为本发明实施例中语音识别结果的校准方法的一个实施例示意图;

图2为本发明实施例中语音识别结果的校准方法的另一个实施例示意图;

图3为本发明实施例中语音识别结果的校准装置的一个实施例示意图;

图4为本发明实施例中语音识别结果的校准装置的另一个实施例示意图;

图5为本发明实施例中语音识别结果的校准设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种语音识别结果的校准方法、装置、设备及存储介质,根据目标语音的上文语句对目标语句进行修正,然后根据预设的阈值确定输出语句,降低了语音识别时的文字错误识别率,提高了语音识别的转化效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中语音识别结果的校准方法的一个实施例包括:

101、基于语音识别算法获取多条目标语音,并将多条目标语音转化为文字,得到多条初始语句;

可以理解的是,本发明的执行主体可以为语音识别结果的校准装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器基于语音识别算法获取多条目标语音,并将多条目标语音转化为文字,得到多条初始语句。

这里利用到自动语音识别算法将多条目标语音转化为多条语句,自动语音识别算法的原理主要是:服务器首先收集大量的语音样本进行训练,分析出语音特征参数,将其制作成语音模板并保存在语音参数库中;然后服务器获取待识别的语音,并将待识别的语音经过与训练时相同的步骤,得到语音识别参数,将语音识别参数与语音参数库中的参考模板一一比较,并采用判决的方法找出最匹配的模板,得出识别结果,服务器在进行语音识别参数与参考模板比较时会有一个失真测度,及时优化比较的结果。整个识别过程中,采用的识别框架有基于模式匹配的动态时间规整法和基于统计模型的隐马尔可夫模型法,这样就可以得到由多条目标语音转化的多条初始语句。

102、通过模糊匹配算法筛选目标语句中的多个关键词,并根据转化阈值将多个关键词替换为多个基础标准词,得到第一校准语句,其中,目标语句为多条初始语句中的任意一条初始语句,基础标准词是业务数据中的常用词;

服务器通过模糊匹配算法筛选多条初始语句中的任意一条初始语句中的多个关键词,并根据转化阈值将多个关键词替换为多个基础标准词,得到第一校准语句,其中,基础标准词是业务数据中的常用词。

这里利用到模糊匹配算法筛选目标语句中的多个关键词,模糊匹配算法的原理是将目标语句转化为与其对应的拼音,将具有易混淆音标的目标音标转化为近音音标,这样就可以得到多种与目标语句近音的语句,得到识别出语句的多种可能性,再从这些可能性的语句中选择一个与上文语句的场景最相似的语句,即会得到最终识别到的校准语句。

需要说明的是,基础标准词指的是业务数据中多次出现的常用词,以保险场景为业务数据为例,基础标准词为保费、理赔、免赔以及金额等,这些是在保险场景中多次出现的常用词。基础标准词的设置让目标语句的识别更加贴近实际情况,增强场景的识别度。这里的业务数据的种类可以有很多,每种业务数据中的基础标准词不止一个,且均为与业务数据场景相关的常用词。

103、根据上文语句中的其他标准词,对第一校准语句进行匹配校准,得到第二校准语句,其中,上文语句为第一校准语句的前一条语句,其他标准词为业务数据中除基础标准词之外的常用词;

服务器根据同于指示第一校准语句的前一条语句上文语句中的其他标准词,对第一校准语句进行匹配校准,得到第二校准语句,其中,其他标准词为业务数据中除基础标准词之外的常用词。

根据用于指示第一校准语句的前一条语句的上文语句中的其他标准词,对第一校准语句进行匹配校准,得到第二校准语句,其中,其他标准词为业务数据中除基础标准词之外的多个常用词。

这里的第一校准语句的上文语句指的是第一校准语句的前一条语句,获取上文语句的目的是为了提取上文语句中的其他标准词,提取到其他标准词并判断目标语句中是否存在与其他标准词性质相近的关键词,这里的其他标准词为业务数据中除多个基础标准词之外的多个常用词,因为在业务数据中有多个常用词,在确定目标语句中的关键词替换为基础标准词之后,目标语句中可能包括业务数据中的常用词或与常用词性质相近的常用词,因此,服务器需要判断上文语句中是否包括其他标准词,此外,这里的性质相近的关键词包括近义关键词以及同音关键词,若第一校准语句中包括性质相近的关键词,则将性质相近的关键词替换为对应的其他标准词。服务器进行这样的操作可以进一步的将目标语句中词语校准,使目标语句更加接近业务数据的场景,提升目标语句的识别准确度。

104、采用相似度算法分别计算第一校准语句的第一意图匹配度以及第二校准语句的第二意图匹配度;

服务器采用相似度算法分别计算第一校准语句的第一意图匹配度以及第二校准语句的第二意图匹配度。

服务器在进行基础标准词或者其他标准词替换过后,会判断替换过后的语句是否符合逻辑,这就需要服务器进行第一校准语句的第一意图匹配度计算以及第二校准语句的第二意图匹配度计算。这里第一意图匹配度的计算利用到余弦相似度算法,第一意图匹配度的计算公式为:

在式中,cos(θ)表示第一意图匹配度,n表示计算第一意图匹配度的数量,i表示第i个意图匹配度,wi表示第i个预置关键词,di表示第i个第一校准语句。服务器首先将基础标准词以及第一校准语句依次输入到word2vec网络模型和doc2vec网络模型中,由通过两个模型网络中的余弦相识度算法计算得到第一意图匹配度。这里计算第二意图匹配度的方法与计算第一意图匹配度的方法一致,因此不在此赘述。

在得到第一意图匹配度以及第二意图匹配度之后,服务器需要比较第一意图匹配度与第二意图匹配度之间的数值关系,检查第二意图匹配度是否高于第一意图匹配度,匹配度越高说明语句的逻辑准确性越高,执行利用基础标准词替换关键词的步骤越正确,否则利用基础标准词替换关键词的步骤无意义。

105、若第二意图匹配度大于第一意图匹配度,且第二意图匹配度的数值大于匹配阈值,则将第二校准语句确定为输出语句,否则将第一校准语句确定为输出语句。

若第二意图匹配度大于第一意图匹配度,且第二意图匹配度的数值大于匹配阈值,则服务器将第二校准语句确定为输出语句,否则将第一校准语句确定为输出语句

服务器在得到第一意图匹配度以及第二意图匹配度之后,比较第一意图匹配度与第二意图匹配图的数值,当第二意图匹配度大于第一意图匹配度时,说明第二意图匹配度对应的第二校准语句更加符合语言的逻辑关系,这里得到的第二意图匹配度也需大于匹配阈值,匹配阈值指的是语句符合语言逻辑关系的基本阈值,如果意图匹配度小于或等于匹配阈值,说明语句的基本语言逻辑不通,则不能被认定为一条逻辑清晰的语句,服务器将没有替换关键词的语句作为输出语句进行输出,也就是说第二意图匹配度大于第一意图匹配度,且第二意图匹配度大于匹配阈值,则将第二校准语句作为输出语句,否则将第一校准语句作为输出语句。这样的操作在考虑目标语音上下文的关联性的基础上,也保证了输出语句尽可能的还原出目标语音所表达的意思。

本发明实施例中,根据目标语音的上文语句对目标语句进行修正,然后根据预设的阈值确定输出语句,降低了语音识别时的文字错误识别率,提高了语音识别的转化效率。

请参阅图2,本发明实施例中语音识别结果的校准方法的另一个实施例包括:

201、基于语音识别算法获取多条目标语音,并提取多条目标语音中的语音特征;

服务器基于语音识别算法获取多条目标语音,并提取多条目标语音中的语音特征。

这里利用到自动语音识别算法将多条目标语音转化为多条语句,自动语音识别算法的原理主要是:服务器首先收集大量的语音样本进行训练,分析出语音特征参数,将其制作成语音模板并保存在语音参数库中;然后服务器获取待识别的语音,并将待识别的语音经过与训练时相同的步骤,得到语音识别参数,将语音识别参数与语音参数库中的参考模板一一比较,并采用判决的方法找出最匹配的模板,得出识别结果,服务器在进行语音识别参数与参考模板比较时会有一个失真测度,及时优化比较的结果。整个识别过程中,采用的识别框架有基于模式匹配的动态时间规整法和基于统计模型的隐马尔可夫模型法,这样就可以得到由多条目标语音转化的多条初始语句。

202、通过预设的声学模型将语音特征转化为音素信息,其中,音素信息用于指示构成音节的最小语音单位;

服务器通过预设的声学模型将语音特征转化为指示构成音节的最小语音单位的音素信息。

可以理解的是,音素信息是根据语音的自然属性划分出来的最小语音单位,也是从音质的角度划分出来的最小的线性的语音单位,其依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。这里服务器通过预设的声学模型将语音特征转化为构成音节的最小语音单位,通过对因素单位的分析,可以更精准的将音素信息拼合成文字信息。

203、利用音素信息匹配对应的文字信息,得到多条初始语句;

服务器利用音素信息匹配对应的文字信息,得到多条初始语句。具体的:

服务器首先在预置字典中匹配与音素信息相对应的文字信息,其中,文字信息包括单个文字或词语;然后服务器在预置关联概率中获取文字信息用于指示任意两个单个文字或词语之间相互关联的概率的关联概率,并提取出关联概率最大的文字信息作为目标文字;最后服务器按照排列顺序将目标文字组合在一起,得到多条初始语句,其中,多条初始语句的数量与多条目标语音的数量相同。

需要说明的是,这里的预置关联概率是语言模型通过对大量文字信息进行训练得到的,其中,文字信息包括单个文字或词语。服务器首先收集大量的文字信息,举例来讲,文字信息可能为单个文字“我”或词语“我们”,将不同的文字信息输入至语言模型中,通过深度神经网络,计算出不同文字信息之间的关联概率,关联概率指的是不同文字信息搭配组合在一起能够形成完整的词语或句子的概率,例如:通过语言模型的计算,单个文字“我”的关联概率为0.0786,单个文字“们”的关联概率为0.0359,而词语“我们”的关联概率为0.8572,说明当文字信息中出现“我”与“们”时,组成“我们”的概率较高。服务器通过语言模型计算出大量文字信息的关联概率,并将其作为预置关联概率,为实时获取到的文字信息做对比,这样就能通过预置关联概率获取由语音转化为文字的目标语句。

可以理解的是,在获取到目标语音之后,服务器首先会对目标语音做预处理,预处理的目的是让之后语音识别的结果更精确,预处理的过程一般为:1、将目标语音首尾端的静音切除,降低对后续步骤造成的干扰;2、将目标语音分帧处理,也就是通过移动窗函数将声音切成多个小段,并将每个小段称为一帧,这里的各帧之间一般是有交叠的。此外,目标语音可以为一条或者多条,同时,识别出来目标文字的条数与目标语音的条数是相同且一一对应的。

举例说明,以识别目标语音“我是机器人”为例,首先服务器获取到目标语音“我是机器人”,对目标语音进行预处理,预处理之后服务器提取目标语音中的语音特征,如得到的语音特征为:[1234560],然后服务器通过声学模型将语音特征转化为音素信息,如得到因素信息为:wosijiqirn,待得到音素信息之后,服务器在预置字典中匹配到与音素信息相对应的文字,如得到以下文字:窝:wo;我:wo;是:si;机:ji;器:qi;人:rn;级:ji;忍:rn;然后服务器在预置关联概率中获取文字信息之间的关联概率,如得到以下概率:我:0.0786,是:0.0546,我是:0.0898,机器:0.0967,机器人:0.6785;最后服务器选取关联概率最大的文字信息作为目标文字,关联概率越大,说明按照该组合形成的词语或句子出现的概率越大,服务器按照顺序将目标文字组合在一起,得到目标语句,如得到的目标语句为:我是机器人。

204、通过模糊匹配算法筛选目标语句中的多个关键词,并根据转化阈值将多个关键词替换为多个基础标准词,得到第一校准语句,其中,目标语句为多条初始语句中的任意一条初始语句,基础标准词是业务数据中的常用词;

服务器通过模糊匹配算法筛选多条初始语句中的任意一条初始语句中的多个关键词,并根据转化阈值将多个关键词替换为多个基础标准词,得到第一校准语句,其中,基础标准词是业务数据中的常用词。具体的:

服务器首先通过模糊匹配算法将目标语句转化为拼音语句;其次服务器筛选出拼音语句中的目标音标,并将目标音标转化为近音音标,得到转化拼音语句,其中,目标音标包括具有易混淆的韵母和/或声母;然后服务器提取出转化拼音语句中多个带有近音音标的关键词,并计算关键词与对应的基础标准词之间的相似度,基础标准词是业务数据中的常用词;最后服务器当目标相似度的数值大于替换阈值时,将目标相似度对应的关键词替换为对应的基础标准词,得到第一校准语句。

服务器在目标语句中进行多个关键词的筛选,目的是将多个关键词替换为跟业务数据相关的基础标准词,令替换之后的语句与业务场景息息相关,提升目标语句与实际目标语音的贴合度。这里服务器采用的是模糊匹配算法筛选目标语句中的关键词,模糊匹配算法的原理是将目标语句转化为与其对应的拼音,将具有易混淆音标的目标音标转化为近音音标,具有易混淆音标的目标音标以及其对应的近音音标为:辅音易混淆:b/p;前后鼻音易混淆:en/eng;平翘舌易混淆:z/zh。待将目标音标转化为近音音标之后,服务器计算带有近音音标的关键词与基础标准词之间的相似度,当计算出的相似度大于替换阈值时,就将关键词替换为基础标准词,得到替换后的语句。此外,这里的替换阈值是指将关键词替换为基础标准词的替换标准,替换阈值的数值可以根据具体的业务数据进行设置,在本申请中并不对其进行限定。

举例来说:以目标语句为“流奶”,第一校准语句为“牛奶”为例,首先服务器将目标语句转化为对应的拼音语句liunai,然后筛选出拼音语句中带有易混淆音标的目标音标n,目标音标对应的近音音标为l,将拼音语句中的目标音标转化为近音音标为:niunai和niulai,服务器计算带有近音音标关键词与已知基础标准词“牛奶”之间的相似度,得到的相似度结果为牛奶niunai:0.86;牛莱niulai:0.32;流奶liunai:0.45,而预设的转化阈值为0.56,篮球的相似度大于转化阈值,则将关键词“流奶”替换成基础标准词“牛奶”。

205、根据上文语句中的其他标准词,对第一校准语句进行匹配校准,得到第二校准语句,其中,上文语句为第一校准语句的前一条语句,其他标准词为业务数据中除基础标准词之外的常用词;

服务器根据同于指示第一校准语句的前一条语句上文语句中的其他标准词,对第一校准语句进行匹配校准,得到第二校准语句,其中,其他标准词为业务数据中除基础标准词之外的常用词。具体的:

服务器首先判断第一校准语句的上文语句中是否包括其他标准词;若上文语句中包括其他标准词,则服务器判断第一校准语句中是否包括与其他标准词对应的性质相近的关键词,其中,性质相近的关键词包括近义关键词以及同音关键词;若第一校准语句中包括性质相近的关键词,则服务器将性质相近的关键词替换为对应的其他标准词,得到第二校准语句。

需要说明的是,这里的基础标准词与其他标准词均为业务数据中多次出现的常用词,且均与业务数据的场景有关。服务器在判断上文语句中包括其他标准词后,还需要判断第一校准语句中是否出现与其他标准词性质相近的关键词,这里与其他标准词性质相近的关键词包括近义关键词以及同音关键词,服务器需要分别对这两种性质相近的关键词进行筛查,再进行接下来执行性质相近的关键词的替换指令。

若上文语句中包括其他基础标准词,则服务器判断第一校准语句中是否包括与其他基础标准词性质相近的关键词。具体的:若上文语句中包括其他标准词,则服务器首先计算其他标准词与第一校准语句之间的多个意图相似度;其次服务器基于第一预置算法以及意图相似度判断第一校准语句中是否包括近义关键词;若第一校准语句中不包括近义关键词,则服务器将第一校准语句转化为校准拼音语句,并计算校准拼音语句与其他标准词的拼音之间的多个拼音相似度;最后服务器基于第二预置算法以及拼音相似度判断校准拼音语句中是否包括同音关键词。

服务器在第一校准语句中判断是否存在近义关键词,服务器首先需要计算其他标准词与第一校准语句之间的多个意图相似度,也就是通过计算结果判断第一校准语句中是否有与其他标准词意图相似的词语,这里利用到的第一预置算法是意图识别算法,利用意图识别算法对第一校准语句进行预处理,包括去除第一校准语句中的标点符号、去除停用词等,待第一校准语句进行预处理后,将第一校准语句转化为数据并生成词向量,服务器在采用长短期记忆网络(longshort-termmemory,lstm)对词向量进行特征提取,最后对词向量的特征进行分类,也就是计算其他标准词与第一校准语句中词向量特征之间的意图相似度,当目标意图相似度超过第一阈值时,则说明第一校准语句中包括近义关键词。这里的第一阈值的数值可以根据具体的业务数据进行设置,在本申请中并不对其进行限定。

服务器在第一校准语句中判断是否存在同音关键词时,服务器首先需要计算其他标准词与第一校准语句之间的多个拼音相似度,服务器将第一校准语句中的中文转化为与之相对应的拼音,得到校准拼音语句,之后服务器在计算校准拼音语句与其他标准词之间的拼音相似度,这里利用到的第二预置算法是相似度算法,也就是编辑距离算法,通过编辑距离算法以及计算得到的拼音相似度判断校准拼音语句中是否包括同音关键词,当目标拼音相似度超过第二阈值时,则说明第一校准语句中包括同音关键词。这里的第二阈值的数值可以根据具体的业务数据进行设置,在本申请中并不对其进行限定。

206、采用相似度算法分别计算第一校准语句的第一意图匹配度以及第二校准语句的第二意图匹配度;

服务器采用相似度算法分别计算第一校准语句的第一意图匹配度以及第二校准语句的第二意图匹配度。具体的:

服务器首先提取第一校准语句中的基础标准词;其次服务器采用相似度算法计算基础标准词与第一校准语句之间的第一意图匹配度,其中,第一意图匹配度用于指示预置关键词符合第一校准语句表达含义的匹配值;然后服务器提取第二校准语句中的其他标准词;最后服务器采用相似度算法计算其他标准词与第二校准语句之间的第二意图匹配度。

服务器在进行基础标准词或者其他基础标准词替换过后,会判断替换过后的语句是否符合逻辑,这就需要服务器进行第一校准语句的第一意图匹配度计算以及第二校准语句的第二意图匹配度计算。这里第一意图匹配度的计算利用到余弦相似度算法,第一意图匹配度的计算公式为:

在式中,cos(θ)表示第一意图匹配度,n表示计算第一意图匹配度的数量,i表示第i个意图匹配度,wi表示第i个预置关键词,di表示第i个第一校准语句。服务器首先将基础标准词以及第一校准语句依次输入到word2vec网络模型和doc2vec网络模型中,由通过两个模型网络中的余弦相似度算法计算得到第一意图匹配度。这里计算第二意图匹配度的方法与计算第一意图匹配度的方法一致,因此不在此赘述。

在得到第一意图匹配度以及第二意图匹配度之后,服务器需要比较第一意图匹配度与第二意图匹配度之间的数值关系,检查第二意图匹配度是否高于第一意图匹配度,匹配度越高说明语句的逻辑准确性越高,执行利用基础标准词替换关键词的步骤越正确,否则利用基础标准词替换关键词的步骤无意义。

207、若第二意图匹配度大于第一意图匹配度,且第二意图匹配度的数值大于匹配阈值,则将第二校准语句确定为输出语句,否则将第一校准语句确定为输出语句。

若第二意图匹配度大于第一意图匹配度,且第二意图匹配度的数值大于匹配阈值,则服务器将第二校准语句确定为输出语句,否则将第一校准语句确定为输出语句。

服务器在得到第一意图匹配度以及第二意图匹配度之后,比较第一意图匹配度与第二意图匹配图的数值,当第二意图匹配度大于第一意图匹配度时,说明第二意图匹配度对应的第二校准语句更加符合语言的逻辑关系,这里得到的第二意图匹配度也需大于匹配阈值,匹配阈值指的是语句符合语言逻辑关系的基本阈值,如果意图匹配度没有小于或等于匹配阈值,说明语句的基本语言逻辑不通,则不能被认定为一条逻辑清晰的语句,服务器将没有替换关键词的语句作为输出语句进行输出,也就是说第二意图匹配度大于第一意图匹配度,且第二意图匹配度大于匹配阈值,则将第二校准语句作为输出语句,否则将第一校准语句作为输出语句。这样的操作在考虑目标语音上下文的关联性的基础上,也保证了输出语句尽可能的还原出目标语音所表达的意思。

本发明实施例中,根据目标语音的上文语句对目标语句进行修正,然后根据预设的阈值确定输出语句,降低了语音识别时的文字错误识别率,提高了语音识别的转化效率。

上面对本发明实施例中语音识别结果的校准方法进行了描述,下面对本发明实施例中语音识别结果的校准装置进行描述,请参阅图3,本发明实施例中语音识别结果的校准装置一个实施例包括:

获取及转化模块301,用于基于语音识别算法获取多条目标语音,并将多条目标语音转化为文字,得到多条初始语句;

筛选及替换模块302,用于通过模糊匹配算法筛选目标语句中的多个关键词,并根据转化阈值将多个关键词替换为多个基础标准词,得到第一校准语句,其中,目标语句为多条初始语句中的任意一条初始语句,基础标准词是业务数据中的常用词;

校准模块303,用于根据上文语句中的其他标准词,对第一校准语句进行匹配校准,得到第二校准语句,其中,上文语句为第一校准语句的前一条语句,其他标准词为业务数据中除基础标准词之外的常用词;

计算模块304,用于采用相似度算法分别计算第一校准语句的第一意图匹配度以及第二校准语句的第二意图匹配度;

输出模块305,若第二意图匹配度大于第一意图匹配度,且第二意图匹配度的数值大于匹配阈值,则用于将第二校准语句确定为输出语句,否则将第一校准语句确定为输出语句。

本发明实施例中,根据目标语音的上文语句对目标语句进行修正,然后根据预设的阈值确定输出语句,降低了语音识别时的文字错误识别率,提高了语音识别的转化效率。

请参阅图4,本发明实施例中语音识别结果的校准装置的另一个实施例包括:

获取及转化模块301,用于基于语音识别算法获取多条目标语音,并将多条目标语音转化为文字,得到多条初始语句;

筛选及替换模块302,用于通过模糊匹配算法筛选目标语句中的多个关键词,并根据转化阈值将多个关键词替换为多个基础标准词,得到第一校准语句,其中,目标语句为多条初始语句中的任意一条初始语句,基础标准词是业务数据中的常用词;

校准模块303,用于根据上文语句中的其他标准词,对第一校准语句进行匹配校准,得到第二校准语句,其中,上文语句为第一校准语句的前一条语句,其他标准词为业务数据中除基础标准词之外的常用词;

计算模块304,用于采用相似度算法分别计算第一校准语句的第一意图匹配度以及第二校准语句的第二意图匹配度;

输出模块305,若第二意图匹配度大于第一意图匹配度,且第二意图匹配度的数值大于匹配阈值,则用于将第二校准语句确定为输出语句,否则将第一校准语句确定为输出语句。

可选的,获取及转化模块301包括:

提取单元3011,用于基于语音识别算法获取多条目标语音,并提取多条目标语音中的语音特征;

转化单元3012,用于通过预设的声学模型将语音特征转化为音素信息,其中,音素信息用于指示构成音节的最小语音单位;

匹配单元3013,用于利用音素信息匹配对应的文字信息,得到多条初始语句。

可选的,匹配单元3013还可以具体用于:

在预置字典中匹配与音素信息相对应的文字信息,其中,文字信息包括单个文字或词语;

在预置关联概率中获取文字信息的关联概率,并提取出关联概率最大的文字信息作为目标文字,其中,预置关联概率用于指示任意两个单个文字或词语之间相互关联的概率;

按照排列顺序将目标文字组合在一起,得到多条初始语句,其中,多条初始语句的数量与多条目标语音的数量相同。

可选的,筛选及替换模块302还可以具体用于:

通过模糊匹配算法将目标语句转化为拼音语句;

筛选出拼音语句中的目标音标,并将目标音标转化为近音音标,得到转化拼音语句,其中,目标音标包括具有易混淆的韵母和/或声母;

提取出转化拼音语句中多个带有近音音标的关键词,并计算关键词与对应的基础标准词之间的相似度,其中,基础标准词是业务数据中的常用词;

当目标相似度的数值大于替换阈值时,将目标相似度对应的关键词替换为对应的基础标准词,得到第一校准语句。

可选的,校准模块303包括:

第一判断单元3031,用于判断第一校准语句的上文语句中是否包括其他标准词;

第二判断单元3032,若上文语句中包括其他标准词,则用于判断第一校准语句中是否包括与其他标准词对应的性质相近的关键词,其中,性质相近的关键词包括近义关键词以及同音关键词;

替换单元3033,若第一校准语句中包括性质相近的关键词,则用于将性质相近的关键词替换为对应的其他标准词,得到第二校准语句。

可选的,第二判断单元3032还可以具体用于:

若上文语句中包括其他标准词,则计算其他标准词与第一校准语句之间的多个意图相似度;

基于第一预置算法以及目标意图相似度判断第一校准语句中是否包括近义关键词;

若第一校准语句中不包括近义关键词,则将第一校准语句转化为校准拼音语句,并计算校准拼音语句与其他标准词的拼音之间的多个拼音相似度;

基于第二预置算法以及目标拼音相似度判断校准拼音语句中是否包括同音关键词。

可选的,计算模块304还可以具体用于:

提取第一校准语句中的基础标准词;

采用相似度算法计算基础标准词与第一校准语句之间的第一意图匹配度,其中,第一意图匹配度用于指示预置关键词符合第一校准语句表达含义的匹配值;

提取第二校准语句中的其他标准词;

采用相似度算法计算其他标准词与第二校准语句之间的第二意图匹配度。

本发明实施例中,根据目标语音的上文语句对目标语句进行修正,然后根据预设的阈值确定输出语句,降低了语音识别时的文字错误识别率,提高了语音识别的转化效率。

上面图3和图4从模块化功能实体的角度对本发明实施例中的语音识别结果的校准装置进行详细描述,下面从硬件处理的角度对本发明实施例中语音识别结果的校准设备进行详细描述。

图5是本发明实施例提供的一种语音识别结果的校准设备的结构示意图,该语音识别结果的校准设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对语音识别结果的校准设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在语音识别结果的校准设备500上执行存储介质530中的一系列指令操作。

语音识别结果的校准设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的语音识别结果的校准设备结构并不构成对语音识别结果的校准设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述语音识别结果的校准方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips