一种利用话术语句提升语音识别准确率的识别方法与流程
本发明涉及语音识别技术领域,特别是一种利用话术语句提升语音识别准确率的识别方法。
背景技术:
语音识别、语义理解和语音合成技术的发展,让智能语音对话机器人进入日常生活,为用户提供越来越便捷的智能语音对话服务。用户可以根据自身场景的需求,编写自定义的话术,创建符合自己需求的智能语音对话机器人。
语音识别把用户说的语音转化为对应的文本,然后语义理解依据用户定义的话术语句判断用户的意图并产生应答的文本,最后语音合成应答的文本转化为语音并播放给用户。
现有智能语音对话机器人系统中的语音识别具有通用性,可用于各种各样的场景,与智能语音对话机器人的类型、应用领域和交互话术的配置无关。为了能够用于多种场景,语音识别系统需要在这些场景下的准确率达到一个平衡,这导致语音识别系统在特定场景下的准确率不会太高。
在实际智能语音对话机器人中,用户预设了机器人的对话场景和说话语义范围,在通用性语音识别中并没有这个假设。利用智能语音对话机器人话术中配置的候选语料增强语音识别系统,对于提高语音识别准确率和人机对话质量有重要的意义。
技术实现要素:
本发明所要解决的技术问题是克服现有技术的不足而提供一种利用话术语句提升语音识别准确率的识别方法,本发明提出用话术中配置的语句动态更新语言模型提高语音识别的准确率。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种利用话术语句提升语音识别准确率的识别方法,包括以下步骤:
步骤1、使用通用性文本训练第一语言模型;训练第一语言模型具体如下:
设i为正在统计的序列的长度,i为大于等于1的整数;
当i等于1时,首先统计词语序列的第1个词语w1出现的次数c(w1),然后统计w1按顺序出现之后连接任一词语w的次数之和∑wc(w1,w);
当i大于1时,首先统计通用型文本中词语序列w1、w2、…、wi按顺序出现的次数c(w1,w2,...,wi),然后统计文本中词语序列w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和∑wc(w1,w2,...,wi-1,w);ws为词语序列的第s个词语,s为大于0小于(i+1)的整数;
对于由词语序列w1,w2,...,wn组成的句子,n为该句子中词语的个数,其序列概率pgeneral通过下面的公式计算得到:
其中,p(wi|w1,w2,...,wi-1)为第i个词出现的条件概率,p(w1)为第1个词出现的条件概率,p(w2|w1)为第2个词出现的条件概率;
c(w1,w2,...,wi)为文本中词语序列w1、w2、…、wi按顺序出现的次数,∑wc(w1,w2,...,wi-1,w)为文本中词语序列w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和;
步骤2、定义对话机器人的话术,采用话术语句训练语言模型得到第二语言模型;
第二语言模型是话术语句的序列概率,具体为:
对于由词语序列w1,w2,...,wn组成的话术语句,其序列概率pdialogue通过下面的公式计算得到:
其中,p(wi|w1,w2,...,wi-1)为第i个词出现的条件概率,p(w1)为第1个词出现的条件概率,p(w2|w1)为第2个词出现的条件概率;
步骤3、将第一语言模型和第二语言模型融合生成最终的语言模型;
最终的语言模型为:
由词语序列w1,w2,...,wn组成的句子,其序列概率pfinal(w1w2...wn)通过下面的公式计算得到;
pfinal(w1w2...wn)=λ1pgeneral+λ2pdialogue
其中,λ1和λ2为插值系数,用于调节第一语言模型和第二语言模型在pfinal(w1w2...wn)中的权重;
步骤4、使用所述最终的语音模型生成语音识别系统,通过该语音识别系统来提升语音识别准确率。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明提出用话术中配置的语句动态更新语言模型提高语音识别的准确率;在构建语音识别系统过程中,仍然以通用性的文本资源训练第一语言模型;在自定义对话机器人的话术之后,用对话语句文本训练第二语言模型;最终的语言模型融合第一语言模型和第二语言模型,使得语音识别系统对自定义场景下的语音有更好的准确率。
具体实施方式
下面对本发明的技术方案做进一步的详细说明:
当前语音识别系统中使用的语言模型主要有统计语言模型和神经网络语言模型。需要注意的是本发明提出的方法不仅适用于统计语言模型也适用于神经网络语言模型。
1.使用通用性文本训练第一语言模型
语音识别系统通常会有大量的来自各个领域的文本语料用于训练语言模型。通用性语言模型的训练使用这些与对话系统无关的各个领域文本语料库进行训练。
为了能够适应各种场景,语音识别系统通常会用来自各种场景的大量文本语料训练语言模型,这些文本与具体的对话系统无关的文本,称为通用性文本。
下面以统计语言模型中最为常见的n-gram语言模型为例,说明第一语言模型训练和计算的步骤。
设i为大于1的正整数,在语音识别系统的具体实现中,i通常设置为3或者4。当i=3时,称为3-gram语言模型,当i=4时称为为4-gram语言模型。
首先统计通用型文本中词语w1、w2、…、wi按顺序出现的次数c(w1,w2,...,wi),然后统计文本中词语w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和∑wc(w1,w2,...,wi-1,w)。
对于句子w1,w2,...,wn,其序列概率通过下面的公式计算得到:
其中,p(wi|w1,w2,...,wi-1)为每个词出现的条件概率,它可以通过统计上述统计方法计算得到:
2.使用话术中配置的用户语句训练第二语言模型
首先统计通用型文本中词语w1、w2、…、wi按顺序出现的次数c(w1,w2,...,wi),然后统计文本中词语w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和∑wc(w1,w2,...,wi-1,w)。
对于句子w1,w2,...,wn,其序列概率通过下面的公式计算得到:
其中,p(wi|w1,w2,...,wi-1)为每个词出现的条件概率,它可以通过统计上述统计方法计算得到:
3.融合第一语言模型和第二语言模型
最终的语言模型由第一语言模型和第二语言模型融合得到。具体地对于句子w1,w2,...,wn,其序列概率通过下面的公式计算得到
pfinal(w1w2...wn)=λ1pgeneral(w1w2...wn)+λ2pdialogue(w1w2...wn)
λ1和λ2为插值系数,用于调节通用语言模型和会话语言模型在pfinal(w1w2...wn)中的权重。在具体实现中λ1和λ2的值随话术的不同而不同。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除