一种ASR和NLU联合训练的电话客服质量评分技术及系统的制作方法
本发明涉及电话质检,尤其涉及一种asr和nlu联合训练的电话客服质量评分技术及系统。
背景技术:
现有的电话质检系统,通过将语音识别成文字后,评分规则大多基于正则匹配开展。如有没说脏话、有没说敬语等,正则匹配适用于硬性指标。但是对一些语义层面的软性指标,例如客服在特定场景的话术专业度评分等,现存的电话质检系统无法实现。从而无法为企业客户提供更细致的电话客服管理。
由于语音识别和正则规则是pipeline关系,语音识别的错误会积累到正则匹配。而且,从语音转成文字,除了积累误差外,还丢失了很多重要原始信息与语气情绪等。这使得现存的电话质检系统能力有限,无法覆盖更广的应用。
技术实现要素:
为了解决上述技术问题,本发明提供了一种asr和nlu联合训练的电话客服质量评分技术及系统,通过自动语音识别与自然语言理解联合训练,能够更有效的保留语音的原始特征,减少误差传播,解决了传统电话质检系统无法匹配语义层面软性指标等问题。
本发明的技术方案是这样实现的:
一种asr和nlu联合训练的电话客服质量评分技术,包括:
获取录音数据;
根据所述录音数据,基于说话人身份,获取与说话人身份相对应的拼接向量;
对所述拼接向量进行自然语言理解训练,获取语音-语义向量v;
基于预设的n个任务场景,对语音-语义向量v做分类任务,获取每个任务场景类别的置信度c;n≥1;
对语音-语义向量v进行编码得到语义向量p,将语义向量p标准化后,输入到一个全连接层里,经全连接层整合后与置信度c相乘,获得评分。
进一步地,所述获取与说话人身份相对应的拼接向量包括:
将录音数据切分成n条语音;n≥2;
基于说话人身份,将n条所述语音分类标记;
将分类标记后的n条所述语音经自动语音识别训练,获取n个高维向量;
基于说话人身份分类,将n个高维向量按类别拼接,获取拼接向量。
进一步地,所述将n条所述语音分类标记包括:
将n条所述语音分类标记为客户语音和客服语音。
进一步地,获取n个高维向量的方法包括:
将n条分类标记后的所述语音输入到wave2vec模型,得到n个高维向量。
进一步地,所述基于说话人身份分类,将n高维向量按类别拼接,获取拼接向量包括:
基于说话人身份,将n个高维向量分为x个客户语音向量和y个客服语音向量;x+y=n,x≥1,y≥1;
将全部所述客户语音向量和全部所述客服语音向量拼接,得到的拼接向量v1;
将全部所述客户语音向量拼接,得到的拼接向量v2;
将全部所述客服语音向量拼接,得到的拼接向量v3。
进一步地,所述对所述拼接向量进行自然语言理解训练,得到语音-语义向量v,包括:
将所述拼接向量v1、所述拼接向量v2和所述拼接向量v3分别输入到双层的transformerblock里,进行自注意力的编码,经过后接全连接层统一输出维度,拼接后得到一个语音-语义矩阵m;
对所述语音-语音矩阵m进行卷积神经网络、池化以及dropout、全连接得到语音-语义向量v。
进一步地,所述基于预设的n个任务场景,对语音-语义向量v做分类任务,包括:
将语音-语义向量v输入到electra1分类模块做分类任务。
进一步地,所述对语音-语义向量v进行编码得到语义向量p,包括:
将语音-语义向量v输入到electra2编码模块,编码后,得到语义向量p。
一种asr和nlu联合训练的电话客服质量评分系统,包括:
获取模块,用于获取录音数据,基于说话人身份,将录音数据切分成n条语音,并基于说话人身份,将n条所述语音分类标记;
自动语音识别模块,用于将分类标记后的语音进行语音识别,获取n个高维向量;
自然语言理解模块,用于将n个高维向量按类别拼接,获取拼接向量,并对拼接向量进行自然语言理解训练,得到语音-语义向量v;其中所述类别为基于说话人身份分类;
评分模块,用于根据预设的n个任务场景,对语音-语义向量v做分类任务,获得每个任务场景类别的置信度c;对语音-语义向量v进行编码得到语义向量p,将语义向量p标准化后,经全连接层整合后与置信度c相乘,获得评分。
进一步地,所述自动语音识别模块包括wave2vec模型,用于将所述语音转换为高维向量。
进一步地,所述评分模块包括:
electra1分类模块,用于根据预设的n个任务场景对语音-语义向量v做分类任务,输出每个对话场景类别的置信度c;
electra2编码模块,用于对语音-语义向量v编码,得到语义向量p。
本发明的实施例一的一种asr和nlu联合训练的电话客服质量评分方法,相比较现有技术,具有如下优点:
本发明通过把asr和nlu在模型层面做联合训练。分析电话录音文本,透过自然语言理解,识别出对话的场景意图,和该场景下客服话术的专业程度从而进行评分。解决了传统电话质检系统无法匹配语义层面软性指标的问题。同时,联合训练避免了传电话质检系统的pipeline形式造成的误差传播。
附图说明
附图示出了本发明的示例性实施方式,并与其说明一起用于解释本发明的原理,其中包括了这些附图以提供对本发明的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是本发明的asr和nlu联合训练的电话客服质量评分方法的流程示意图;
具体实施方式
下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。
实施例一
参照图1,本实施例提供了一种asr和nlu联合训练的电话客服质量评分方法,包括:
获取录音数据,基于说话人身份,将录音数据切分成n条语音;n≥2;
基于说话人身份,将n条所述语音分类标记;
将分类标记后的n条所述语音经自动语音识别训练,获取n个高维向量;
基于说话人身份分类,将n个高维向量按类别拼接,获取拼接向量;
将拼接向量经过自然语言理解训练,得到语音-语义向量v;
基于预设的n个任务场景,对语音-语义向量v做分类任务,获得每个任务场景类别的置信度c;n≥1;
对语音-语义向量v进行编码得到语义向量p,将语义向量p标准化后,输入到一个全连接层里,经全连接层整合后与置信度c相乘,获得评分。
在电话客服服务中,客服和客户之间的所有对话都是基于一些特定的任务场景,协助帮助客户解决一些特定的问题,因此在不同的任务场景下,一段对话的语音和语义,其置信度也不相同;因此,本公开根据常见对话场景和特定对话场景等,预先设置了n个任务场景,通过分类任务获取一段对话在这n个任务场景下的置信度。
作为上述实施方式的可选方案,所述基于预设的n个任务场景,对所述语音-语义向量v做分类任务,包括:
将所述语音-语义向量v输入到electra1分类模块做分类任务。
作为上述实施方式的可选方案,所述对所述语音-语义向量v进行编码得到语义向量p,包括:
将所述语音-语义向量v输入到electra2编码模块,编码后,得到语义向量p。
本实施例中,在获取录音数据后,通过对语音的识别,可以将将归属于不同说话人的语音进行分离,切分成n段语音,每一段语言仅包括一个说话人,相邻的语音说话人会切换。
作为上述实施方式的可选方案,所述将n条所述语音分类标记包括:
将n条所述语音分类标记为客户语音和客服语音。
其中,说话人是指录音数据中语音的发出人,在电话客服中,一般说话人包括客服和客人两个身份。
本实施例中,可按照录音时间顺序对语音进行顺序分割,并对每段语音打上说话人标记,例如:把整段语音分割并标记为:客服语音1、客户语音1、客服语音2、客户语音2……;
本实例中,在对录音数据分割并标记后,得到n条语音,通过自动语音识别训练获得n个高维向量;
其中,基于说话人身份分类,将n个高维向量按类别拼接,获取拼接向量:在电话客服应用场景中,即将n个高维向量分为x个客户语音向量和y个客服语音向量;x+y=n,其中x+y=n,x≥1,y≥1;
将全部所述客户语音向量和全部所述客服语音向量拼接,得到的拼接向量v1;
将全部所述客户语音向量拼接,得到的拼接向量v2;
将全部所述客服语音向量拼接,得到的拼接向量v3。
作为上述实施方式的可选方案,获取n个高维向量的方法包括:
将n条分类标记后的所述语音输入到wave2vec模型,得到n个高维向量。
作为上述实施方式的可选方案,所述将拼接向量经过自然语言理解训练,得到语音-语义向量v,包括:
将所述拼接向量v1、所述拼接向量v2和所述拼接向量v3分别输入到双层的transformerblock里,进行自注意力的编码,经过后接全连接层统一输出维度,拼接后得到一个语音-语义矩阵m;
对所述语音-语音矩阵m进行卷积神经网络、池化以及dropout、全连接得到语音-语义向量v。
本实施例通过向量评价获得所述拼接向量v1、所述拼接向量v2和所述拼接向量v3,再进行注意力编码,能够得到信息量最全面的所述语音-语义矩阵m,不仅包含了整段录音的语义编码信息,还包含了不同说话人的录音的语义编码信息,能够更有效的保留语音的原始特征,有利于对录音数据内容进行语义分析。
实施例二
一种asr和nlu联合训练的电话客服质量评分系统,包括:
获取模块,用于获取录音数据,基于说话人身份,将录音数据切分成n条语音,并基于说话人身份,将n条所述语音分类标记;
自动语音识别模块,用于将分类标记后的语音进行语音识别,获取n个高维向量;
自然语言理解模块,用于将n个高维向量按类别拼接,获取拼接向量,并对拼接向量进行自然语言理解训练,得到语音-语义向量v;其中所述类别为基于说话人身份分类;
评分模块,用于根据预设的n个任务场景,对语音-语义向量v做分类任务,获得每个任务场景类别的置信度c;对语音-语义向量v进行编码得到语义向量p,将语义向量p标准化后,经全连接层整合后与置信度c相乘,获得评分。
作为上述实施方式的可选方案,所述自动语音识别模块包括wave2vec模型,用于将所述语音转换为高维向量。
作为上述实施方式的可选方案,所述评分模块包括:
electra1分类模块,用于根据预设的n个任务场景对语音-语义向量v做分类任务,输出每个对话场景类别的置信度c;
electra2编码模块,用于对语音-语义向量v编码,得到语义向量p。
本实施例的原理和效果与实施例1中的一致,本实施例不再重复描述。
领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本发明,而并非是对本发明的范围进行限定。对于所属领域的技术人员而言,在上述发明的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本发明的范围内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除