一种ASR和NLU联合训练的电话客服质量评分技术及系统的制作方法

2021-01-28 13:01:22|

292|

起点商标网

本发明涉及电话质检，尤其涉及一种asr和nlu联合训练的电话客服质量评分技术及系统。

背景技术：

现有的电话质检系统，通过将语音识别成文字后，评分规则大多基于正则匹配开展。如有没说脏话、有没说敬语等，正则匹配适用于硬性指标。但是对一些语义层面的软性指标，例如客服在特定场景的话术专业度评分等，现存的电话质检系统无法实现。从而无法为企业客户提供更细致的电话客服管理。

由于语音识别和正则规则是pipeline关系，语音识别的错误会积累到正则匹配。而且，从语音转成文字，除了积累误差外，还丢失了很多重要原始信息与语气情绪等。这使得现存的电话质检系统能力有限，无法覆盖更广的应用。

技术实现要素：

为了解决上述技术问题，本发明提供了一种asr和nlu联合训练的电话客服质量评分技术及系统，通过自动语音识别与自然语言理解联合训练，能够更有效的保留语音的原始特征，减少误差传播，解决了传统电话质检系统无法匹配语义层面软性指标等问题。

本发明的技术方案是这样实现的：

一种asr和nlu联合训练的电话客服质量评分技术，包括：

获取录音数据；

根据所述录音数据，基于说话人身份，获取与说话人身份相对应的拼接向量；

对所述拼接向量进行自然语言理解训练，获取语音-语义向量v；

基于预设的n个任务场景，对语音-语义向量v做分类任务，获取每个任务场景类别的置信度c；n≥1；

对语音-语义向量v进行编码得到语义向量p，将语义向量p标准化后，输入到一个全连接层里,经全连接层整合后与置信度c相乘，获得评分。

进一步地，所述获取与说话人身份相对应的拼接向量包括：

将录音数据切分成n条语音；n≥2；

基于说话人身份，将n条所述语音分类标记；

将分类标记后的n条所述语音经自动语音识别训练，获取n个高维向量；

基于说话人身份分类，将n个高维向量按类别拼接，获取拼接向量。

进一步地，所述将n条所述语音分类标记包括：

将n条所述语音分类标记为客户语音和客服语音。

进一步地，获取n个高维向量的方法包括：

将n条分类标记后的所述语音输入到wave2vec模型，得到n个高维向量。

进一步地，所述基于说话人身份分类，将n高维向量按类别拼接，获取拼接向量包括：

基于说话人身份，将n个高维向量分为x个客户语音向量和y个客服语音向量；x+y＝n，x≥1，y≥1；

将全部所述客户语音向量和全部所述客服语音向量拼接，得到的拼接向量v1；

将全部所述客户语音向量拼接，得到的拼接向量v2；

将全部所述客服语音向量拼接，得到的拼接向量v3。

进一步地，所述对所述拼接向量进行自然语言理解训练，得到语音-语义向量v，包括：

将所述拼接向量v1、所述拼接向量v2和所述拼接向量v3分别输入到双层的transformerblock里，进行自注意力的编码，经过后接全连接层统一输出维度，拼接后得到一个语音-语义矩阵m；

对所述语音-语音矩阵m进行卷积神经网络、池化以及dropout、全连接得到语音-语义向量v。

进一步地，所述基于预设的n个任务场景，对语音-语义向量v做分类任务，包括：

将语音-语义向量v输入到electra1分类模块做分类任务。

进一步地，所述对语音-语义向量v进行编码得到语义向量p，包括：

将语音-语义向量v输入到electra2编码模块，编码后，得到语义向量p。

一种asr和nlu联合训练的电话客服质量评分系统，包括：

获取模块，用于获取录音数据，基于说话人身份，将录音数据切分成n条语音，并基于说话人身份，将n条所述语音分类标记；

自动语音识别模块，用于将分类标记后的语音进行语音识别，获取n个高维向量；

自然语言理解模块，用于将n个高维向量按类别拼接，获取拼接向量，并对拼接向量进行自然语言理解训练，得到语音-语义向量v；其中所述类别为基于说话人身份分类；

评分模块，用于根据预设的n个任务场景，对语音-语义向量v做分类任务，获得每个任务场景类别的置信度c；对语音-语义向量v进行编码得到语义向量p,将语义向量p标准化后，经全连接层整合后与置信度c相乘，获得评分。

进一步地，所述自动语音识别模块包括wave2vec模型，用于将所述语音转换为高维向量。

进一步地，所述评分模块包括：

electra1分类模块，用于根据预设的n个任务场景对语音-语义向量v做分类任务，输出每个对话场景类别的置信度c；

electra2编码模块，用于对语音-语义向量v编码，得到语义向量p。

本发明的实施例一的一种asr和nlu联合训练的电话客服质量评分方法，相比较现有技术，具有如下优点：

本发明通过把asr和nlu在模型层面做联合训练。分析电话录音文本，透过自然语言理解，识别出对话的场景意图，和该场景下客服话术的专业程度从而进行评分。解决了传统电话质检系统无法匹配语义层面软性指标的问题。同时，联合训练避免了传电话质检系统的pipeline形式造成的误差传播。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本发明的asr和nlu联合训练的电话客服质量评分方法的流程示意图；

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

实施例一

参照图1，本实施例提供了一种asr和nlu联合训练的电话客服质量评分方法，包括：

获取录音数据，基于说话人身份，将录音数据切分成n条语音；n≥2；

基于说话人身份，将n条所述语音分类标记；

将分类标记后的n条所述语音经自动语音识别训练，获取n个高维向量；

基于说话人身份分类，将n个高维向量按类别拼接，获取拼接向量；

将拼接向量经过自然语言理解训练，得到语音-语义向量v；

基于预设的n个任务场景，对语音-语义向量v做分类任务，获得每个任务场景类别的置信度c；n≥1；

对语音-语义向量v进行编码得到语义向量p，将语义向量p标准化后，输入到一个全连接层里,经全连接层整合后与置信度c相乘，获得评分。

在电话客服服务中，客服和客户之间的所有对话都是基于一些特定的任务场景，协助帮助客户解决一些特定的问题，因此在不同的任务场景下，一段对话的语音和语义，其置信度也不相同；因此，本公开根据常见对话场景和特定对话场景等，预先设置了n个任务场景，通过分类任务获取一段对话在这n个任务场景下的置信度。

作为上述实施方式的可选方案，所述基于预设的n个任务场景，对所述语音-语义向量v做分类任务，包括：

将所述语音-语义向量v输入到electra1分类模块做分类任务。

作为上述实施方式的可选方案，所述对所述语音-语义向量v进行编码得到语义向量p，包括：

将所述语音-语义向量v输入到electra2编码模块，编码后，得到语义向量p。

本实施例中，在获取录音数据后，通过对语音的识别，可以将将归属于不同说话人的语音进行分离，切分成n段语音，每一段语言仅包括一个说话人，相邻的语音说话人会切换。

作为上述实施方式的可选方案，所述将n条所述语音分类标记包括：

将n条所述语音分类标记为客户语音和客服语音。

其中，说话人是指录音数据中语音的发出人，在电话客服中，一般说话人包括客服和客人两个身份。

本实施例中，可按照录音时间顺序对语音进行顺序分割，并对每段语音打上说话人标记，例如：把整段语音分割并标记为：客服语音1、客户语音1、客服语音2、客户语音2……；

本实例中，在对录音数据分割并标记后，得到n条语音，通过自动语音识别训练获得n个高维向量；

其中，基于说话人身份分类，将n个高维向量按类别拼接，获取拼接向量：在电话客服应用场景中，即将n个高维向量分为x个客户语音向量和y个客服语音向量；x+y＝n，其中x+y＝n，x≥1，y≥1；

将全部所述客户语音向量和全部所述客服语音向量拼接，得到的拼接向量v1；

将全部所述客户语音向量拼接，得到的拼接向量v2；

将全部所述客服语音向量拼接，得到的拼接向量v3。

作为上述实施方式的可选方案，获取n个高维向量的方法包括：

将n条分类标记后的所述语音输入到wave2vec模型，得到n个高维向量。

作为上述实施方式的可选方案，所述将拼接向量经过自然语言理解训练，得到语音-语义向量v，包括：

对所述语音-语音矩阵m进行卷积神经网络、池化以及dropout、全连接得到语音-语义向量v。

本实施例通过向量评价获得所述拼接向量v1、所述拼接向量v2和所述拼接向量v3，再进行注意力编码，能够得到信息量最全面的所述语音-语义矩阵m，不仅包含了整段录音的语义编码信息，还包含了不同说话人的录音的语义编码信息，能够更有效的保留语音的原始特征，有利于对录音数据内容进行语义分析。

实施例二

一种asr和nlu联合训练的电话客服质量评分系统，包括：

获取模块，用于获取录音数据，基于说话人身份，将录音数据切分成n条语音，并基于说话人身份，将n条所述语音分类标记；

自动语音识别模块，用于将分类标记后的语音进行语音识别，获取n个高维向量；

作为上述实施方式的可选方案，所述自动语音识别模块包括wave2vec模型，用于将所述语音转换为高维向量。

作为上述实施方式的可选方案，所述评分模块包括：

electra1分类模块，用于根据预设的n个任务场景对语音-语义向量v做分类任务，输出每个对话场景类别的置信度c；

electra2编码模块，用于对语音-语义向量v编码，得到语义向量p。

本实施例的原理和效果与实施例1中的一致，本实施例不再重复描述。

领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述发明的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签：语音编码语义分析电话客服语音识别自然语言处理

上一篇交互方法、系统、设备和存储介质与流程

下一篇一种降噪方法及应用其的吸油烟机与流程

热门咨询

热门标签

热门产品

tips