一种语音质检方法、装置、质检设备及可读存储介质与流程

2021-01-28 17:01:20|

350|

起点商标网

本申请属于语音处理技术领域，尤其涉及一种语音质检方法、装置、质检设备及可读存储介质。

背景技术：

目前，语音质检是针对呼叫中心的录音进行质检，以达到提高客户满意度、完善客户服务以及对客服人员的工作进行考评等目的。一般地，语音质检采用人工质检的方式，由于需要借助人耳去辨识被质检录音的音频是否存在问题，因而会存在质检结果不够准确、质检效率较低等问题。

技术实现要素：

本申请实施例提供了一种语音质检方法、装置、质检设备及可读存储介质，可以解决现有技术中质检结果不够准确、质检效率较低的问题。

第一方面，本申请实施例提供了一种语音质检方法，包括：

获取待质检语音文本；

将所述待质检语音文本输入至预设质检模型中，确定出与所述质检模型中质检项匹配的目标质检语音文本，其中，所述质检模型包括至少一个质检项；

根据所述质检项对所述目标质检语音文本进行质检，得到质检结果。

在第一方面的一种可能的实现方式中，所述获取待质检语音文本之前，还包括：

获取待质检语音音频；

将所述待质检语音音频转换为待质检语音文本。

在第一方面的一种可能的实现方式中，所述获取待质检语音文本之前，还包括：

获取质检项，其中，所述质检项包括违规环节、违规内容以及违规类型；

根据所述质检项得到所述预设质检模型。

在第一方面的一种可能的实现方式中，根据所质检项得到所述预设质检模型，包括：

查找违规环节以及违规类型相同的质检项；

对所述违规环节以及违规类型相同的质检项的违规内容进行聚类分析，得到违规内容集合；

根据所述违规内容集合形成所述预设质检模型。

在第一方面的一种可能的实现方式中，根据所述违规内容集合形成所述质检项对应的预设质检模型，包括：

将违规内容转换为质检项对应的正则表达式，根据正则表达式形成预设质检模型。

在第一方面的一种可能的实现方式中，根据预设匹配规则查找与所述违规内容集合匹配的正则表达式，将所述正则表达式作为所述质检项的预设质检模型之后，还包括：

识别所述预设质检模型中正则表达式的泛化字符；

将正则表达式的泛化字符替换为模糊字符。

在第一方面的一种可能的实现方式中，根据所述质检项对所述目标质检语音文本进行质检，得到质检结果，包括：

根据所述质检项识别所述目标质检语音文本的违规类型；

根据违规类型对应的预设权重生成目标质检语音文本的违规分数，并根据违规分数与预设分数阈值的比较结果得到质检结果。

第二方面，本申请实施例提供了一种语音质检装置，包括：

获取模块，用于获取待质检语音文本；

确定模块，用于将所述待质检语音文本输入至预设质检模型中，确定出与所述质检模型中质检项匹配的目标质检语音文本，每个质检项对应一个质检类型；

质检模块，用于根据所述质检项对所述目标质检语音文本进行质检，得到质检结果。

在第二方面的一种可能的实现方式中，所述语音质检模块还包括：

音频获取模块，用于获取待质检语音音频；

转换模块，用于将所述待质检语音音频转换为待质检语音文本。

在第二方面的一种可能的实现方式中，所述语音质检模块还包括：

质检项获取模块，用于获取质检项，其中，所述质检项包括违规环节、违规内容以及违规类型；

质检模型构建模块，用于根据所述质检项得到所述预设质检模型。

在第二方面的一种可能的实现方式中，质检模型构建模块包括：

查找单元，用于查找违规环节以及违规类型相同的质检项；

聚类单元，用于对所述违规环节以及违规类型相同的质检项的违规内容进行聚类分析，得到违规内容集合；

构建单元，用于根据所述违规内容集合形成所述预设质检模型。

在第二方面的一种可能的实现方式中，构建单元包括：

转换子单元，用于将违规内容转换为质检项对应的正则表达式，根据正则表达式形成预设质检模型

在第二方面的一种可能的实现方式中，构建单元还包括：

识别子单元，用于识别所述预设质检模型中正则表达式的泛化字符；

替换子单元，用于将正则表达式的泛化字符替换为模糊字符

在第二方面的一种可能的实现方式中，质检模块包括：

类型识别单元，用于根据所述质检项识别所述目标质检语音文本的违规类型；

生成单元，用于根据违规类型对应的预设权重生成目标质检语音文本的违规分数，并根据违规分数与预设分数阈值的比较结果得到质检结果。

第三方面，本申请实施例提供了一种质检设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上述第一方面所述的方法

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例中，可以直接通过预设质检模型对待质检语音音频转换得到的待质检语音文本进行自动质检，不需要人工对待质检语音音频进行质检，达到提高质检结果准确率以及质检效率的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音质检方法的流程示意图；

图2是本申请实施例提供的语音质检方法的图1中步骤s101之前的一种流程示意图；

图3是本申请实施例提供的语音质检方法的图1中步骤s101之前的另一种流程示意图；

图4是本申请实施例提供的语音质检方法的图3中步骤s302的具体流程示意图；

图5是本申请实施例提供的语音质检方法的图1中步骤s103的具体流程示意图；

图6是本申请实施例提供的语音质检装置的结构示意图；

图7是本申请实施例提供的质检设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

下面通过具体实施例对本申请提供的技术方案进行介绍。

参见图1，为本申请实施例提供的语音质检方法的流程示意图，作为示例而非限定，该方法可以应用于质检设备，其中，质检设备包括终端设备或者服务器，该方法可以包括以下步骤：

步骤s101、获取待质检语音文本。

具体应用中，待质检语音文本可以是指对保险行业的客服人员与客户之间的语音通话转换得到的语音文本。

需说明的是，本申请实施例获取的待质检语音文本可以是直接获取的待质检语音文本，该质检语音文本可以是外部的终端设备或者服务器对待质检语音音频处理后得到的待质检语音文本。

此外，本申请实施例获取的待质检语音文本可以是对直接获取待质检语音文本进行处理后，得到的待质检语音文本。

下面介绍本申请实施例获取的待质检语音文本可以是对直接获取待质检语音文本进行处理后，如何得到的待质检语音文本。

作为示例而非限定，参见图2，为本申请实施例提供语音质检方法的图1中步骤s101之前的一种流程示意图，获取待质检语音文本之前，还包括：

步骤s201、获取待质检语音音频。

具体应用中，本申请实施例可以从呼叫中心直接获取待质检语音音频，还可以从中转服务器间接获取待质检语音音频，即本申请实施例对待质检语音音频的获取来源不作限定。此外，本申请实施例对待质检语音音频的数量不作限制，例如，待质检语音音频的数量可以是500通客服人员与客户的语音通话。

步骤s202、将待质检语音音频转换为待质检语音文本。

其中，待质检语音音频包括至少一个语音音频片段，待质检语音文本包括至少一个语音文本片段，语音音频片段与语音文本片段一一对应。

示例性地，将待质检语音音频转换为待质检语音文本的具体过程可以是：

第一步、分离出待质检语音音频中的目标语音音频。

可以理解的是，本申请实施例利用背景噪音的能量与目标语音音频的能量存在差异，达到分离出目标语音音频的目的。

具体地，根据下列4个步骤分离出待质检语音音频中的目标语音音频：

1、对待质检语音音频进行分帧，得到音频帧。

2、根据下列公式计算音频帧的能量：

，

其中，en为音频帧的能量，n为时刻，x为一帧样点值，m为平均声幅，n为窗长。

3、筛选出能量大于能量阈值的音频帧。

4、根据能量大于能量阈值的音频帧形成目标语音音频。

第二步、对目标语音音频进行角色对象分割，得到语音音频片段。

具体地、根据下列4个步骤对目标语音音频进行角色对象分割，得到语音音频片段：

1、确定出目标语音音频对应的全部角色对象。

示例性的，本申请实施例的角色对象可以是保险行业的客服人员与客户。

2、查找每个角色对象对应的预设语音特征模型。

其中，预设语音特征模型是预先根据角色对象的语音特征设置的。

示例性的，客服人员的预设语音特征模型可以是根据梅尔频率倒谱系统（mfcc）提取客户人员的语音特征值，输入至语音特征模型例如高斯混合模型训练得到的。相应的，客户的预设语音特征模型可以是根据梅尔频率倒谱系统（mfcc）提取客户人员的语音特征值，输入至语音特征模型例如高斯混合模型训练得到的

3、将每个角色对象对应的预设语音特征模型代入预设函数计算跳变预测值。

示例性的，预设函数可以是似然函数加上一个惩罚项组成的。

4、将大于跳变预测阈值的跳变预测值的时刻作为跳变点，根据跳变点对目标语音音频进行分割，得到语音音频片段。

可以理解的是，本申请实施例通过预测语音音频片段的跳变点，达到分割出语音音频中不同角色对象对应的语音音频片段。

第三步、将语音音频片段转换为语音文本片段，并根据语音文本片段形成待质检语音文本。

具体地，下面根据以下4个步骤将语音音频片段转换为语音文本片段，并根据语音文本片段形成待质检语音文本：

1、提取语音音频片段的特征值。

2、将特征值输入预设声学模型中，得到语音特征矢量序列。

其中，预设声学模型是预先根据声学数据以及语音特征矢量序列训练得到的。

3、将语音特征矢量序列输入至预设语音模型，得到字符序列。

4、根据字符序列形成待处理语音文本。

步骤s102、将待质检语音文本输入至预设质检模型中，确定出与质检模型中质检项匹配的目标质检语音文本。

其中，质检模型包括至少一个质检项。

需说明的是，本申请实施例的预设质检模型是指多个质检项的集合，每个质检项可以对目标质检语音文本进行质检。

下面介绍如何得到预设质检模型。

作为示例而非限定，参见图3，为本申请实施例提供的语音质检方法的图1中步骤s101之前的另一个流程示意图，获取待质检语音文本之前，还包括：

步骤s301、获取质检项。

其中，质检项包括违规环节、违规内容以及违规类型，违规环节包括但是不限于产品介绍环节、信息核对环节、健康告知环节、免责声明环节、开场白环节、投保确认环节或者犹豫期环节等，违规类型包括但是不限于存在违禁词、表述不完整和/或表述错误话术缺失等。例如，违规环节是产品介绍环节—普通意外60万、违规内容是“意外导致身故或残疾，最高赔偿五十万”、违规类型是表述错误。一般地，去除点违规内容中常见的语气词，例如“啊”、“嗯”等。

需说明的是，本申请实施例的质检项是指人工根据语音样本文本直接标注得到的，具体应用中，质检项的获取来源可以是本地存储的，还可以是从服务器获取的。

步骤s302、根据质检项得到预设质检模型。

其中，本申请实施例的预设质检模型是指多个质检项形成的质检集合。

具体地，参见图4，为本申请实施例提供的语音质检方法的图3中步骤s302的具体流程示意图，根据质检项得到预设质检模型，包括：

步骤s401、查找违规环节以及违规类型相同的质检项。

步骤s402、对违规环节以及违规类型相同的质检项的违规内容进行聚类分析，得到违规内容集合。

具体地，查找违规内容之间的关联度，根据关联度大于关联度阈值的违规类容形成违规内容集合。

举例说明：有违规内容a为“意外导致身故或残疾，最高赔偿五十万”、违规内容b为“意外导致身故或残疾，最低赔偿四十万”、违规内容c为“意外导致身故或残疾，最高赔偿八十万”、违规内容d为“意外导致死亡，最高赔偿六十万”，其中，将每个字符作为关联的基本元素,关联度阈值为12。这样，违规内容a分别与违规内容b、违规内容c之间的关联度都为15、违规内容a与违规内容d之间的关联度为10，可见，违规内容a分别与违规内容b、违规内容c之间的关联度大于关联度阈值，违规内容a与违规内容d之间的关联度小于关联度阈值，那么将违规内容a、违规内容b、违规内容c作为违规内容集合1，将违规内容d作为违规内容集合2。

步骤s403、根据违规内容集合形成预设质检模型。

示例性地，将违规内容集合转换为质检项对应的正则表达式，根据正则表达式形成预设质检模型。

例如，将违规内容集合1转换为正则表达式的过程是：将[“意外导致身故或残疾，最高赔偿五十万”、“意外导致身故或残疾，最低赔偿四十万”、“意外导致死亡，最高赔偿六十万”]，转换为“意外导致身故或残疾，最[高低]赔偿[四五六]十万”。

优选的，由于质检项对应的正则表达式泛化能力较弱，只能覆盖在违规尼尔集合中出现过的的内容，需要提高质检项对应的正则表达式的泛化能力，即提高预设质检模型的泛化能力。

例如，正则表达式“意外导致身故或残疾，最[高低]赔偿[四五六]十万”，只能对待质检语音文本内容“意外导致身故或残疾，最高赔偿五十万”、“意外导致身故或残疾，最低赔偿四十万”或者“意外导致死亡，最高赔偿六十万”进行匹配，而不能对“意外导致身故或残疾，最高赔偿八十万”进行匹配。

在一种可能的方式中，根据预设匹配规则查找与违规内容集合匹配的正则表达式，将正则表达式作为质检项的预设质检模型之后，还包括：

第一步、识别预设质检模型中正则表达式的泛化字符。

其中，泛化字符是“[]”

第二步、将正则表达式的泛化字符替换为模糊字符。

其中，模糊字符可以是“.*”。

例如，将正则表达式“意外导致身故或残疾，最[高低]赔偿[四五六]十万”替换为“意外导致身故或残疾，最.*赔偿.*十万”。

可见，本申请实施例可以通过正则表达式的泛化字符替换为模糊字符，扩大预设质检模型的泛化能力。

步骤s103、根据质检项对目标质检语音文本进行质检，得到质检结果。

其中，质检结果包括通过或者不通过。

具体地，参见图5，为本申请实施例提供的语音质检方法的图1中步骤s103的具体流程示意图，根据质检项对目标质检语音文本进行质检，得到质检结果，包括：

步骤s501、根据质检项识别目标质检语音文本的违规类型。

其中，违规类型包括但是不限于存在违禁词、表述不完整、表述错误以及话术缺失。其中，存在违禁词是指存在客服人员明显的不礼貌用语，表述不完整是指客服人员表述的话语存在缺失，不符合语言逻辑、表述错误是指客服人员表述的与基本话术存在冲突、话术缺失是指客服人员表述的与基本话术相比，有明显缺失。

步骤s502、根据违规类型对应的预设权重生成目标质检语音文本的违规分数，并根据违规分数与预设分数阈值的比较结果得到质检结果。

其中，本申请实施例会预先给每个违规类型设置对应的预设权重，例如，存在违禁词对应的预设权重为5、表述不完整对应的预设权重为2、表述错误对应的预设权重为2、话术缺失的预设权重为2。一般地，本申请实施例给存在违禁词设置的权重值大于其他违规类型的权重。

可以理解的是，每个目标质检语音文本可能存在多个违规类型，与多个质检项存在匹配关系。

具体地，第一步、根据下式计算目标质检语音的违规分数：

，

其中，w为目标质检语音文本的违规分数，n为目标质检语音文本对应的全部违规类型的数量，a1为目标质检语音文本对应的一种违规类型，b1为该违规类型的预设权重，b1为该违规类型的历史出现次数对应的系数。

第二步，将得到的违规分数与预设分数阈值进行比较，若违规分数大于预设分数阈值，则质检结果为不通过，若违规分数大于预设分数阈值，则质检结果为通过。

可以理解的是，本申请实施例计算目标质检语音文本的违规分数的过程中，还考虑该目标质检语音文本对应的违规类型的历史出现次数，提高了计算目标质检语音文本的违规分数的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的语音质检方法，图6示出了本申请实施例提供的语音质检装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该装置包括：

获取模块61，用于获取待质检语音文本；

确定模块62，用于将所述待质检语音文本输入至预设质检模型中，确定出与所述质检模型中质检项匹配的目标质检语音文本，每个质检项对应一个质检类型；

质检模块63，用于根据所述质检项对所述目标质检语音文本进行质检，得到质检结果。

在一种可能的实现方式中，所述语音质检模块还包括：

音频获取模块，用于获取待质检语音音频；

转换模块，用于将所述待质检语音音频转换为待质检语音文本。

在一种可能的实现方式中，所述语音质检模块还包括：

质检项获取模块，用于获取质检项，其中，所述质检项包括违规环节、违规内容以及违规类型；

质检模型构建模块，用于根据所述质检项得到所述预设质检模型。

在一种可能的实现方式中，质检模型构建模块包括：

查找单元，用于查找违规环节以及违规类型相同的质检项；

聚类单元，用于对所述违规环节以及违规类型相同的质检项的违规内容进行聚类分析，得到违规内容集合；

构建单元，用于根据所述违规内容集合形成所述预设质检模型。

在一种可能的实现方式中，构建单元包括：

转换子单元，用于将违规内容转换为质检项对应的正则表达式，根据正则表达式形成预设质检模型

在一种可能的实现方式中，构建单元还包括：

识别子单元，用于识别所述预设质检模型中正则表达式的泛化字符；

替换子单元，用于将正则表达式的泛化字符替换为模糊字符

在一种可能的实现方式中，质检模块包括：

类型识别单元，用于根据所述质检项识别所述目标质检语音文本的违规类型；

生成单元，用于根据违规类型对应的预设权重生成目标质检语音文本的违规分数，并根据违规分数与预设分数阈值的比较结果得到质检结果。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图7为本申请实施例提供的质检设备的结构示意图。如图7所示，该实施例的质检设备7包括：至少一个处理器70处理器、存储器71以及存储在所述存储器71中并可在所述至少一个处理器70上运行的计算机程序72，所述处理器70执行所述计算机程序72时实现上述方式实施例中的各个步骤。

所述质检设备7包括终端设备或者服务器。

所称处理器70可以是中央处理单元(centralprocessingunit，cpu)，该处理器70还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71在一些实施例中可以是所述质检设备7的内部存储单元，例如质检设备7的硬盘或内存。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述方法实施例中的各个步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。