一种语言识别方法、装置、电子设备及计算机可读存储介质与流程

2021-01-28 15:01:19|

257|

起点商标网

本发明涉及智能决策技术领域，具体涉及一种语言识别方法、装置、电子设备及计算机可读存储介质。

背景技术：

传统的人工客服拨打方式，因其较低的效率，以及较高的成本，已经难以满足很多公司的业务场景。随着人工智能、自然语言理解技术的发展，传统外呼技术的进步，智能外呼系统因为其较高的并发效率，较低的成本开销，逐渐取代了很多传统人工客服拨打的业务场景。但在面临多个地理区域、多种方言用户群体的复杂情况，单一的语言识别模型针对不同的方言会出现识别率较低的情况，智能外呼系统还不能很好的应对多方言的场景。

技术实现要素：

本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下：

第一方面，本申请实施例提供一种语言识别方法，所述方法包括：

识别获取的语言的为第一目标语言；其中所述获取的语言为语音信息；

匹配与所述第一目标语言种类对应的语言识别模型，并根据所述语言识别模型，判断所述第一目标语言的内容；

根据判断的所述语言内容，输出匹配的第一目标答案。

可选的，所述语言的种类包括国别语或地方方言。

可选的，所述语言识别模型包括：预先获取至少一种语言的训练数据；

利用卷积神经网络模型和所述至少一种语言的训练数据进行训练处理获得所述语言识别模型。

可选的，所述利用卷积神经网络模型和所述至少一种语言的训练数据进行训练处理获得所述语言识别模型进一步包括：

将所述至少一种语言的训练数据转化为二维声谱图，并分别生产训练集和测试集；

将所述训练集二维声谱图输入至初始化的卷积神经网络模型进行模型训练，形成语言识别模型；

利用回归分类器和测试集二维声谱图对所述语言识别模型进行测试。

可选的，所述根据判断的所述语言内容，输出匹配的第一目标答案具体包括：

根据判断的所述语言内容，所述语言识别模型输出匹配的文本形式的第二目标答案；

将所述文本形式的第二目标答案处理为第一目标答案；其中所述第一目标答案为与所述第一目标语言种类相同的语音。

第二方面，本发明提供了一种语言识别装置，所述装置包括：输入模块，识别模块，匹配模块、判断模块和输出模块；其中，

所述识别模块，用于识别所述输入模块获取的语言的为第一目标语言；其中所述获取的语言为语音信息；

所述匹配模块，用于匹配与所述第一目标语言种类对应的语言识别模型；

所述判断模块，根据所述语言识别模型，判断所述第一目标语言的内容；

所述输出模块，用于根据判断的所述语言内容，输出匹配的第一目标答案。

可选的，所述语言的种类包括国别语或地方方言。

可选的，所述语言识别模型包括：

所述输入模块预先获取至少一种语言的训练数据；

利用卷积神经网络模型和所述至少一种语言的训练数据进行训练处理获得所述语言识别模型。

可选的，所述装置还包括语言处理模块；

根据所述判断模块判断的所述语言内容，所述输出模块输出匹配的文本形式的第二目标答案；

所述语言处理模块，用于将所述文本形式的第二目标答案处理为第一目标答案；其中所述第一目标答案为与所述第一目标语言种类相同的语音。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述语言识别方法。

第四方面，一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语言识别的方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的方案，识别获取的语言为第一目标语言；其中所述获取的语言为语音信息；匹配与所述第一目标语言种类对应的语言识别模型，并根据所述语言识别模型，判断所述第一目标语言的内容；根据判断的所述语言内容，输出匹配的第一目标答案。基于本方案能实现利用神经网络构建语言识别模型，能更准确的识别语言种类并输出与输入的语言相同种类的语言来进行回应，提高了用户的产品体验度和亲和度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种语言识别方法的流程示意图；

图2为本申请实施例提供的利用卷积神经网络进行方言识别的方法示意图；

图3为本申请实施例提供的是基于方言种类识别的智能外呼系统设计示意图；

图4为本申请实施例提供的一种语言识别装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

目前的智能外呼系统，只能设置一种语言识别模型，比如，设置为统一的普通话识别模型，但是针对四川、上海或者广东等地的方言用户时，有很多使用本地方言的用户，但是统一的普通话识别模型针对不同的方言识别率很低，进而影响业务流程问答，严重影响用户体验。并且训练一个能同时识别多种方言的模型，不仅难度很大，且准确度也不能保证。所以智能外呼系统亟需一个能同时应对各种方言、普通话，甚至是外语且保证有较高识别率的方案。本发明就是针对上述问题设计的基于不同种类语言识别的智能外呼方法及系统，能够很好的改善不同地区不同方言用户群体因使用本地方言带来的不佳体验。

本申请实施例提供的语言识别方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题中的至少一个。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1示出了本申请实施例提供的一种语言识别方法的流程示意图，如图1所示，该方法主要可以包括：

步骤s101、识别获取的语言的为第一目标语言；其中所述获取的语言为语音信息；

步骤s102、匹配与所述第一目标语言种类对应的语言识别模型，并根据所述语言识别模型，判断所述第一目标语言的内容；

步骤s103、根据判断的所述语言内容，输出匹配的第一目标答案。

可选的，所述语言的种类包括国别语或地方方言。

在本申请具体实施例中，具体描述如下：ivr(interactivevoiceresponse)即互动式语音应答，是一种功能强大的电话自动服务系统。在本实施例中通过ivr获取并识别获取的语言的为第一目标语言；其中所述获取的语言为语音信息，也即从ivr获取方言用户的语音信息，根据语言的种类，例如方言种类识别结果选择对应方言的语言识别模型；通过自然语音处理对语音识别结果进行意图判断，判断获取的方言的内容，并返回第一目标答案，即对应文字答案；根据方言种类识别结果选择对应方言的语音合成模型，将第一目标答案即文字答案合成为对应语音，例如获取的是方言即合成的是方言，将方言答案通过ivr播放给用户。

可选的，所述语言识别模型包括：预先获取至少一种语言的训练数据；

利用卷积神经网络模型和所述至少一种语言的训练数据进行训练处理获得所述语言识别模型。可选的，所述利用卷积神经网络模型和所述至少一种语言的训练数据进行训练处理获得所述语言识别模型进一步包括：将所述至少一种语言的训练数据转化为二维声谱图，并分别生产训练集和测试集；将所述训练集二维声谱图输入至初始化的卷积神经网络模型进行模型训练，形成语言识别模型；利用回归分类器和测试集二维声谱图对所述语言识别模型进行测试。

本申请具体实施例中，以所述语言为方言进行具体实施例说明。获取用户的方言语音，通过识别接收方言语言中的关键值，判断用户所属的方言种类，当判断值低于判断阈值时默认为普通话。当判断为方言种类后，便于后序的语音识别和语音合成选择对应的语言识别模型，进而提高语音识别的识别率并且合成对应方言的语音音频。方言种类识别使用了cnn(卷积神经网络)进行模型训练及方言种类分类。将所述至少一种语言的训练数据转化为二维声谱图，并分别生产训练集和测试集；将所述训练集二维声谱图输入至初始化的卷积神经网络模型进行模型训练，形成语言识别模型，具体为将标注好的方言音频文件，包括单字、词语和语句，格式为wav格式，通过加窗分帧及短时傅里叶变换转化为二维声谱图，获得训练集和测试集。初始化cnn网络模型，并用训练集对模型进行训练，使用softmax回归分类器对方言种类进行分类验证。得到训练好的模型后使用测试集进行测试。其中二维声谱图是对语音信号的频域转换，这样做的好处是可以避免噪声原因的干扰，更能体现语音本身的特征。二维声谱图是对连续的语音信号进行短时傅里叶变换(stft)得到，即对一段长信号进行加窗分帧，可以选择汉明窗或者矩形窗等，再对每一帧做快速傅里叶变换(fft)，最后把每一帧的结果沿另一个维度堆叠起来就得到了声谱图。具体如下：

设离散时域采样信号为x(n),n＝0,1,...,n-1，其中n为时域采样点序号，n为总的采样点个数。对信号进行加窗分帧处理，则x(n)表示为xn(m)，n＝0,1,...,n-1，其中n为帧序号，m是帧同步的时间序号，n为一个帧内的采样点个数。则x(n)的短时傅里叶变换为：

其中w(n)为选取的窗函数，信号x(n)的离散时域傅里叶变换为：

其中0≤k≤n-1，则|x(n,k)|为x(n)的频谱估计，则时间m频谱能量密度函数(二维声谱图)为：

p(n,k)＝|x(n,k)|²

图2为利用卷积神经网络进行方言识别的方法示意图，方言用户对外呼进行响应，经运营商到达，经ivr获取到方言用户的语音信号，并对信号进行短时傅里叶变换获取到二维声谱图。在经过训练好的cnn模型进行方言种类识别。

可选的，在本申请一个实施例中，所述根据判断的所述语言内容，输出匹配的第一目标答案具体包括：根据判断的所述语言内容，所述语言识别模型输出匹配的文本形式的第二目标答案；将所述文本形式的第二目标答案处理为第一目标答案；其中所述第一目标答案为与所述第一目标语言种类相同的语音。具体地，以方言为例，结合实际生活场景对技术方案进行进一步的说明。用户接通外呼的电话后的应答语音(即接收到语音消息)，经过方言种类识别出所属的方言(经过语言识别模型识别出语音的种类)，并且判定对应的关键值。这里的方言种类是对应于所拥有的方言语音模型，并通过关键值判定选择的语言识别模型，准确度较高的将语音转义为文字，之后将结果进行自然语言技术处理分析用户意图并给出应答文字，最后通过关键值选择对应的语言合成模型或称之为方言模型，合成与方言用户对应的方言语音(目标答案)供用户听取。可选的，同时为了提高响应效率，方言种类识别可以只在方言用户第一次响应时进行判定有效方言种类关键值，并将关键值缓存到ivr内部，当用户再次响应时直接从缓存中读取有效方言种类关键值用于语音识别和语音合成，不在进行再次方言种类识别。

图3是基于方言种类识别的智能外呼系统设计示意图，智能外呼系统的外呼平台通过①经过电信运营商对特定方言用户进行电话外呼，并且播放欢迎语；②方言用户对欢迎语做出应答(获取语言)；③若ivr没有缓存有效的方言种类关键值，方言用户应答语音经ivr进行④的方言种类识别；⑤将识别后的方言种类有效关键值缓存到本次通过的ivr中；⑥如果存在有效方言种类关键值，则选择对应关键值的语言识别模型(根据第一目标语言种类匹配对应的语言识别模型)，将方言用户应答语音转为文字；⑦将识别出的文字送至自然语言处理模块，进行方言用户语音内容的判断，并返回语音内容对应的应答文字(根据判断的所述语言内容，所述语言识别模型输出匹配的文本形式的第二目标答案)；⑧将外呼应答文字送至语音合成模块，并根据⑨从缓存中获取有效的方言种类关键值，选择对应的语音合成模型，合成相应音频数据(将所述文本形式的第二目标答案处理为第一目标答案；其中所述第一目标答案为与所述第一目标语言种类相同的语音)；⑩将合成后的外呼应答语音经ivr和运营商网络应答给方言用户，完成一轮与方言用户的交互应答。

图4是本发明提供了一种语言识别装置，所述装置包括：401输入模块，402识别模块，403匹配模块、404判断模块和405输出模块；其中，

所述识别模块，用于识别所述输入模块获取的语言的为第一目标语言；其中所述获取的语言为语音信息；

所述匹配模块，用于匹配与所述第一目标语言种类对应的语言识别模型；

所述判断模块，根据所述语言识别模型，判断所述第一目标语言的内容；

所述输出模块，用于根据判断的所述语言内容，输出匹配的第一目标答案。

可选的，所述语言的种类包括国别语或地方方言。

可选的，所述语言识别模型包括：

所述输入模块预先获取至少一种语言的训练数据；

利用卷积神经网络模型和所述至少一种语言的训练数据进行训练处理获得所述语言识别模型。

可选的，所述装置还包括语言处理模块；

根据所述判断模块判断的所述语言内容，所述输出模块输出匹配的文本形式的第二目标答案；

所述语言处理模块，用于将所述文本形式的第二目标答案处理为第一目标答案；其中所述第一目标答案为与所述第一目标语言种类相同的语音。

可以理解的是，本实施例中的语言识别装置的上述各模块具有实现图1中所示的实施例中的方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述各模块的功能描述具体可以参见图1中所示实施例中的方法的对应描述，在此不再赘述。

本申请实施例提供了一种电子设备，包括处理器和存储器；

存储器，用于存储操作指令；

处理器，用于通过调用操作指令，执行本申请任一实施方式中所提供的语言识别方法。

作为一个示例，图5示出了本申请实施例所适用的一种电子设备的结构示意图，如图5所示，该电子设备2000包括：处理器2001和存储器2003。其中，处理器2001和存储器2003相连，如通过总线2002相连。可选的，电子设备2000还可以包括收发器2004。需要说明的是，实际应用中收发器2004不限于一个，该电子设备2000的结构并不构成对本申请实施例的限定。

其中，处理器2001应用于本申请实施例中，用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机，收发器2004应用于本申请实施例中，用于执行时实现本申请实施例的电子设备与其他设备通信的功能。

处理器2001可以是cpu(centralprocessingunit，中央处理器)，通用处理器，dsp(digitalsignalprocessor，数据信号处理器)，asic(applicationspecificintegratedcircuit，专用集成电路)，fpga(fieldprogrammablegatearray，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器2001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等。

总线2002可包括一通路，在上述组件之间传送信息。总线2002可以是pci(peripheralcomponentinterconnect，外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture，扩展工业标准结构)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是rom(readonlymemory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，ram(randomaccessmemory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是eeprom(electricallyerasableprogrammablereadonlymemory，电可擦可编程只读存储器)、cd-rom(compactdiscreadonlymemory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选的，存储器2003用于存储执行本申请方案的应用程序代码，并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码，以实现本申请任一实施方式中所提供的语言识别方法。

本申请实施例提供的电子设备，适用于上述方法任一实施例，在此不再赘述。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述方法实施例所示的语言识别方法。

本申请实施例提供的计算机可读存储介质，适用于上述方法任一实施例，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。