HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

领域语言模型构建方法、装置、计算机设备及存储介质与流程

2021-01-28 14:01:00|320|起点商标网
领域语言模型构建方法、装置、计算机设备及存储介质与流程

本发明涉及语音识别技术领域,特别涉及一种领域语言模型构建方法、装置、计算机设备及存储介质。



背景技术:

语音识别方案大多为基于语言模型的识别方案。在训练语言模型时,最常采用的模型是n-gram模型,n-gram模型是一种统计语言模型,一般来说语料越大则模型效果越好。随着场景的不断深入,经常要求做出各种满足特定场景需求同时具有泛化能力的语言模型,这对语料的选择提出了更高的要求。

目前,常用的构建满足特定场景的语言模型的方法一般有两种,一种是直接通过收集相关领域语料进行训练,另一种是将训练后的语言模型按一定权重与通用语言模型进行融合,来增加泛化能力,而上述两种方法都需要大量的领域训练语料,但是找到贴合场景的领域语料并不是很容易。



技术实现要素:

为了解决现有技术的问题,本发明实施例提供了一种领域语言模型构建方法、装置、计算机设备及存储介质,能够在领域训练语料不足的情况下,快速构建满足特定场景并且具有通用泛化能力的领域语言模型。

第一方面,提供了一种领域语言模型构建方法,所述方法包括:

将通用语言模型转换为等价的第一wfsa网络;

根据预设数目的领域语料,从所述第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络;

对所述第二wfsa网络进行归一化,并将归一化后的所述第二wfsa网络转换为领域语言模型。

进一步地,所述根据预设数目的领域语料,从所述第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络,包括:

针对每一个所述领域语料,在所述第一wfsa网络中搜索出预设数量的候选最优路径;以及

在所述预设数量的候选最优路径中,筛选出所述领域语料对应的最优路径,其中,所述最优路径的每个状态节点的发射弧上的概率均超过预设阈值;

根据各个所述领域语料对应的最优路径,构造所述第二wfsa网络。

进一步地,所述针对每一个所述领域语料,在所述第一wfsa网络中搜索出预设数量的候选最优路径,包括:

针对每一个所述领域语料,将所述领域语料输入所述第一wfsa网络中进行搜索,得到所述领域语料对应的多个候选路径及各所述候选路径的路径概率;

对所述领域语料对应的多个所述候选路径按照路径概率从高至低的顺序进行排序,将排序在前预设数量位的候选路径作为所述领域语料的候选最优路径。

进一步地,所述对所述第二wfsa网络进行归一化,包括:

根据所述第二wfsa网络中的每个状态节点的发射弧数以及各个发射弧上的概率,对所述第二wfsa网络中每个状态节点的所有发射弧上的概率进行归一化。

进一步地,所述通用语言模型、所述领域语言模型均为n-gram语言模型。

第二方面,提供了一种领域语言模型构建装置,所述装置包括:

第一转换模块,用于将通用语言模型转换为等价的第一wfsa网络;

构造模块,用于根据预设数目的领域语料,从所述第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络;

归一化模块,用于对所述第二wfsa网络进行归一化;

第二转换模块,用于将归一化后的所述第二wfsa网络转换为领域语言模型。

进一步地,所述构造模块包括:

搜索子模块,用于针对每一个所述领域语料,在所述第一wfsa网络中搜索出预设数量的候选最优路径;

筛选子模块,用于在所述预设数量的候选最优路径中,筛选出所述领域语料对应的最优路径,其中,所述最优路径的每个状态节点的发射弧上的概率均超过预设阈值;

构造子模块,用于根据各个所述领域语料对应的最优路径,构造所述第二wfsa网络。

进一步地,所述搜索子模块具体用于:

针对每一个所述领域语料,将所述领域语料输入所述第一wfsa网络中进行搜索,得到所述领域语料对应的多个候选路径及各所述候选路径的路径概率;

对所述领域语料对应的多个所述候选路径按照路径概率从高至低的顺序进行排序,将排序在前预设数量位的候选路径作为所述领域语料的候选最优路径。

进一步地,所述归一化模块具体用于:

根据所述第二wfsa网络中的每个状态节点的发射弧数以及各个发射弧上的概率,对所述第二wfsa网络中每个状态节点的所有发射弧上的概率进行归一化。

进一步地,所述通用语言模型、所述领域语言模型均为n-gram语言模型。

第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:

将通用语言模型转换为等价的第一wfsa网络;

根据预设数目的领域语料,从所述第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络;

对所述第二wfsa网络进行归一化,并将归一化后的所述第二wfsa网络转换为领域语言模型。

第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:

将通用语言模型转换为等价的第一wfsa网络;

根据预设数目的领域语料,从所述第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络;

对所述第二wfsa网络进行归一化,并将归一化后的所述第二wfsa网络转换为领域语言模型。

本发明提供一种领域语言模型构建方法、装置、计算机设备及存储介质,通过将通用语言模型转换为等价的第一wfsa网络;然后根据预设数目的领域语料,从第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络;最后对第二wfsa网络进行归一化,并将归一化后的第二wfsa网络转换为领域语言模型,由于构造第二wfsa网络的路径是从通用语言模型转换出的第一wfsa网络中筛选出,并且是针对预设数目的领域语料进行筛选的,因此由归一化后的第二wfsa网络转换得到的领域语言模型能够满足特定场景需求并且具有通用泛化能力,从而实现在领域训练语料不足的情况下,快速构建满足特定场景并且具有通用泛化能力的领域语言模型的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提供的一种领域语言模型构建方法的流程图;

图2是图1中所示步骤s2的具体流程图;

图3示出了本发明实施例提供的一种领域语言模型构建装置的结构图;

图4示出了本发明实施例提供的一种计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。此外,在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

如前述背景技术所述,构建满足特定场景的语言模型的方法一般有两种,一种是直接通过收集相关领域语料进行训练,另一种是将训练后的语言模型按一定权重与通用语言模型进行融合,来增加泛化能力,而上述两种方法都需要大量的训练语料,但是找到贴合场景的语料并不是很容易,为此,本发明提供一种领域语言模型构建方法,能够在领域训练语料不足的情况下,快速构建满足特定场景并且具有通用泛化能力的领域语言模型。其中,本发明实施例中的领域语言模型可以应用于特定领域的场景中,该特定领域可以是金融领域、医疗领域、商品领域、物流领域或其他具体领域,本发明对此不作具体限定。

图1示出了本发明实施例提供的一种领域语言模型构建方法的流程图,本发明实施例以领域语言模型构建装置作为执行主体来举例说明,该装置可以被配置于任一计算机设备中,计算机设备可以是独立的服务器或服务器集群。

参照图1所示,本发明提供的领域语言模型构建方法包括步骤s1至s4:

s1:将通用语言模型转换为等价的第一wfsa网络。

其中,通用语言模型可以是基于统计语言模型,其是一个单词序列上的概率分布,对于一个给定长度为m的序列,它可以为整个序列产生一个概率p(w1,w2,...,wm)。其实质是试图为句子或序列找到一个概率分布,它可以表示任意一个句子或序列出现的概率,通常采用条件概率来表征当前序列的概率与之前出现的n个序列相关。n-gram是一种基于统计语言模型的算法,该模型基于马尔科夫假设,即:假设在一段文本中,第n个词的出现只与前面n-1个词相关,而与其他任何词都不相关。基于这样一种假设,可以评估文本中每一个词出现的概率,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到,常用的n-gram模型例如二元的bi-gram和三元的tri-gram。

其中,通用语言模型可以预先利用通用语料集进行训练生成,通用语料集可以通过网络爬虫工具从互联网抓取中文语料或者直接下载公开免费中文语料库得到,通用语言模型的存储格式可以是arpa格式。需要说明的是,通用语言模型在训练好之后更新比较费时,一般只训练一次,旨在覆盖更全面的语言现象,使用这样一个覆盖领域比较全面的通用语言模型,而不是用其他领域模型的原因是,通用语言模型不侧重任何领域同时是在大量历史文本语料上计算得到的相对平滑的概率集合,更易于迁移到目标领域中,同时也能够体现接近真实的词连接概率。

其中,第一wfsa网络是有向图结构,其图上有若干状态节点,状态节点之间有连接弧,弧表示状态之间的转移,弧是有方向的,并且每条弧上带有状态转移对应的输入标签和概率。其中,输入标签即为词对象;一条弧上的概率表征了该弧出现在路径中的概率。第一wfsa网络中可以包括多条路径,每条路径的概率可以根据该路径中所有弧上的概率乘积计算得到,其中,当在状态节点之间的弧上以权重表示概率时,权重值可以通过对概率进行取对数计算得到。

具体地,在将arpa格式的通用语言模型转换为第一wfsa(weightedfinite-stateautomata,加权有限状态自动机)网络时,执行主体可以调用arpa2fst工具,将通用语言模型型转换为等价的第一wfsa网络。当然,在实际应用中,除了可以调用arpa2fst工具进行转换外,还可以通过其他方式转换得到等价的第一wfsa网络,本实施例对此不作具体限定。

s2:根据预设数目的领域语料,从第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络。

其中,领域语料可以是特定领域中的常用词句、专业词句等。

预设数目可以预先设置为低于预设值,可以理解的是,与通用语料集相比,预设数目的领域语料的样本数量较少。

本实施例中,可以分别对每个领域语料在第一wfsa网络中搜索出多条路径,并经筛选得到每个领域语料对应的满足预设条件的一条或多条最优路径,例如,最优路径可以是路径概率最高的路径,根据每个领域语料对应的最优路径可以得到每个领域语料对应的词序列。

其中,预设条件是预先设置的用于确定最优路径的条件。在具体应用中,预设条件可以设定为:当一条路径上的每个状态节点的发射弧上的概率均超过预设阈值时,该路径为最优路径,此外,预设条件还可以设定为:当一条路径经过的所有发射弧上的概率之和超过预设阈值时,该路径为最优路径。

具体地,如图2所示,步骤s2的实现过程可以包括步骤:

s21:针对每一个领域语料,在第一wfsa网络中搜索出领域语料对应的预设数量的候选最优路径。

其中,预设数量可以根据实际需要进行设定为一整数值,本实施例对具体的预设数量不作限定。

具体地,该过程可以包括:

针对每一个领域语料,将领域语料输入第一wfsa网络中进行搜索,得到领域语料对应的多个候选路径及各候选路径的路径概率;对领域语料对应的多个候选路径按照路径概率从高至低的顺序进行排序,将排序在前预设数量位的候选路径作为领域语料的候选最优路径。

示例性地,假设将“今天天气真好”作为一个领域语料输入到第一wfsa网络中,可以搜索到如下两条候选最优路径:

path1:<s>今天天气真好</s>

path2:<s>今天天气真好</s>。

s22:在预设数量的候选最优路径中,筛选出领域语料对应的最优路径,其中,最优路径的每个状态节点的发射弧上的概率均超过预设阈值。

本实施例中,在搜索出给定的某个领域语料对应的一条或多条候选最优路径后,当一个候选最优路径上的每个状态节点的发射弧上的概率均超过预设阈值时,该候选最优路径即为领域语料对应的最优路径。

s23:根据各个领域语料对应的最优路径,构造第二wfsa网络。

具体地,可以预先构建仅包括初始状态节点和结束状态节点的第二wfsa网络,在每获取到一个领域语料对应的最优路径后,则将该最优路径更新到第二wfsa网络,直至将最后一个领域语料对应的最优路径更新到第二wfsa网络,即完成构造第二wfsa网络。

s3:对第二wfsa网络进行归一化。

具体地,根据第二wfsa网络上的每个状态节点的发射弧数以及各个发射弧上的概率,对第二wfsa网络中每个状态节点的所有发射弧上的概率进行归一化,使得第二wfsa网络中每个状态节点的所有发射弧上的概率之和为1。

s4:将归一化后的第二wfsa网络转换为领域语言模型。

其中,通用语言模型为n-gram模型时,领域语言模型为与通用语言模型同阶的n-gram模型。

具体地,执行主体可以通过调用fsts-to-transcripts工具,将第二wfsa网络先转换文本再转换成arpa格式的n-gram模型,即得到领域语言模型。此外,除了可以调用fsts-to-transcripts工具进行转换外,还可以通过其他方式转换得到领域语言模型,本实施例对此不作具体限定。

本发明提供一种领域语言模型构建方法,通过将通用语言模型转换为等价的第一wfsa网络;然后根据预设数目的领域语料,从第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络;最后对第二wfsa网络进行归一化,并将归一化后的第二wfsa网络转换为领域语言模型,由于构造第二wfsa网络的路径是从通用语言模型转换出的第一wfsa网络中筛选出,并且是针对预设数目的领域语料进行筛选的,因此由归一化后的第二wfsa网络转换得到的领域语言模型能够满足特定场景需求并且具有通用泛化能力,从而实现在训练语料不足的情况下,快速构建满足特定场景并且具有通用泛化能力的语言模型的目的。

图3示出了本发明实施例提供的一种领域语言模型构建装置的结构图,参照图3所示,该装置包括:

第一转换模块31,用于将通用语言模型转换为等价的第一wfsa网络;

构造模块32,用于根据预设数目的领域语料,从第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络;

归一化模块33,用于对第二wfsa网络进行归一化;

第二转换模块34,用于将归一化后的第二wfsa网络转换为领域语言模型。

在一个实施例中,构造模块32包括:

搜索子模块321,用于针对每一个领域语料,在第一wfsa网络中搜索出领域语料对应的预设数量的候选最优路径;

筛选子模块322,用于在预设数量的候选最优路径中,筛选出领域语料对应的最优路径,其中,最优路径的每个状态节点的发射弧上的概率均超过预设阈值;

构造子模块323,用于根据各个领域语料对应的最优路径,构造第二wfsa网络。

在一个实施例中,搜索子模块321具体用于:

针对每一个领域语料,将领域语料输入第一wfsa网络中进行搜索,得到领域语料对应的多个候选路径及各候选路径的路径概率;

对领域语料对应的多个候选路径按照路径概率从高至低的顺序进行排序,将排序在前预设数量位的候选路径作为领域语料的候选最优路径。

在一个实施例中,归一化模块33具体用于:

根据第二wfsa网络中的每个状态节点的发射弧数以及各个发射弧上的概率,对第二wfsa网络中每个状态节点的所有发射弧上的概率进行归一化,使得第二wfsa网络中每个状态节点的所有发射弧上的概率之和为1。

在一个实施例中,通用语言模型、领域语言模型均为n-gram语言模型。

本实施例提供的领域语言模型构建装置,与本发明实施例所提供的领域语言模型构建方法属于同一发明构思,可执行本发明任意实施例所提供的领域语言模型构建方法,具备执行领域语言模型构建方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例提供的领域语言模型构建方法,此处不再加以赘述。

图4示出了本发明实施例提供的一种计算机设备的内部结构图。该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种领域语言模型构建方法。

在一个实施例中,提供了一种计算机设备,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器执行计算机程序时实现以下步骤:

将通用语言模型转换为等价的第一wfsa网络;

根据预设数目的领域语料,从第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络;

对第二wfsa网络进行归一化,并将归一化后的第二wfsa网络转换为领域语言模型。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现以下步骤:

将通用语言模型转换为等价的第一wfsa网络;

根据预设数目的领域语料,从第一wfsa网络中筛选出满足预设条件的最优路径,以构造第二wfsa网络;

对第二wfsa网络进行归一化,并将归一化后的第二wfsa网络转换为领域语言模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、物理分库分表或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips