文本处理方法、装置及计算设备与流程
本申请实施例涉及计算机应用技术领域,尤其涉及一种文本处理方法、装置及计算设备。
背景技术:
口语,作为非正式场合(例如,日常对话、非正式的发言、非正式的文书写作等)中使用的口头语言,具有非正式、灵活等特点。书面语,作为正式场合(例如,正式的演讲、正式的文书写作等)中使用的语言,具有规范、简洁等特点。由于口语没有书面语具备的简洁、规范等特点,因此在一些场合中,使用口语是不利于传播和交流的。
但有时不可避免的会接收到口语文本。例如,利用语音识别技术将语音转化为文字时,语音识别技术会严格将输入的语音转换为对应的文字。如果输入的语音是口语语音,那么对应的识别结果也是口语文本。
而口语文本相较于书面语文本,不可避免会存在一些口语化错误,因此,如何消除口语文本中的口语化错误,以规范口语化文本是一个亟待解决的问题。
技术实现要素:
本申请实施例提供一种文本处理方法、装置及计算设备。
第一方面,本申请实施例中提供了一种文本处理方法,包括:
获取目标口语文本;
利用口语识别模型识别所述目标口语文本中的口语化词;
从所述目标口语文本中消除所述口语化词,以获得规范文本。
第二方面,本申请实施例中提供了一种文本处理装置,包括:
文本获取模块,用于获取目标口语文本;
口语错误识别模块,用于利用口语识别模型识别所述目标口语文本中的口语化词;
口语错误消除模块,用于从所述目标口语文本中消除所述口语化词,以获得规范文本。
第三方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
获取目标口语文本;
利用口语识别模型识别所述目标口语文本中的口语化词;
从所述目标口语文本中消除所述口语化词,以获得规范文本。
本申请实施例中,基于标注口语化训练词的口语训练文本可以预先训练口语识别模型,从而对于目标口语文本,利用口语识别模型可以识别出目标口语文本中的口语化词,进而可以从目标口语文本中消除所述口语化词,从而可以获得规范文本,也即书面语文本,本申请实施例实现了从口语文本中消除口语化错误的目的。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请提供的一种文本处理方法一个实施例的流程图;
图2示出了本申请提供的一种文本处理方法又一个实施例的流程图;
图3示出了本申请提供的一种文本处理方法又一个实施例的流程图;
图4示出了本申请提供的一种文本处理方法又一个实施例的流程图;
图5示出了本申请提供的一种文本处理方法又一个实施例的流程图;
图6示出了本申请提供的一种文本处理装置一个实施例的结构示意图;
图7示出了本申请提供的一种计算设备一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请实施例的技术方案可以适用于口语文本转换为书面语文本的任意需求场景中。
语言是人们用来进行交际的工具,通常有两种不同表现形式,即口语和书面语,口语为口头语言,用于非正式场合的口头交流,而书面语用于正式场合,特别是文书写作场景下使用的语言。但是,在实际应用中,不可避免的会接收到口语文本,例如利用语音识别技术将语音转化为文字时,语音识别技术会严格将输入的语音转换为对应的文字。如果输入的语音是口语语音,那么对应的识别结果也是口语本文。由于口语文本为口语语言,不适合继续传播,需要消除口语化错误,转换为书面语形式的规范文本。
例如,在庭审场景下,书记员需要采用书面语言进行庭审记录。而为了降低书记员工作量,语音识别设备也开始进入法庭,利用语音识别设备可以自动将庭审语音转换为庭审语音文本,但是庭审语音文本不可避免会出现口语语言,而书记员的庭审记录要求为书面语,因此就存在将庭审语音文本转换为书面语文本的需求。
而目前并有一种有效准确的方式可以消除口语文本中的口语化错误。
为了实现口语文本的转换,发明人经过一系列研究提出了本申请的技术方案,在本申请实施例中,对于目标口语文本,利用口语识别模型即可以识别所述目标口语文本中的口语化词;从而即可以从所述目标口语文本中消除所述口语化词,实现目标口语文本的转换,以获得书面语形式的规范文本。由于口语文本中的口语化错误通常是由于一些口语化词导致的,采用本申请实施例的技术方案,可以识别口语文本中的口语化词进而进行消除,实现了消除口语文本中口语化错误的目的,可以实现将口语文本转换为书面语文本。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种文本处理方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:获取目标口语文本。
该目标口语文本可以是利用语音识别技术转换获得;因此,可选地,所述获取目标口语文本可以是:
从语音识别结果中获取目标口语文本。
该目标口语文本中可以是语音识别结果中任意一个待处理的口语文本。语音识别结果可以划分为多个文本,可以根据语音识别结果中不同角色进行划分、或者根据语音识别的标点符号依次选择的至少一个句子作为一个待处理的口语文本。
102:利用口语识别模型识别所述目标口语文本中的口语化词。
其中,所述口语识别模型可以基于标注口语化训练词的口语训练文本训练获得。该口语识别模型可以采用神经网络模型实现。口语识别模型的具体训练方式会在下文进行详细描述。
其中,口语文本之所以不能直接作为书面语文本,是因为口语文本中存在口语化错误,这些口语化错误主要是由于口语文本中出现的口语化词导致。因此,本实施例中可以利用口语识别模型首先识别出口语文本中的口语化词。
其中,目标口语文本中可以包括一个或多个口语化词,不同口语化词的口语化类型可能不同。其中,口语化类型可以包括语气词、口语化表述词、停顿词、重复词及被纠正词等。
103:从所述目标口语文本中消除所述口语化词,以获得规范文本;
将目标口语文本中的所有口语化词均消除,即可以得到书面语形式的规范文本,从而实现文本转换。
在本实施例中,利用预先训练获得的口语识别模型可以识别目标出口语文本中的口语化词,从而从目标口语文本中消除口语化词,以规范目标口语文本,消除口语化错误,消除口语化错误之后的口语文本即可以作为书面语文本,本实施例的技术方案实现了消除口语文本中口语化错误的目的。
由上文可知,常见的口语化类型可以包括语气词、口语化表述词、停顿词、重复词及被纠正词等,下面分别介绍这几种口语化类型:
其中,语气词是指出现在句尾(陈述句、祈使句、疑问句等),表达说话人的情绪和情感的词,常见的语气词包括:呃、啊、嗯。例如,口语文本为“户口本也拿出来啊”中的“啊”即为语气词。
其中,口语化表述词是指删除该口语化表述词后句子仍通顺且语义保留完整。常见的口语化表述词有:这边、那么、应该说。例如,“应该说按照当时说法男女双方都属于啃老族”中的“应该说”即为口语表述词。
其中,停顿词是指说话人在想下语句说什么的同时,加入一些停顿词,用于保留多人对话中继续说话的权利。常见的停顿词有:哦、这个、啊、嗯、就是。例如,“将近经过大半年这个恋爱双方已进入谈婚论嫁的阶段”中的“这个”即停顿词。
其中,重复词是指重复复述的词,通常出现模式为“abcabc”或者“abc{停顿词}abc”,也即“abc”存在重复,两次复述之间可能会加入停顿词;例如,“一六年九月十号十号我跟他讲了这件事情”中的“十号”即为重复词。
其中,被纠正词的出现模式为“abcxyz”或者“abc{停顿词}xyz”,“xyz”纠正“abc”的说法,“abc”为被纠正词,其中,xyz和abc之间可能出现停顿词,且xyz和abc可能存在至少部分字重合。例如,“希望双方男女双方之间的矛盾并不是不可调和的”中的“双方”即为被纠正词,其被“男女双方”纠正。
其中,从所述目标口语文本中消除所述口语化词可以基于该口语化词的口语化类型消除。
口语识别模型也可以识别该口语化词的口语化类型。
其中,作为一种可选方式,该口语识别模型可以按照如下方式预先训练获得:
获取口语训练文本;
确定所述口语训练文本中的至少一个口语化训练词及所述至少一个口语化训练词的口语化类型;
利用所述口语训练文本及所述至少一个口语化训练词的口语化类型,训练口语识别模型。
可选地,可以将口语训练文本进行分词,获得词序列;之后,根据每个词的口语化类型,为每个词设置表示其口语化类型的标签,作为训练标签;其中,若某个词不属于口语化训练词,也可以设置表示其不属于口语化训练词的标签,作为训练标签;
从而可以将口语训练文本得到的词序列作为模型输入,不同词对应的训练标签作为模型输出,来训练口语识别模型。可选地,每个词可以转换为词向量输入模型中。
从而利用口语识别模型识别目标口语文本中的口语化词可以包括:
将所述目标口语文本进行分词;
利用所述口语识别模型识别所述目标口语文本中各个词的目标标签;
基于各个词的目标标签,确定口语化词及其口语化类型。
作为另一种可选方式,该口语识别模型可以按照如下方式预先训练获得:
获取口语训练文本;
确定所述口语训练文本中的至少一个口语化训练词及所述至少一个口语化训练词的口语化类型;
针对所述口语训练文本中的每个单字,根据所述单字构成的口语化训练词的口语化类型及所述单字为其构成的口语化训练词中的开始字、中间字、结束字、单字或不属于任意口语化类型的组成字,设置每个单字的训练标签;
利用所述口语训练文本及所述口语训练文本的各个单字的训练标签,训练口语识别模型。
也即,对口语训练文本可以以字为单位进行标注。
其中,单字为其构成的口语化训练词中的开始字、中间字、结束字或单字是指:比如口语化训练词为“然后呢”,“然”即为开始字、“后”为中间字、“呢”为结束字。当然,若口语化训练词只有两个字,则这两个字分别为开始字和中间字;若口语化训练词只有一个字,其即为单字。
若口语化训练文本中的某个字不构成任意口语化训练词,其即为不属于任意口语化类型的组成字。
为了方便标签标注,可以采用字母b、e、i、s,分别代表开始字、结束字、中间字、单字,如果存在6种口语化类型,6种口语化类型也可以采用不同标识符号表示,则基于6种口语化类型以及开始字、结束字、中间字、单字,可以设置24个标签,对于不属于任意口语化类型的组成字可以利用标签o表示,即总共25个标签。
从而基于每个单字构成的口语化训练词的口语化类型及所述单字为其构成的口语化训练词中的开始字、中间字、结束字、单字或不属于任意口语化类型的组成字,即可以设置每个单字的训练标签。
例如,假设口语化类型包括口语化表述词,口语化表述词类型假设用colloquial表示,假设口语化训练文本中一个属于口语化表述词类型的口语化训练词为“这边”,则单字“这”的训练标签可以设置为colloquial_b表示,单字“边”的训练标签即为colloquial_i。
对于口语训练文本中不属于任意口语化类型的组成字,其训练标签即可以直接设置为o。
此外,在某些实施例中,所述针对所述口语训练文本中的每个单字,根据所述单字构成的口语化训练词的口语化类型及所述单字为其构成的口语化词中的开始字、中间字、结束字、单字或不属于任意口语化类型的组成字,设置每个单字的训练标签可以包括:
针对所述口语训练文本中的每个单字,根据所述单字在所述口语训练文本中的文本位置、所述单字构成的口语化训练词的口语化类型及所述单字为其构成的口语化词中的开始字、中间字、结束字、单字或不属于任意口语化类型的组成字,设置每个单字的训练标签。
也即在每个单字的训练标签中加入位置信息,表示其所在口语训练文本中的文本位置,用来提高口语识别模型的精确度。
在某些实施例中,所述利用所述口语训练文本及所述口语训练文本的各个单字的训练标签,训练口语识别模型可以包括:
将所述口语训练文本的各个单字转换为字向量;
将所述口语训练文本的各个单字的字向量作为模型输入,各个单字的训练标签作为模型输出,训练所述口语识别模型。
其中,口语训练文本的各个单字的字向量形成向量序列,以输入到口语识别模型。
可选地,将单字转换为字向量可以有多种实现方式,例如可以利用skip-gram(一种词向量转换模型)模型获得,当然也可以采用其它的word2vec(wordtovector,词转换为词向量)模型实现,与现有技术相同,在此将不再过多赘述。
其中,该口语识别模型可以采用神经网络模型实现。作为一种可选方式,该口语识别模型可以采用bilstm((bi-longshort-termmemory,双向长短期记忆网络)+crf(conditionalrandomfieldalgorithm,条件随机场)的神经网络架构实现。也即口语识别模型由输入层、双向lstm(longshort-termmemory,双向长短期记忆网络)层、crf层以及输出层构成,其中,双向lstm层以及crf层也即为中间层。
其中,单字的字向量作为输入层的输入,之后经由双向lstm层,从正反两个方向对输入层的输出结果进行建模,将代表每个字的正反两个神经元输出拼接起来,输入给crf层,通过crf层对标签关系建模,crf层连接输出层,输出层的输出结果即为每个单字的标签,据此原理,利用口语训练文本即可以训练得到口语识别模型。
在某些实施例中,所述利用所述口语识别模型识别所述目标口语文本中的口语化词包括:
利用所述口语识别模型识别所述目标口语文本中各个单字的目标标签;
基于各个单字的目标标签,确定所述目标口语文本中的口语化词。
由于标签代表了单字所属的口语化类型以及位于其构成的口语化词中的开始字、中间字、结束字或者单字,因此,基于不同单字的目标标签,即可以得到目标口语文本中的口语化词。
在某些实施例中,所述利用所述口语识别模型识别所述目标口语文本的口语化词包括:
将所述目标口语文本的各个单字转换为字向量;
将所述目标口语文本的各个单字的字向量输入所述口语识别模型,获得所述目标口语文本中各个单字的目标标签;
基于不同单字的目标标签,确定所述目标口语文本中的至少一个口语化词。
由于口语化词不影响口语文本表达的正确意思,也即其是口语文本在表达正确意思时的非必不可少的语素。
因此,作为一种可选方式,所述从所述目标口语文本中消除所述口语化词包括:
从所述目标口语文本中删除所述口语化词。
作为另一种可选方式,所述从所述目标口语文本中消除所述口语化词可以包括:
对包括所述口语化词的目标口语文本及从所述目标口语文本删除所述口语化词得到的文本,分别利用第一语言模型进行打分;其中,所述第一语言模型基于第一标准书面文本训练获得;
基于打分结果,确定是否从所述目标口语文本中删除所述口语化词。
其中,利用第一语言模型进行打分,以评判目标口语文本以及第一候选文本的流畅度。基于打分结果,若删除口语化词得到的文本的打分结果优于目标口语文本的打分结果,则可以确定从目标口语文本中删除所述口语化词;而若目标口语文本的打分结果优于删除口语化词得到的文本的打分结果,则保留目标口语文本中的所述口语化词。
其中,第一语言模型可以采用n-gram(n元模型)语言模型或者神经网络模型,如lstm,srilm(srilanguagemodel,sri语言模型,一种语言模型训练工具)、kenlm(ken语言模型,一种语言模型训练工具)或者rnnlm(rnn语言模型,一种语言模型训练工具)等,或者其它无监督学习模型等。
该第一语言模型可以按照如下方式训练获得:
将第一标准书面文本进行分词;
利用所述第一标准书面文本分词获得的各个词,训练所述第一语言模型。
该第一标准书面文本是指采用书面语表述的文本。
在某些实施例中,对包括所述口语化词的目标口语文本及删除所述口语化词得到的第一候选文本,分别利用第一语言模型进行打分可以包括:
对所述目标口语文本进行分词;
基于所述目标口语文本分词获得的各个词,利用所述第一语言模型进行打分;
对从目标口语文本中删除所述口语化词得到的文本进行分词;
基于删除所述口语化词得到的文本分词获得的各个词,利用所述第一语言模型进行打分。
在某些实施例中,目标口语文本可能存在上下文关系,例如目标口语文本为语言识别结果中的待处理口语文本时,其存在上下文关系。
因此,所述方法还可以包括:
获取所述目标口语文本的至少一个上文口语文本;
将所述目标口语文本及所述至少一个上文口语文本作为待处理文本;
所述从所述目标口语文本中消除所述口语化词可以包括:
对包括所述口语化词的待处理文本及从所述待处理文本中删除所述口语化词得到的文本,分别利用第一语言模型进行打分;
基于打分结果,确定是否从所述目标口语文本中删除所述口语化词。
则对包括所述口语化词的待处理文本及从所述待处理文本中删除所述口语化词得到的文本,分别利用第一语言模型进行打分可以包括:
对所述待处理文本进行分词;
基于所述待处理文本分词获得的各个词,利用所述第一语言模型进行打分;
对从待处理文本中删除所述口语化词得到的文本进行分词;
基于删除所述口语化词得到的文本分词获得的各个词,利用所述第一语言模型进行打分。
此外,由于实际应用中,对于语气词类型的口语化词,在某些场景下是用来承接上下文的,比如对于语气词“嗯”,在某些情况下是作为上一句提问内容的回答内容,其不能直接删除。而对于非语气词类型的口语化词则可以直接删除。
因此,所述利用口语识别模型识别所述目标口语文本中的口语化词包括:
利用口语识别模型识别所述目标口语文本中的口语化词以及所述口语化词的口语化类型;其中,所述口语化类型包括语气词、口语化表述词、停顿词、重复词或者被纠正词;
如果所述口语化词为非语气词类型,从所述目标口语文本中删除所述口语化词;
如果所述口语化词为语气词类型,对包括所述口语化词的目标口语文本及从所述目标口语文本中删除所述口语化词的文本,分别利用第一语言模型进行打分;其中,所述第一语言模型基于第一标准书面文本训练获得;
基于打分结果,确定是否从所述目标口语文本中删除所述口语化词。
其中,对于语气词类型的口语化词删除的具体实现方式,以及第一语言模型的训练,可以详见上文描述,在此不再赘述。
可选地,对于语气词类型的口语词可能是目标口语文本的上文口语文本的承接性内容,因此,所述如果所述口语化词为语气词类型,对包括所述口语化词的目标口语文本及从所述目标口语文本中删除所述口语化词的文本,分别利用第一语言模型进行打分可以包括:
如果所述口语化词为语气词类型,获取所述目标口语文本的至少一个上文口语文本;
将所述目标口语文本及所述至少一个上文口语文本作为待处理文本;
对包括所述口语化词的待处理文本及从所述待处理文本中删除所述口语化词得到的文本,分别利用第一语言模型进行打分。
此外,口语文本中除了出现口语化错误之外,若口语文本为某些特定领域的描述性文本时,例如在庭审场景下进行语音识别得到的文本时,由于庭审场景下会出现一些特定的技术术语词,此外还会涉及很多实体名词,如人名、地名、机构名等,这些技术术语词以及实体名词可以认为是专业词汇,而对于专业词往往会是一些生僻词,语音识别结果很有可能会出错,从而影响口语文本表达的准确性,即便消除口语化错误,也会影响文本表达准确性。因此,为了同时保证文本表达准确性,如图2所示的文本处理方法中,可以包括以下几个步骤:
201:获取目标口语文本。
202:利用口语识别模型识别所述目标口语文本中的口语化词。
203:从所述目标口语文本中消除所述口语化词。
其中,所述口语识别模型基于标注口语化训练词的口语训练文本训练获得。
其中,步骤201~步骤203的操作与图1中所示的步骤101~步骤103操作相同,在此不再赘述。
204:基于专业词列表,查找所述目标口语文本中与目标专业词相匹配的错误专业词。
205:利用所述目标专业词,消除所述目标口语文本中的所述错误专业词。从而可以获得消除口语化词以及错误专业词的规范文本。
需要说明的是,从目标口语文本中消除口语化词以及消除错误专业词可以同时进行也可以依次执行,依次执行顺序也不限定为本实施例中的步骤顺序。
此外,目标口语文本中还可能会出现断句错误,例如标点符号使用错误或者未使用标点符号等,特别是目标口语文本为语音识别获得时,而断句错误可能会影响文本表达的流畅度,因此,为了保证文本表达的流畅度,如图3所示的文本处理方法中,可以包括以下几个步骤:
301:获取目标口语文本。
302:利用口语识别模型识别所述目标口语文本中的口语化词。
303:从所述目标口语文本中消除所述口语化词。
其中,所述口语识别模型基于标注口语化训练词的口语训练文本训练获得。
其中,步骤301~步骤303的操作与图1中所示的步骤101~步骤103操作相同,在此不再赘述。
304:从所述目标口语文本中消除断句错误。从而可以获得消除口语化词以及断句错误的规范文本。
需要说明的是,从目标口语文本中消除口语化词以及消除断句错误可以同时进行也可以依次执行,依次执行顺序也不限定为本实施例中的步骤顺序。
此外,为了既能够消除口语化错误,同时保证文本表达的准确度以及流畅度,如图4所示的文本处理方法中,可以包括以下几个步骤:
401:获取目标口语文本。
402:利用口语识别模型识别所述目标口语文本中的口语化词。
403:从所述目标口语文本中消除所述口语化词。
其中,所述口语识别模型基于标注口语化训练词的口语训练文本训练获得。
其中,步骤401~步骤403的操作与图1中所示的步骤101~步骤103操作相同,在此不再赘述。
404:基于专业词列表,查找所述目标口语文本中与目标专业词相匹配的错误专业词。
405:利用所述目标专业词,消除所述目标口语文本中的所述错误专业词。
406:从所述目标口语文本中消除断句错误。从而可以获得消除口语化词、消除错误专业词以及消除断句错误的规范文本。
需要说明的是,从目标口语文本中消除口语化词、消除错误专业词以及消除断句错误可以同时进行也可以依次执行,依次执行顺序也不限定为本实施例中的步骤顺序。
其中,专业词列表中即可以包括技术术语词或者实体名词等。
专业词表中的专业词可以预先配置。
此外,对于实体名词,还可以通过对目标口语文本相同领域的书面文本进行离线挖掘获得,例如在庭审场景下,书面文本可以采用起诉书、当事人信息、证据信息等文本。
对书面文本进行挖掘可以通过正则表达式进行挖掘获得;或者对书面文本进行分词,通过统计不同词的出现频次,将出行频次较高的词作为实体名词。
其中,作为一种可选方式,所述利用所述目标专业词,消除所述目标口语文本中的所述错误专业词可以包括:
利用所述目标专业词替换所述目标口语文本中的所述错误专业词。
作为另一种可选方式,为了进一步提高文本表达准确度,所述利用所述目标专业词,消除所述目标口语文本中的所述错误专业词可以包括:
利用第二语言模型分别对包括所述错误专业词的目标口语文本以及利用所述目标专业词替换所述目标口语文本中的所述错误专业词得到的文本分别进行打分;其中,所述第二语言模型基于第二标准书面文本训练获得;
基于打分结果,确定是否利用所述目标专业词替换所述错误专业词。
其中,若目标口语文本的打分结果优于利用所述目标专业词替换所述目标口语文本中的所述错误专业词得到的文本的打分结果,则对目标口语文本的错误专业词不进行替换;若利用所述目标专业词替换所述目标口语文本中的所述错误专业词得到的文本的打分结果优于目标口语文本的打分结果,则利用所述目标专业词替换所述错误专业词。
其中,第二标准书面文本可以为包含专业词且采用书面语表述的书面文本等。
此外,第一标准文本可以与第二标准文本相同,第一语言模型可以与第二语言模型相同。第二语言模型可以采用n-gram语言模型或者神经网络模型,如lstm,srilm,kenlm或者rnnlm等,或者其它无监督学习模型等实现。
在某些实施例中,所述利用第二语言模型分别对包括所述错误专业词的目标口语文本以及利用所述目标专业词替换所述目标口语文本中的所述错误专业词得到的文本分别进行打分包括:
获取所述目标口语文本的至少一个上文口语文本;
将所述目标口语文本及所述至少一个上文口语文本作为待处理文本;
利用第二语言模型分别对包括所述错误专业词的待处理文本以及利用所述目标专业词替换所述待处理文本中的所述错误专业词得到的文本分别进行打分
在某些实施例中,所述基于专业词列表,查找所述目标口语文本中与目标专业词相匹配的错误专业词可以包括:
利用专业词列表中的每个专业词,在所述目标口语文本中进行搜索,查找与任意专业词满足相似条件的错误专业词;其中,与错误专业词满足相似条件的该任意专业词作为目标专业词。
其中,该相似条件可以是指词向量之间的相似度大于相似阈值等。
为了提高搜索准确度,在某些实施例中,所述利用专业词列表中每个专业词,在所述目标口语文本中进行搜索,查找与任意专业词满足相似条件的错误专业词可以包括:
将所述目标口语文本转换为拼音序列;
利用专业词列表中每个专业词的拼音序列,在所述目标口语文本中进行搜索,查找与任意专业词的拼音序列满足相似条件的候选拼音序列对应的错误专业词。
其中,该候选拼音序列对应的字数量与该专业词对应的字数量相同。
其中,与任意专业词的拼音序列满足相似条件的候选拼音序列可以是指与任意专业词的拼音序列的拼音相似度大于拼音相似阈值的候选拼音序列。
其中,该拼音相似度可以通过计算编辑距离(editdistance)获得,或者基于jaro编辑距离(一种改进的编辑距离)获得或者其它改进的编辑距离计算获得。
其中,在某些实施例中,利用专业词列表中的每个专业词,在所述目标口语文本中进行搜索可以采用启发式搜索方法,例如正向最大匹配算法进行搜索,以降低搜索工作量等。
作为一种可选方式,所述从所述目标口语文本中消除断句错误可以包括:
针对所述目标口语文本中的每个待处理标点符号,利用第三语言模型对包括所述标点符号的目标口语文本以及利用不同候选标点符号分别替换所述目标口语文本中所述待处理标点符号得到的不同文本分别进行打分;其中,所述第三语言模型利用第三标准书面文本训练获得;
基于打分结果,选择最优标点符号替换所述待处理标点符号。
其中,目标口语文本中的每个待处理标点符号对应的候选标点符号可以为与该待处理标点符号不同的任意标点符号。
从而基于打分结果,即可以确定最优标点符号,该最优标点符号可能为任一个候选标点符号,当然也可能为该待处理标点符号,若最优标点符号为待处理标点符号,也即不进行标点符号替换。
其中,该第三标准书面文本可以是指标点符号设置正确的采用书面语表述的文本。
当然,第一标准书面文本或者第二标准书面文本可以与该第三标准书面文本相同,从而第一语言模型或第二语言模型可以与第三语言模型相同,第三语音模型即为通用模型,可以对标点符号的替换、口语化词删除或者专业词替换进行打分。
在某些实施例中,所述针对所述目标口语文本中的每个待处理标点符号,利用第三语言模型对包括所述标点符号的目标口语文本以及利用不同候选标点符号分别替换所述目标口语文本中所述待处理标点符号得到的不同文本分别进行打分包括:
获取所述目标口语文本的至少一个上文口语文本;
将所述目标口语文本及所述至少一个上文口语文本作为待处理文本;
针对所述目标口语文本中的每个待处理标点符号,利用第三语言模型对包括所述标点符号的待处理文本以及利用不同候选标点符号分别替换所述待处理文本中所述待处理标点符号得到的不同文本分别进行打分。
作为另一种可选方式,所述从所述目标口语文本中消除断句错误可以包括:
确定目标口语文本中需要插入标点符号的插入位置;
针对每个插入位置,利用第四语言模型对在目标口语文本中分别插入不同候选标点符号得到的不同文本分别进行打分;其中,所述第四语言模型利用第四标准书面文本训练获得;
基于打分结果,选择最优候选标点符号添加至所述标点插入位置。
其中,该第四语音模型可以与第三语音模型相同,第四标准文本也即为标点符号设置正确的采用书面语表述的文本。
可选地,确定目标口语文本中需要插入标点符号的标点插入位置可以包括:
在某些实施例中,所述针对每个插入位置,利用第四语言模型对在目标口语文本中分别插入不同候选标点符号得到的不同文本分别进行打分可以包括:
获取所述目标口语文本的至少一个上文口语文本;
将所述目标口语文本及所述至少一个上文口语文本作为待处理文本;
针对每个插入位置,利用第四语言模型对在待处理文本中分别插入不同候选标点符号得到的不同文本分别进行打分。
其中,确定目标口语文本中需要插入标点符号的标点插入位置,可以通过对目标口语文本进行断句识别确定,可以利用预先训练的断句识别模型进行识别。通过对目标口语文本进行分词,利用断句识别模型可以计算相邻词之间的关联性,从而可以基于相邻词之间的关联性,确定两个词之间是否需要插入标点符号等,若是,则该两个词之间即为标点插入位置。
结合上文描述可知,对目标口语文本进行规范,可以包括消除口语词、利用专业词消除错误专业词、以及消除断句错误等。
因此,在某些实施例中,所述从所述目标口语文本中消除所述口语化词,以获得规范文本可以包括:
从所述目标口语文本中消除所述口语化词、利用所述目标专业词消除所述目标口语文本中的所述错误专业词,以及从所述目标口语文本中消除断句错误,以获得规范文本。
在某些实施例中,所述从所述目标口语文本中消除所述口语化词、利用所述目标专业词消除所述目标口语文本中的所述错误专业词,以及从所述目标口语文本中消除断句错误可以包括:
将所述目标口语文本中的每个口语化词、每个错误专业词、每个标点符号、每个标点插入位置,分别作为检查点;
针对每个检查点,利用第五语言模型分别对包括所述检查点的目标口语文本以及消除所述检查点的候选文本进行打分;
基于打分结果,确定是否从所述目标口语文本中消除所述检查点。
其中,检查点分别为口语化词、错误专业词、标点符号或者标点插入位置时的打分方式以及消除方式可以分别参见上文中所述,在此将不再重复赘述。
在某些实施例中,所述针对每个检查点,利用第五语言模型分别对包括所述检查点的目标口语文本以及从所述目标口语文本中消除所述检查点得到的文本进行打分可以包括:
获取所述目标口语文本的至少一个上文口语文本;
将所述目标口语文本及所述至少一个上文口语文本作为待处理文本;
针对每个检查点,利用第五语言模型分别对包括所述检查点的待处理文本以及从所述待处理文本中消除所述检查点得到的文本进行打分。
另外,对于断句错误的检查点,可能会对应多个候选消除方式,如标点插入位置插入的候选标点符号,以及待处理标点符号对应的候选标点符号,就可能有多个。如果利用第五语言模型分别进行打分可能候选项比较多,为了提升效率,在某些实施例中,所述针对每个检查点,利用第五语言模型分别对包括所述检查点的目标口语文本以及消除所述检查点的候选文本进行打分可以包括:
针对每个检查点,对每个检查点对应的多个候选消除方式进行排序筛选,获得预定数量个候选消除方式;
利用第五语言模型分别对包括所述检查点的目标口语文本以及按照所述预定数量个候选消除方式从目标口语文本中分别消除所述检查点得到的文本进行打分;
基于打分结果,按照最优候选消除方式从所述目标口语文本中消除所述检查点。
其中,对每个检查点对应的多个候选消除方式进行排序筛选,获得预定数量个候选消除方式可以采用beamsearch(集束搜索)策略实现。
其中,对目标口语文本消除口语化错误、断句错误和/或专业词错误,实现规范目标口语文本,即可以得到规范文本。
在某些实施例中,所述方法还可以包括:
输出所述规范文本。
另外,对于输出的规范文本,用户即可以查看,并可以对转换不准确的地方进行修改等。
因此,在某些实施例中,所述方法还可以包括:
接收针对所述规范文本的更新操作,更新所述规范文本。
其中,输出所述规范文本可以是将规范文本发送至显示设备,以在显示设备中输出该规范文本。
其中,针对所述规范文本的更新操作也由显示设备检测并反馈给服务端。
在某些实施例中,所述方法还可以包括:
将所述规范文本转换为目标语音数据。
也即通过tts(texttospeech,从文本到语音)技术将规范文本转换为目标语音数据。
目标口语识别文本可以是对口语语音数据进行语音识别得到,从而得到的规范文本再转换为目标语音数据,可以实现将口语语音纠正为书面语语音的目的。
可选地,所述方法还可以包括:
播放所述目标语音数据。
在一些场景下,例如人机对话场景、电话客服场景等等,可以对采集的用户输入语音进行语音识别转换为文本,再采用本申请技术方案转换为书面语形式的规范文本,之后将规范文本转换为语音数据进行播放,实现输出书面语语音的目的,有助于进行信息的传播和交流等。
在一个实际应用中,本申请实施例的技术方案可以应用于庭审场景中,目标口语文本为庭审语音识别结果中的任意一个待处理的口语文本。
结合图5所示的示意图可知,可以从庭审语音识别结果获取目标口语文本501。其中,庭审语音识别结果是指利用语音识别技术第庭审语音进行识别获得。
此外,为了提升文本处理准确性,除了获取目标口语文本,还可以获取庭审语音识别结果该目标口语文本的至少一个上文口语文本。庭审语音结果可以划分为多个口语文本,按照时间先后顺序依次进行处理。
此外,对目标口语文本可以进行预处理操作,如分词、词性标注等以便于后续进行处理。
对于目标口语文本可以利用口语识别模型识别目标口语文本中的口语化词502;
其中,口语识别模型可以基于标注口语化训练词的口语训练文本预先训练获得503;口语识别模型的具体训练方式可以参见上文所述,在此不再赘述。
此外,对于目标口语文本还可以基于专业词列表,查找所述目标口语文本中与目标专业词相匹配的错误专业词504。
其中,专业词列表中存储预先配置的大量与庭审相关的专业词,可以保证庭审涉及的实体名以及庭审相关的技术术语如法律术语等。
专业词列表中如果为实体名词时,还可以通过对庭审相关的起诉书、当事人信息、证据信息等进行挖掘获得。
其中,查找与目标专业词相匹配的错误专业词的具体过程可以参见上文所述。
此外,对于目标口语文本还可以识别目标口语文本中的断句错误505。
从而确定出目标口语文本中的口语化词、错误专业词以及断句错误之后,即可以对目标口语文本进行纠错,以消除目标口语文本中存在的口语化错误、专业词错误以及断句错误等,包括:从目标口语文本中消除口语化词506;利用目标专业词消除错误专业词507;以及从目标口语文本中的断句错误508。
其中,口语化错误、专业词错误以及断句错误的具体消除方式可以详见上文中所述,可以利用语言模型对每个检查点进行打分,并基于打分结果确定是否消除或采用哪种方式消除检查点。
通过对目标口语文本进行规范,即可以获得规范文本509。
该规范文本可以发送至书记员使用的显示设备,以在显示设备中输出该规范文本,同时在该显示设备中还可以输出庭审语音识别结果,以方便书记员进行比对,书记员还可以对规范文本进行更新操作,以人为调整转换获得的规范文本。
图6为本申请实施例提供的一种文本处理装置一个实施例的结构示意图,该装置可以包括:
文本获取模块601,用于获取目标口语文本;
口语错误识别模块602,用于利用口语识别模型识别所述目标口语文本中的口语化词;
口语错误消除模块603,用于从所述目标口语文本中消除所述口语化词,以获得规范文本。
其中,所述口语识别模型可以基于标注口语化训练词的口语训练文本训练获得。
在某些实施例中,该装置还可以包括:
模型预训练模块,用于获取口语训练文本;确定所述口语训练文本中的至少一个口语化训练词及所述至少一个口语化训练词的口语化类型;针对所述口语训练文本中的每个单字,根据所述单字构成的口语化训练词的口语化类型及所述单字为其构成的口语化词中的开始字、中间字、结束字、单字或不属于任意口语化类型的组成字,设置每个单字的训练标签;利用所述口语训练文本及所述口语训练文本的各个单字的训练标签,训练口语识别模型。
在某些实施例中,所述模型预训练模块针对所述口语训练文本中的每个单字,根据所述单字构成的口语化训练词的口语化类型及所述单字为其构成的口语化词中的开始字、中间字、结束字、单字或不属于任意口语化类型的组成字,设置每个单字的训练标签包括:针对所述口语训练文本中的每个单字,根据所述单字在所述口语训练文本中的文本位置、所述单字构成的口语化训练词的口语化类型及所述单字为其构成的口语化词中的开始字、中间字、结束字、单字或不属于任意口语化类型的组成字,设置每个单字的训练标签。
在某些实施例中,所述模型预训练模块利用所述口语训练文本及所述口语训练文本的各个单字的训练标签,训练口语识别模型包括:将所述口语训练文本的各个单字转换为字向量;将所述口语训练文本的各个单字的字向量作为模型输入,各个单字的训练标签作为模型输出,训练所述口语识别模型。
在某些实施例中,所述口语识别模型包括输入层、双向长短期记忆网络lstm层、条件随机场crf层以及输出层构成。
在某些实施例中,所述口语错误识别模块具体用于利用所述口语识别模型识别所述目标口语文本中各个单字的目标标签;基于各个单字的目标标签,确定所述目标口语文本中的口语化词。
在某些实施例中,所述口语错误识别模块具体用于将所述目标口语文本的各个单字转换为字向量;将所述目标口语文本的各个单字的字向量输入所述口语识别模型,获得所述目标口语文本中各个单字的目标标签;基于不同单字的目标标签,确定所述目标口语文本中的口语化词。
在某些实施例中,所述口语错误消除模块具体用于对包括所述口语化词的目标口语文本及从所述目标口语文本中删除所述口语化词得到的文本,分别利用第一语言模型进行打分;其中,所述第一语言模型基于标准书面文本训练获得;基于打分结果,确定是否从所述目标口语文本中删除所述口语化词。
在某些实施例中,该文本获取模块还用于获取所述目标口语文本的至少一个上文口语文本;将所述目标口语文本及所述至少一个上文口语文本作为待处理文本;
所述口语错误消除模块具体用于对包括所述口语化词的待处理文本及从所述待处理文本中删除所述口语化词得到的文本,分别利用第一语言模型进行打分;基于打分结果,确定是否从所述目标口语文本中删除所述口语化词。
在某些实施例中,所述口语错误识别模块具体用于利用口语识别模型识别所述目标口语文本中的口语化词以及所述口语化词的口语化类型;其中,所述口语化类型包括语气词、口语化表述词、停顿词、重复词或者被纠正词;
所述口语错误消除模块具体用于如果所述口语化词为非语气词类型,从所述目标口语文本中删除所述口语化词;如果所述口语化词为语气词类型,对包括所述口语化词的目标口语文本及从所述目标口语文本中删除所述口语化词得到的文本,分别利用第一语言模型进行打分;其中,所述第一语言模型基于第一标准书面文本训练获得;基于打分结果,确定是否从所述目标口语文本中删除所述口语化词。
在某些实施例中,该装置还可以包括:
专业词错误识别模块,用于基于专业词列表,查找所述目标口语文本中与目标专业词相匹配的错误专业词;
专业词错误消除模块,用于利用所述目标专业词,消除所述目标口语文本中的所述错误专业词。
在某些实施例中,所述专业词错误消除模块具体用于利用所述目标专业词替换所述目标口语文本中的所述错误专业词。
在某些实施例中,所述专业词错误消除模块具体用于利用第二语言模型分别对包括所述错误专业词的目标口语文本以及利用所述目标专业词替换所述目标口语文本中的所述错误专业词得到的文本分别进行打分;其中,所述第二语言模型基于第二标准书面文本训练获得;基于打分结果,确定是否利用所述目标专业词替换所述错误专业词。
在某些实施例中,所述专业词错误识别模块具体用于利用专业词列表中的每个专业词,在所述目标口语文本中进行搜索,查找与任意专业词满足相似条件的错误专业词;其中,与错误专业词满足相似条件的任意专业词作为目标专业词。
在某些实施例中,所述专业词错误识别模块具体用于将所述目标口语文本转换为拼音序列;
利用专业词列表中每个专业词的拼音序列,在所述目标口语文本中进行搜索,查找与任意专业词的拼音序列满足相似条件的候选拼音序列对应的错误专业词。
在某些实施例中,该装置还可以包括:
断句错误消除模块,用于从所述目标口语文本中消除断句错误。
在某些实施例中,所述断句错误消除模块具体用于针对所述目标口语文本中的每个待处理标点符号,利用第三语言模型分别对包括所述待处理标点符号的目标口语文本以及利用不同候选标点符号分别替换所述目标口语文本中的所述待处理标点符号得到的不同文本进行打分;其中,所述第三语言模型利用第三标准书面文本训练获得;基于打分结果,选择最优标点符号替换所述待处理标点符号。
在某些实施例中,所述断句错误消除模块具体用于确定目标口语文本中需要插入标点符号的标点插入位置;针对每个插入位置利用第四语言模型对分别插入不同候选标点符号得到的不同文本分别进行打分;其中,所述第四语言模型利用第四标准书面文本训练获得;基于打分结果,选择最优候选标点符号添加至所述标点插入位置。
在某些实施例中,所述口语错误消除模块具体用于从所述目标口语文本中消除所述口语化词、利用所述目标专业词消除所述目标口语文本中的所述错误专业词,以及从所述目标口语文本中消除断句错误。
在某些实施例中,所述口语错误消除模块具体用于将所述目标口语文本中的每个口语化词、每个错误专业词、每个标点符号、每个标点插入位置,分别作为检查点;针对每个检查点,利用第五语言模型分别对包括所述检查点的目标口语文本以及从所述目标口语文本中消除所述检查点得到的文本进行打分;基于打分结果,确定是否从所述目标口语文本中消除所述检查点。
在某些实施例中,所述口语错误消除模块针对每个检查点,利用第五语言模型分别对包括所述检查点的目标口语文本以及从所述目标口语文本中消除所述检查点得到的文本进行打分包括:获取所述目标口语文本的至少一个上文口语文本;将所述目标口语文本及所述至少一个上文口语文本作为待处理文本;针对每个检查点,利用第五语言模型分别对包括所述检查点的待处理文本以及从所述待处理文本中消除所述检查点得到的文本进行打分。
在某些实施例中,所述文本获取模块具体用于从语音识别结果中获取待处理的目标口语文本。
在某些实施例中,该装置还可以包括:
文本输出模块,用于输出所述规范文本;
文本更新模块,用于接收针对所述规范文本的更新操作,更新所述规范文本。
在某些实施例中,该装置还可以包括:
文本转换模块,用于将所述规范文本转换为目标语音数据。
图6所述的文本处理装置可以执行图1所示实施例所述的文本处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的文本处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图6所示实施例的文本处理装置可以实现为计算设备,如图7所示,该计算设备可以包括存储组件701以及处理组件702;
所述存储组件701存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件702调用执行。
所述处理组件702用于:
获取目标口语文本;
利用口语识别模型识别所述目标口语文本中的口语化词;
从所述目标口语文本中消除所述口语化词,以获得规范文本。
其中,所述口语识别模型可以基于标注口语化训练词的口语训练文本训练获得。
其中,处理组件702可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件701被配置为存储各种类型的数据以支持在计算设备的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。
其中,该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务资源。
此外,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图1所示实施例的文本处理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除