HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

信息处理方法、装置及电子设备与流程

2021-01-28 16:01:32|301|起点商标网
信息处理方法、装置及电子设备与流程

本发明实施例涉及人工智能技术领域,尤其涉及一种信息处理方法、装置及电子设备。



背景技术:

随着人机交互技术的发展,语义识别技术显示出其重要性。语义识别是从人类发出的语音信号中提取特征信息并确定其语言含义的过程,主要包括语音识别过程和语义理解过程。语音识别过程是利用声学模型将人类的语音信号转换为文本的过程,语义理解过程是利用自然语言模型对文本的含义进行识别的过程。

现有技术中,在对用户输入的语音信号进行处理时,首先利用语音活动性检测(voiceactivitydetection,vad)技术,在连续的语音信号中确定出各个语音片段的起始点和终止点,从而实现将连续语音信号切分为多个语音片段,然后对切分后的语音片段进行语音识别和语义理解,以得到用户的语义。

然而,在实际应用中,由于不同用户的说话语速、说话习惯以及说话人所处场景的不同,通过vad检测的方式对语音信号进行切分,使得对语句的切分不够准确,进而导致语义识别的准确率不高。



技术实现要素:

本发明实施例提供一种信息处理方法、装置及电子设备,用以提高语义识别的准确率。

第一方面,本发明实施例提供一种信息处理方法,包括:

获取待识别的文本信息;

对所述文本信息添加标点符号,将所述文本信息划分为至少一个文本片段;

根据所述至少一个文本片段的语义识别结果,获取所述文本信息的有效语义信息。

可选的,所述语义识别结果包括:语义完整性概率得分和语义信息;所述根据所述至少一个文本片段的语义识别结果,获取所述文本信息的有效语义信息,包括:

将语义完整性概率得分满足预设条件的文本片段的语义信息,作为所述文本信息的有效语义信息。

可选的,所述将语义完整性概率得分满足预设条件的文本片段的语义信息,作为所述文本信息的有效语义信息,包括:

针对所述至少一个文本片段中的每个文本片段,若所述文本片段的语义完整性概率得分大于或等于预设阈值,则将所述文本片段的语义信息作为所述文本信息的有效语义信息;或者

针对所述至少一个文本片段,将语义完整性概率得分最高的文本片段的语义信息作为所述文本信息的有效语义信息。

可选的,所述将语义完整性概率得分满足预设条件的文本片段的语义信息,作为所述文本信息的有效语义信息,包括:

针对所述至少一个文本片段中的任一文本片段,获取已缓存的历史文本片段,所述历史文本片段为所述文本片段之前的语义完整性概率得分不满足所述预设条件的至少一个文本片段;

对所述历史文本片段和所述文本片段拼接得到的新的文本片段进行语义识别处理,获取所述新的文本片段的语义识别结果;

若所述新的文本片段的语义完整性概率得分大于或等于预设阈值,则将所述新的文本片段的语义信息作为所述文本信息的有效语义信息。

可选的,所述方法还包括:

若所述新的文本片段的语义完整性概率得分大于或等于预设阈值,将所述历史文本片段从缓存中删除。

可选的,所述方法还包括:

若所述新的文本片段的语义完整性概率得分小于预设阈值,则将所述新的文本片段作为历史文本片段存储至缓存中。

可选的,所述获取待识别的文本信息,包括:

获取输入智能设备的语音信息;

对所述语音信息进行语音识别,得到待识别的文本信息。

可选的,所述获取所述文本信息对应的有效语义信息之后,还包括:

根据所述有效语义信息,获取所述文本信息对应的回复信息;

控制智能设备输出所述回复信息。

可选的,所述对所述文本信息添加标点符号,包括:

将所述文本信息输入标点模型,获取所述标点模型输出的添加了至少一个标点符号的文本信息。

第二方面,本发明实施例提供一种信息处理装置,其特征在于,包括:

获取模块,用于获取待识别的文本信息;

切分模块,用于对所述文本信息添加标点符号,将所述文本信息划分为至少一个文本片段;

识别模块,用于根据所述至少一个文本片段的语义识别结果,获取所述文本信息的有效语义信息。

可选的,所述语义识别结果包括:语义完整性概率得分和语义信息;所述识别模块具体用于:

将语义完整性概率得分满足预设条件的文本片段的语义信息,作为所述文本信息的有效语义信息。

可选的,所述识别模块具体用于:

针对所述至少一个文本片段中的每个文本片段,若所述文本片段的语义完整性概率得分大于或等于预设阈值,则将所述文本片段的语义信息作为所述文本信息的有效语义信息;或者

针对所述至少一个文本片段,将语义完整性概率得分最高的文本片段的语义信息作为所述文本信息的有效语义信息。

可选的,所述识别模块具体用于:

针对所述至少一个文本片段中的任一文本片段,获取已缓存的历史文本片段,所述历史文本片段为所述文本片段之前的语义完整性概率得分不满足所述预设条件的至少一个文本片段;

对所述历史文本片段和所述文本片段拼接得到的新的文本片段进行语义识别处理,获取所述新的文本片段的语义识别结果;

若所述新的文本片段的语义完整性概率得分大于或等于预设阈值,则将所述新的文本片段的语义信息作为所述文本信息的有效语义信息。

可选的,所述识别模块还具体用于:若所述新的文本片段的语义完整性概率得分大于或等于预设阈值,则将所述历史文本片段从缓存中删除。

可选的,所述识别模块还用于:

若所述新的文本片段的语义完整性概率得分小于预设阈值,则将所述新的文本片段作为历史文本片段存储至缓存中。

可选的,所述获取模块具体用于:

获取输入智能设备的语音信息;

对所述语音信息进行语音识别,得到待识别的文本信息。

可选的,所述装置还包括:输出模块,所述输出模块用于:

根据所述有效语义信息,获取所述文本信息对应的回复信息;

控制智能设备输出所述回复信息。

可选的,所述切分模块具体用于:

将所述文本信息输入标点模型,获取所述标点模型输出的添加了至少一个标点符号的文本信息。

第三方面,本发明实施例提供一种电子设备,包括:至少一个处理器和存储器;

所述存储器存储计算机执行指令;

所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的方法。

第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的方法。

第五方面,本发明实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如上第一方面任一项所述的方法。

第六方面,本发明实施例提供一种芯片,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得安装有所述芯片的电子设备执行如上第一方面任一项所述的方法。

本发明实施例提供的技术方案,获取待识别的文本信息,对所述文本信息添加标点符号,将所述文本信息划分为至少一个文本片段,根据所述至少一个文本片段的语义识别结果,获取所述文本信息的有效语义信息;由此可见,本实施例中在对文本信息进行语义识别时,通过对长文本信息添加标点符号,实现对文本信息的切分,然后针对文本片段进行语义识别,得到文本信息的有效语义信息。由于根据标点符号对文本信息进行切分的过程考虑了自然语言理解,使得对文本信息的切分结果更加准确,进而根据切分后的文本片段的语义识别结果确定文本信息的有效语义信息,能够提高语义识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为现有技术中语义识别过程的示意图;

图2为本发明实施例提供的语义识别过程的示意图;

图3为本发明实施例提供的信息处理方法的流程示意图一;

图4为本发明实施例提供的信息处理方法的流程示意图二;

图5为本发明实施例提供的语义识别过程的示意图二;

图6为本发明实施例提供的信息处理方法的流程示意图三;

图7为本发明实施例提供的信息处理装置的结构示意图;

图8为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为现有技术中语义识别过程的示意图,如图1所示,在对用户输入的语音信息进行处理时,首先利用语音活动性检测(voiceactivitydetection,vad)技术,在连续的语音信息中确定出各个语音片段的起始点和终止点,实现将连续语音信息切分为多个语音片段,然后对切分后的语音片段进行语音识别和语义理解,以得到用户的语义。具体的,将语音片段输入自动语音识别(automaticspeechrecognition,asr)模型进行识别,得到语音片段对应的文本信息,然后将文本信息输入至自然语言处理(naturallanguageprocessing,nlp)模型中进行识别,得到文本信息对应的语义信息。

然而,在实际应用中,由于不同用户的说话语速、说话习惯以及说话人所处场景的不同,通过vad检测的方式对语句进行切分,使得对语句的切分不够准确,进而导致语义识别的准确率不高。

为了解决上述问题,本发明实施例提供一种信息处理方法。图2为本发明实施例提供的语义识别过程的示意图。如图2所示,本实施例中,对连续的语音信息不进行切分而直接输入asr模型进行语音识别,得到连续语音信息对应的文本信息。然后通过对文本信息进行切分,得到多个文本片段,再将文本片段输入至nlp模型中,得到文本片段的语义信息。

本实施例中,通过先将语音信息识别为文本信息,然后再对文本信息进行切分得到文本片段,使得在切分过程中可以考虑自然语言理解,提高语句切分的准确性,从而提高语义识别的准确率。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本发明实施例提供的信息处理方法的流程示意图一,本实施例的方法可以由服务器执行,还可以由智能设备执行。当本实施例由智能设备执行时,智能设备可以是具有与用户进行人机对话功能的任意电子设备,包括但不限于:机器人、智能音箱、智能家居、智能穿戴设备、智能手机等。

需要说明的是,为了描述方便,本实施例以及后续实施例中,在涉及举例说明时仅以智能设备为例进行描述。

如图3所示,该信息处理方法,可以包括:

s301:获取待识别的文本信息。

其中,待识别的文本信息为长文本信息。也就是说,待识别的文本信息是没有经过切分的文本信息。

所述文本信息可以是用户输入智能设备中的。一种可能的场景中,用户直接向智能设备中输入文本信息。另一种可能的场景中,用户向智能设备中输入语音信息,然后智能设备通过对语音信息进行语音识别,得到文本信息。

基于上述的第二种场景,本实施例与现有技术不同的是,在智能设备获取到用户输入的语音信息后,并不对语音信息进行切分,而是直接对语音信息进行语音识别得到文本信息。示例性的,识别得到的文本信息可能为“你看这个机器人挺好的咱们试一下吧今天天气怎么样效果真不错吧”。

由此可见,本实施例中获取的文本信息为长文本,文本信息的语义很难被理解。若直接将文本信息输入至nlp模型进行语义识别,会导致产生歧义问题,语义识别准确率不理想。本实施例中,在获取到待识别的文本信息后,可以执行s302对文本信息进行切分得到文本片段。

s302:对所述文本信息添加标点符号,将所述文本信息划分为至少一个文本片段。

本实施例中,通过对文本信息添加标点符号实现对文本信息进行切分。

具体的,对文本信息添加标点符号的方式有多种。一种可能的实施方式中,对文本信息进行自然语言理解,根据自然语言理解的结果添加标点符号。另一种可能的实施方式中,还可以根据文本信息中相邻词汇之间的时间间隔的长短,对文本信息添加标点符号。又一种可能的实施方式中,利用标点模型对文本信息添加标点符号。

下面以标点模型为例进行说明,将文本信息输入标点模型,获取标点模型输出的添加了至少一个标点符号的文本信息,各标点符号将文本信息划分为至少一个文本片段。

具体的,标点模型可以在文本信息中添加任意的标点符号,包括但不限于:逗号、句号、问号、叹号、分号等。例如:对文本信息“你看这个机器人挺好的咱们试一下吧今天天气怎么样效果真不错吧”添加标点符号后的文本信息为“你看这个机器人挺好的,咱们试一下吧。今天天气怎么样?效果真不错吧!”。

可以理解的,通过在文本信息中添加标点符号,标点符号可以将文本信息划分为至少一个文本片段。例如:上述举例的文本信息添加标点符号后,标点符号将文本信息划分为四个文本片段,分别为:

“你看这个机器人挺好的,”

“咱们试一下吧。”

“今天天气怎么样?”

“效果真不错吧!”

本实施例中,根据标点符号对文本片段进行划分时,可以将每个标点符号均作为切分点,例如上述举例中,将四个标点符号均作为切分点,得到4个文本片段。当然,还可以仅将预设的标点符号作为切分点,例如:仅将句号、叹号、问号作为切分点,则上述的文本信息可以被划分为3个文本片段,分别为:

“你看这个机器人挺好的,咱们试一下吧。”

“今天天气怎么样?”

“效果真不错吧!”

需要说明的是,现有技术中的标点模型有多种,本实施例对此不作具体限定。例如:基于条件随机场算法(conditionalrandomfieldalgorithm,crf)的标点模型、基于最大熵的标点模型等。

s303:根据所述至少一个文本片段的语义识别结果,获取所述文本信息的有效语义信息。

本实施例中,通过步骤s302为文本信息添加标点符号,将文本信息划分为多个文本片段后,可以对各个文本片段分别进行语义识别处理,得到语义识别结果。进一步的,可以根据各文本片段的语义识别结果,得到文本信息的有效语义信息。

一种可选的实施方式中,利用自然语言处理nlp模型对各文本片段的语义进行识别处理。具体的,针对待识别的当前文本片段,将当前文本片段输入nlp模型中,获取当前文本片段的语义识别结果。

nlp模型通常一次可以处理一定长度的文本片段。作为一种可能的实现方式,nlp模型对输入的文本片段进行分词处理,得到关键词序列,然后根据关键词序列获取具有上下文语义关系的词向量,然后将词向量输入分类模型中进行特征提取,分类模型根据提取的特征输出该文本片段所属的语义类别的概率。

可选的,nlp模型中的分类模型可以为深度神经网络模型。

本实施例提供的信息处理方法中,获取待识别的文本信息,对所述文本信息添加标点符号,将所述文本信息划分为至少一个文本片段,根据所述至少一个文本片段的语义识别结果,获取所述文本信息的有效语义信息;由此可见,本实施例中在对文本信息进行语义识别时,通过对长文本信息添加标点符号,实现对文本信息的切分,然后针对文本片段进行语义识别,得到文本信息的有效语义信息。由于根据标点符号对文本信息进行切分的过程考虑了自然语言理解,使得对文本信息的切分结果更加准确,进而根据切分后的文本片段的语义识别结果确定文本信息的有效语义信息,能够提高语义识别的准确率。

下面结合一个具体的实施例详细描述本发明信息处理的具体过程。下述实施例为图3所示实施例的细化。

图4为本发明实施例提供的信息处理方法的流程示意图二。如图4所示,本实施例的方法,包括:

s401:获取输入智能设备的语音信息。

具体的,获取输入智能设备的语音信息时,可以通过智能设备的麦克风采集用户的语音信息,也可以通过网络或者蓝牙等方式接收其他设备获取的用户的语音信息。需要说明的是,本发明实施例只是以这两种可能的实现方式获取用户的语音信息为例进行说明,但并不代表本发明实施例仅局限于此。

s402:对所述语音信息进行语音识别,得到待识别的文本信息。

获取到语音信息后,可以采用语音识别技术,将语音信息识别为文本信息。一种可能的实施方式中,将所述语音信息输入至asr模型中,获取所述asr模型输出的所述语音信息对应的文本信息。

其中,asr模型可以具体包括声学模型和语言模型,通过对语音信息进行识别,得到对应的文本信息。其中文本信息是文字和/或单词的序列。

s403:对所述文本信息添加标点符号,将所述文本信息划分为至少一个文本片段。

本实施例中,s403的具体实施方式与图3所示实施例中的s302类似,此处不再赘述。

s404:将语义完整性概率得分满足预设条件的文本片段的语义信息,作为所述文本信息的有效语义信息。

本实施例中,文本片段的语义识别结果包括:语义完整性概率得分和语义信息。具体的,在利用nlp模型进行语义识别处理时,将当前文本片段输入nlp模型中,nlp模型对该文本片段进行语义识别处理,输出该文本片段的语义信息,同时还会输出该文本片段的语义完整性概率得分。

可以理解的,语义完整性概率得分用于指示文本片段所表达的语义的完整性。可以理解的,文本片段所表达的语义越完整,则对应的语义完整性概率得分越高;文本片段所表达的语义越不完整,则对应的语义完整性概率得分越低。例如:“今天天气”的语义完整性概率得分要小于“今天天气怎么样”的语义完整性概率得分。

本实施例中,在识别得到文本片段的语义完整性概率得分和语义信息之后,将语义完整性概率得分满足预设条件的文本片段的语义信息,作为所述文本信息的有效语义信息。

s405:根据所述有效语义信息,获取所述文本信息对应的回复信息,并控制智能设备输出所述回复信息。

具体的,根据有效语义信息,获取文本信息对应的回复信息可以有多种实施方式。一种可选的实施方式中,可以根据有效语义信息,查询知识库获取回复信息。其中,知识库中记录了不同语义信息对应的回复信息。

另外,智能设备输出的回复信息,可以是文本形式,也可以是音频、视频、图片等多媒体信息形式,还可以是语音形式,即tts(英文全称:texttospeech,中文全称:从文本到语音)。可以理解的,本实施例中智能设备在输出回复信息时,可以是上述中的任一种形式,还可以是上述中至少两种形式的结合,本实施例对此不作具体限定。

需要说明的是,本实施例中对文本信息进行回复时,对文本信息中的语句句式不作具体限定。示例性的,可以为陈述语句,也可以为疑问语句,还可以是感叹语句等。也就是说,本实施例不仅对疑问句式的文本信息进行回复,对其他句式的文本信息也可以回复。

本实施例中,对语音信息不进行切分而直接识别为文本信息,然后通过为文本信息添加标点符号,将文本信息切分为多个文本片段,并针对各文本片段进行语义识别。由于根据标点符号对文本信息进行切分的过程考虑了自然语言理解,使得对文本信息的切分结果更加准确,进而根据切分后的文本片段的语义完整性概率得分确定文本信息的有效语义信息,能够提高语义识别的准确率。

上述实施例中,s404将语义完整性概率得分满足预设条件的文本片段的语义信息,作为所述文本信息的有效语义信息,可以有多种具体的实施方式。

下面以三种具体的实施方式为例进行描述。需要说明的是,实际应用中,还可以存在其他的实施方式,不实施例不一一列举。

第一种可能的实施方式中,针对所述至少一个文本片段,将语义完整性概率得分最高的文本片段的语义信息作为所述文本信息的有效语义信息。

该实施方式中,针对多个文本片段,获取到各个文本片段的语义完整性概率得分之后,确定出语义完整性概率得分最高的文本片段,该文本片段的语义信息是最完整的,因此,可以将该文本片段的语义信息作为文本信息的有效语义信息。

第二种可能的实施方式中,针对所述至少一个文本片段中的每个文本片段,若所述文本片段的语义完整性概率得分大于或等于预设阈值,则将所述文本片段的语义信息作为所述文本信息的有效语义信息。

该实施方式中,根据语义完整性概率得分与预设阈值之间的关系,进行下述处理。

若当前文本片段的语义完整性概率得分大于或等于预设阈值,则说明当前文本片段所表达的语义是完整的,可以将当前文本片段的语义信息作为文本信息的有效语义信息。

若当前文本片段的语义完整性概率得分小于预设阈值,则说明当前文本片段所表达的语义是不完整的,可以忽略当前文本片段,继续处理下一个文本片段。

可以理解的,上述两种实施方式在实际应用中还可以结合使用。例如:在一些场景下,使用第一种实施方式,在另一些场景下使用第二种实施方式。

下面结合图5对上述的第二种可能的实施方式进行详细说明。图5为本发明实施例提供的语义识别过程的示意图二。如图5所示,待识别的文本信息为“你看这个机器人挺好的咱们试一下吧今天天气怎么样效果真不错吧”。

结合图5,将上述文本信息输入至标点模型中,为文本信息添加标点符号后,得到四个文本片段。然后将四个文本片段分别输入nlp模型中,得到各文本片段对应的语义信息(图5未示出)和语义完整性概率得分。

结合图5,将第1个文本片段“你看这个机器人挺好的”输入nlp模型后得到的语义完整性概率得分为0.2。由于第1个文本片段的语义完整性概率得分小于预设阈值(假设预设阈值为0.75),因此认为该文本片段的语义是不完整的,将该文本片段忽略,继续下一个文本片段的识别过程。

将第2个文本片段“咱们试一下吧”输入nlp模型后得到的语义完整性得分为0.1。由于第2个文本片段的语义完整性概率得分也小于预设阈值,因此认为该文本片段的语义是不完整的,将该文本片段忽略,继续下一个文本片段的识别过程。

将第3个文本片段“今天天气怎么样”输入nlp模型后得到的语义完整性得分为0.95。由于第3个文本片段的语义完整性概率得分大于预设阈值,因此,认为该文本片段的语义是完整的,将该文本片段的语义信息作为上述待识别文本信息的有效语义信息。

然后开始对第4个文本片段进行语义识别,将第4个文本片段“效果真不错吧”输入nlp模型后得到的语义完整性得分为0.3。由于第4个文本片段的语义完整性概率得分小于预设阈值,因此认为该文本片段的语义是不完整的,将该文本片段忽略。

需要说明的是,图5所示的各文本片段的语义完整性得分和预设阈值仅为示例性的说明。

图5所示的实施方式中,当文本片段的语义完整性概率得分小于预设阈值时,则忽略该文本片段,继续下一文本片段的识别。在某些场景下,可能存在这样的情况:当前文本片段的语义完整性得分虽然较低,但是当前文本片段可以作为下一文本片段的上下文信息。也就是说,当前文本片段与下一文本片段结合起来所表达的语义是完整。

基于上述场景,本实施例的步骤s404中,还可以采用第三种可能的实施方式。具体的,在当前文本片段的语义完整性概率得分较低的情况下,可以对当前文本片段进行缓存。在对下一文本片段进行语义识别时,将缓存的文本片段与下一文本片段组合起来进行识别,以提高语义识别结果的准确率。

下面结合一个具体的实施例进行描述。图6为本发明实施例提供的信息处理方法的流程示意图三,本实施例以任意一个文本片段的处理过程为例进行描述。如图6所示,该方法包括:

s601:针对所述至少一个文本片段中的任一文本片段,获取已缓存的历史文本片段,所述历史文本片段为所述文本片段之前的语义完整性概率得分不满足所述预设条件的至少一个文本片段。

可以理解的,已缓存的历史文本片段中各文本片段的语句顺序与原始的语音信息中的语句顺序是一致的。

另外,本实施例对于历史文本片段的缓存位置不做具体限定。可以理解的,历史文本片段可以是缓存在nlp模型的缓存中,还可以是缓存在nlp模型外部的缓存中。

s602:对所述历史文本片段和所述文本片段拼接得到的新的文本片段进行语义识别处理,获取所述新的文本片段的语义识别结果。

可以理解的,新的文本片段的语句顺序与原始的语音信息中的语句顺序是一致的。

s603:若所述新的文本片段的语义完整性概率得分大于或等于预设阈值,则将所述新的文本片段的语义信息作为所述文本信息的有效语义信息,并将所述历史文本片段从缓存中删除。

s604:若所述新的文本片段的语义完整性概率得分小于预设阈值,则将所述新的文本片段作为历史文本片段存储至缓存中。

下面结合举例进行说明。假设对文本信息添加标点符号后,将文本信息划分为三个文本片段,分别为:文本片段1、文本片段2、文本片段3。首先对文本片段1进行语义识别,由于这是第1个待识别的文本片段,缓存中没有历史文本片段,因此将文本片段1输入nlp模型中得到文本片段1的语义完整性概率得分和语义信息。下面分两种情况进行说明。

情况1:文本片段1的语义完整性概率得分大于或等于预设阈值,说明文本片段1的语义是完整的,因此,将文本片段1的语义信息作为文本信息的有效语义信息。然后继续进行文本片段2的语义识别,识别过程与文本片段1类似。

情况2:文本片段1的语义完整性概率得分小于预设阈值,说明文本片段1的语义不完整,因此,将文本片段1缓存到缓存中。该情况下,在对文本片段2进行识别时,先从缓存中获取历史文本片段(即,文本片段1),将文本片段1和文本片段2进行拼接得到新的文本片段。

然后对新的文本片段进行语义识别处理,得到新的文本片段的语义完整性概率得分和语义信息。对新的文本片段进行语义识别处理时,又分为以下两种情况进行说明。

情况3:若新的文本片段的语义完整性概率得分大于或等于预设阈值,则将新的文本片段的语义信息作为所述文本信息的有效语义信息。该情况下,由于新的文本片段的语义信息中已包含文本片段1的语义信息,因此,将文本片段1从缓存中删除。然后继续进行文本片段3的语义识别,识别过程与文本片段1类似。

情况4:若新的文本片段的语义完整性概率得分小于预设阈值,则将文本片段2也存储至缓存中,作为历史文本片段,此时历史文本片段包括文本片段1和文本片段2。该情况下,在对文本片段3进行识别时,先从缓存中获取历史文本片段(即,文本片段1和文本片段2),将文本片段1、文本片段2和文本片段3进行拼接得到新的文本片段。然后对新的文本片段进行语义识别处理,具体处理过程与上述过程类似,此处不再赘述。

图6所示的实施方式中,通过对语义完整性概率得分较低的当前文本片段进行缓存,作为下一文本片段的上下文信息,与下一文本片段一起进行语义识别处理,进一步提高了语义识别的准确率。

图7为本发明实施例提供的信息处理装置的结构示意图,本实施例的信息处理装置可以为软件和/或硬件形式,该装置可以具体设置于服务器中,或者设置于智能设备中。

如图7所示,本实施例的信息处理装置700,包括:获取模块701、切分模块702和识别模块703。

其中,

获取模块701,用于获取待识别的文本信息;

切分模块702,用于对所述文本信息添加标点符号,将所述文本信息划分为至少一个文本片段;

识别模块703,用于根据所述至少一个文本片段的语义识别结果,获取所述文本信息的有效语义信息。

可选的,所述语义识别结果包括:语义完整性概率得分和语义信息;所述识别模块703具体用于:

将语义完整性概率得分满足预设条件的文本片段的语义信息,作为所述文本信息的有效语义信息。

可选的,所述识别模块703具体用于:

针对所述至少一个文本片段中的每个文本片段,若所述文本片段的语义完整性概率得分大于或等于预设阈值,则将所述文本片段的语义信息作为所述文本信息的有效语义信息;或者

针对所述至少一个文本片段,将语义完整性概率得分最高的文本片段的语义信息作为所述文本信息的有效语义信息。

可选的,所述识别模块703具体用于:

针对所述至少一个文本片段中的任一文本片段,获取已缓存的历史文本片段,所述历史文本片段为所述文本片段之前的语义完整性概率得分不满足所述预设条件的至少一个文本片段;

对所述历史文本片段和所述文本片段拼接得到的新的文本片段进行语义识别处理,获取所述新的文本片段的语义识别结果;

若所述新的文本片段的语义完整性概率得分大于或等于预设阈值,则将所述新的文本片段的语义信息作为所述文本信息的有效语义信息。

可选的,所述识别模块703具体用于:若所述新的文本片段的语义完整性概率得分大于或等于预设阈值,则将所述历史文本片段从缓存中删除。

可选的,所述识别模块703还用于:

若所述新的文本片段的语义完整性概率得分小于预设阈值,则将所述新的文本片段作为历史文本片段存储至缓存中。

可选的,所述获取模块701具体用于:

获取输入智能设备的语音信息;

对所述语音信息进行语音识别,得到待识别的文本信息。

可选的,如图7所示,所述装置还可以包括:输出模块704,所述输出模块704用于:

根据所述有效语义信息,获取所述文本信息对应的回复信息;

控制智能设备输出所述回复信息。

可选的,所述切分模块702具体用于:

将所述文本信息输入标点模型,获取所述标点模型输出的添加了至少一个标点符号的文本信息。

本发明实施例提供的信息处理装置,可用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图8为本发明实施例提供的电子设备的硬件结构示意图,该电子设备可以是智能设备的控制器,还可以是服务器,本发明实施例对此不作具体限定。如图8所示,本实施例的电子设备800,包括:至少一个处理器801和存储器802。其中,处理器801、存储器802通过总线803连接。

在具体实现过程中,至少一个处理器801执行所述存储器802存储的计算机执行指令,使得至少一个处理器801执行上述任一方法实施例的技术方案。

处理器801的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

在上述的图8所示的实施例中,应理解,处理器可以是中央处理单元(英文:centralprocessingunit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digitalsignalprocessor,简称:dsp)、专用集成电路(英文:applicationspecificintegratedcircuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器。

总线可以是工业标准体系结构(industrystandardarchitecture,isa)总线、外部设备互连(peripheralcomponent,pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述任一方法实施例中的技术方案。

上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(applicationspecificintegratedcircuits,简称:asic)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。

本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如上任一方法实施例中的技术方案。

本发明实施例还提供一种芯片,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得安装有所述芯片的电子设备执行如上任一方法实施例的技术方案。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips