一种结合语义的语音识别方法、装置和系统与流程

2021-01-28 14:01:02|

276|

起点商标网

本发明实施例涉及语音识别技术领域，特别涉及一种结合语义的语音识别方法、装置和系统。

背景技术：

目前的语音识别技术能够较好的识别出人们日常生活中的通用对话，但是在特定场景下的特定词汇或特定语句往往不能准确识别，并且随着社交网络的发展，不断涌现新的社会热点和新的现象，随之带来了大量的新词汇新语句，这些新词汇新语句往往不符合通常的语言和语法习惯，现有的语音识别模型由于更新升级复杂，不能及时更新，使得现有的语音识别技术还不能准确的识别出这些内容，导致用户体验不高。

技术实现要素：

针对现有技术中的问题，本发明提供一种结合语义的语音识别方法、装置和系统。

本发明提供一种结合语义的语音识别方法，所述方法包括：接收用户产生的语音；将所述语音识别为音素；根据所述音素产生音素序列；根据所述音素序列产生候选语句；对所述候选语句进行语义分析得到语音识别结果。

其中，所述对所述候选语句进行语义分析得到语音识别结果具体为：合并所述候选语句中相同的部分；对所述相同的部分进行语义分析得到一个或多个意图，其中所述一个或多个意图对应于一个或多个热词库；依次判断所述候选语中除相同部分之外的内容是否存在于所述热词库中；将存在于所述热词库中的内容作为语音识别结果。

进一步的，所述热词库中的热词具有热度值，当有多个内容存在于热词库时，根据所述多个内容的热度值选择识别结果。

进一步的，对所述相同的部分进行语义分析得到多个意图时，按照多个意图的优先级排序查找对应的热词库，所述依次判断所述候选语中除相同部分之外的内容是否存在于所述热词库中具体为：判断所述候选语中除相同部分之外的内容是否存在于优先级最高的热词库中，若存在，将存在于所述热词库中的内容作为语音识别结果，不再继续判断其他热词库；若不存在，继续判断所述候选语中除相同部分之外的内容是否存在于优先级次高的热词库中，若存在，将存在于所述热词库中的内容作为语音识别结果，不再继续判断优先级更低的热词库，若不存在，继续判断所述候选语中除相同部分之外的内容是否存在于优先级更低的热词库中。依此类推。

进一步的，所述候选语句具有优先级；其中，依次判断所述候选语句中除相同部分之外的内容是否存在于所述热词库中具体为：判断优先级最高的候选语句中除相同部分之外的内容是否存在于所有热词库中，若存在，将所述内容作为识别结果，不再判断其他候选语句中除相同部分之外的内容；若不存在，判断所述优先级次高的候选语中除相同部分之外的内容是否存在于所有热词库中，若存在，将存在于所述热词库中的内容作为语音识别结果，不再继续判断优先级更低的热词库，若不存在，判断优先级更低的候选语中除相同部分之外的内容是否存在于所有热词库中。依此类推。

进一步的，若所述候选语中除相同部分之外的内容都不存在于所述热词库中，则通过语言识别模型进行识别，得到语音识别结果。

本发明还提供一种结合语义的语音识别装置，所述装置包括：语音接收模块，用于接收用户产生的语音；音素序列生成模块，用于将所述语音识别为音素，根据所述音素产生音素序列；候选语句生成模块，用于根据所述音素序列产生候选语句；语义辅助识别模块，用于对所述候选语句进行语义分析得到语音识别结果。

进一步的，所述对所述候选语句进行语义分析得到语音识别结果具体为，合并所述候选语句中相同的部分；对所述相同的部分进行语义分析得到一个或多个意图，其中所述一个或多个意图对应于一个或多个热词库；依次判断所述候选语中除相同部分之外的内容是否存在于所述热词库中；将存在于所述热词库中的内容作为语音识别结果。

优选的，所述热词库中的热词具有热度值，当有多个内容存在于热词库时，根据所述多个内容的热度值选择识别结果。

进一步的，对所述相同的部分进行语义分析得到多个意图时，按照多个意图的优先级排序查找对应的热词库，所述依次判断所述候选语中除相同部分之外的内容是否存在于所述热词库中具体为，判断所述候选语中除相同部分之外的内容是否存在于优先级最高的热词库中，若存在，将存在于所述热词库中的内容作为语音识别结果，不再继续判断其他热词库。若不存在，判断所述候选语中除相同部分之外的内容是否存在于优先级次高的热词库中，若存在，将存在于所述热词库中的内容作为语音识别结果，不再继续判断优先级更低的热词库。

优选的，根据所述音素序列产生候选语句，所述候选语句具有优先级。其中，依次判断所述候选语句中除相同部分之外的内容是否存在于所述热词库中具体为，判断优先级最高的候选语句中除相同部分之外的内容是否存在于所有热词库中，若存在，将所述内容作为识别结果，不再判断其他候选语句中除相同部分之外的内容。若不存在，判断所述优先级次高的候选语中除相同部分之外的内容是否存在于所有热词库中，若存在，将存在于所述热词库中的内容作为语音识别结果，不再继续判断优先级更低的热词库，若不存在，判断优先级更低的候选语中除相同部分之外的内容是否存在于所有热词库中。

优选的，若所述候选语中除相同部分之外的内容都不存在于所述热词库中，则通过语言识别模型进行识别，得到语音识别结果。

本发明还提供一种结合语义的语音识别装置，所述结合语义的语音识别装置包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如前所述的方法。

本发明还提供一种结合语义的语音识别系统，所述车辆语音控制系统包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如前所述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如前所述的方法。

本发明还提供一种结合语义的语音识别系统，所述系统包括：如前所述的结合语义的语音识别装置。

本发明的结合语义的语音识别方法、装置和系统，通过对用户语音识别的候选语句的意图进行分析，查找意图对应的热词库中与用户语音识别音素对应的词作为语音识别结果，提高了语音识别的准确度。并且，通过实时更新的热词库，保证了新词汇的准备识别，提高了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中的结合语义的语音识别方法流程图。

图2是本发明另一个实施例中的结合语义的语音识别装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明，而非对本发明说明书技术方案的限定，在不冲突的情况下，本发明的实施例以及实施例的技术特征可以相互结合。

本发明实施例提供一种结合语义的语音识别方法，如图1所示，所述方法包括：接收用户产生的语音；将所述语音识别为音素；根据所述音素产生音素序列；根据所述音素序列产生候选语句；对所述候选语句进行语义分析得到语音识别结果。下面通过具体实施例对本发明的内容进行具体描述。

实施例一

用户向手机中的语音助手发出“我要看海王”的指令，语音助手中的声学理解模块，将用户的语音输入识别为音素，也即拼音，woyaokanhaiwang，由此产生了一个拼音序列woyaokanhaiwang。语言模型将拼音序列转化为语句，语言模型根据拼音序列生成3个候选语句：我要看海王，我要看孩王，我要看害旺。3个候选语句中相同的部分是“我要看”，将该相同部分合并提取出来，用于进行语义分析得到一个或多个意图。通过对“我要看”进行语义分析得到“小说”、“影视”、“医疗”三个意图，其中“影视”意图具有最高优先级、“小说”意图具有第二优先级、“医疗”意图具有第三优先级。该三个意图分别对应一个热词库，小说热词库、影视热词库和医疗热词库。上述3个候选语中除相同部分之外的内容分别是海王、孩王、害旺；将该内容分别在三个热词库中进行搜索，判断是否存在于所述热词库中，搜索的方法可以是按照意图优先级顺序进行搜索，也即将所有的内容(海王、孩王、害旺)先最高优先级意图对应的热词库中分别进行搜索，如果未搜索到，则继续在第二优先级意图对应的热词库中进行搜索，如果未搜索到，则继续在第三优先级意图对应的热词库中进行搜索。假设，在影视热词库中搜索到海王，则终止搜索，将海王作为识别结果。拼音序列woyaokanhaiwang的识别结果即为“我要看海王”。上面给出了3个候选语句的示例，实际上候选语句的个数可以是多个，也可以是一个。该数量由语言模型的输出决定。所述语言模型为通用语言模型，或者特定语言模型等任一语言模型。

根据本实施例的另一实施方式，语言模型将拼音序列转化为语句，语言模型根据拼音序列生成3个候选语句：我要看海王，我要看孩王，我要看害旺。3个候选语句具有优先级，其中我要看孩王具有最高优先级，我要看海王具有第二优先级，我要看害旺具有最高优先级。3个候选语句中相同的部分是“我要看”，将该相同部分合并提取出来，用于进行语义分析得到一个或多个意图。通过对“我要看”进行语义分析得到“小说”、“影视”、“医疗”三个意图。该三个意图分别对应一个热词库，小说热词库、影视热词库和医疗热词库。上述3个候选语中除相同部分之外的内容分别是海王、孩王、害旺；将该内容按照候选语句的优先级顺序分别在三个热词库中进行搜索，判断是否存在于所述热词库中。也即，现在三个热词库中搜索孩王，如果未搜索到，继续在三个热词库中搜索海王，如果未搜索到，则继续在三个热词库中搜索害旺。假设，在影视热词库中搜索到海王，则终止搜索，将海王作为识别结果。拼音序列woyaokanhaiwang的识别结果即为“我要看海王”。

优选的，如果在所有热词库中均未搜索到所述内容，则仍然通过语言识别模型进行识别，得到语音识别结果。

根据实施例的另一实施方式，按照特定顺序或者随机顺序在所有热词库中搜索所有所述候选语句中除相同部分之外的内容，将存在于热词库中的内容作为识别结果。如果有多于一个内容存在于热词库中，则根据热词库中的热词的热度值选择内容，可以是将热度值最高的内容作为识别结果。所述上下文可以为用户向语音助手发出语音指令的一段时间前或一段时间后或一段时间内调用的app和/或在app中生成的数据、生成的聊天记录、通话记录等等的相关属性或相关内容。

根据本实施例的另一实施方式，如果有多于一个内容存在于热词库中，调用输入语音的上下文来进行协助判决，从所述多个内容中选择一个作为识别结果。

实施例二

人们对于已知场景下的内容往往能更快的理解，比如在知道吃饭的话题的情况下，对于不认识的词，人们也能自动理解成“餐馆的名字”。利用这一认知，通过将语义结合到语音识别中，能够大大增加语音识别的准确率，特别是对于语言模型中不存在的热词、新词等。

本实施例提供一种结合语义的语音识别方法，其特征在于，所述方法包括：接收用户产生的语音；将所述语音识别为音素；根据所述音素产生音素序列；根据所述音素序列产生候选语句；对所述候选语句进行语义分析得到所述候选语句对应的意图，根据所述意图确定语音识别结果。进一步的，在对所述候选语句进行语义分析得到所述候选语句对应的意图之前还包括合并所述候选语句的相同部分。

例如，用户向语音助手发出语音指令“预定海底捞”，语音助手通过声学理解模块，将其识别为音素(拼音)，并产生拼音序列(yudinghaidilao)。语言模型将拼音转化为语句。语言模型根据拼音序列产生结果语句候选(预定海地牢，预定海底捞)。候选合并模块合并候选语句的相同部分，预定(海地牢，海底捞)。将合并后的结果送入语义理解模块。根据候选语句的相同部分确定意图为订餐、订酒店、订航班。优选的，还可以根据上下文和候选语句的相同部分确定意图。所述上下文可以为用户向语音助手发出语音指令的一段时间前或一段时间后或一段时间内调用的app和/或在app中生成的数据、生成的聊天记录、通话记录等等的相关属性或相关内容。通过获取上下文信息能够更准确的确定意图。优选的，所述对所述候选语句进行语义分析得到所述候选语句对应的意图可由语义理解模块执行。

根据意图调用对应的热词库进行查询，将匹配的结果确定为语音识别结果。其中，所述匹配可以为准确匹配，也可以为模糊匹配。所述热词库优选的是实时更新的热词库，可以通过从包括社交网络、媒体平台等的网络中抓取热词进行更新。

根据本发明一种优选实施方式，所述意图可以替代为领域，所述确定意图相应的替代为确定领域。所述热词库为对应于领域的热词库。

该实施例公开的方法将语音识别细化，降低语音识别难度(仅需要根据领域识别)，提高语音识别精度。对于领域新词，新说话识别效果明显提升。

实施例三

本发明实施例提供一种结合语义的语音识别装置，如图2所示，所述装置包括：

语音接收模块，用于接收用户产生的语音；

音素序列生成模块，用于将所述语音识别为音素，根据所述音素产生音素序列；

候选语句生成模块，用于根据所述音素序列产生候选语句；

语义辅助识别模块，用于对所述候选语句进行语义分析得到语音识别结果。

根据本实施例的一种实施方式，所述语音序列生成模块包括：音素生成模块，用于将所述语音识别为音素；音素序列生成模块，用于根据所述音素产生音素序列。

优选的，所述热词库中的热词具有热度值，当有多个内容存在于热词库时，根据所述多个内容的热度值选择识别结果。

优选的，若所述候选语中除相同部分之外的内容都不存在于所述热词库中，则通过语言识别模型进行识别，得到语音识别结果。这样做的目的是避免识别失败，造成不好的用户体验。

优选的，所述语义辅助识别模块包括：合并模块，用于合并所述候选语句中相同的部分；语义分析模块，用于对所述相同的部分进行语义分析得到一个或多个意图，其中所述一个或多个意图对应于一个或多个热词库；判断模块，用于依次判断所述候选语中除相同部分之外的内容是否存在于所述热词库中；识别结果确定模块，用于将存在于所述热词库中的内容作为语音识别结果。

本发明还提供一种结合语义的语音识别系统，所述系统包括：如前所述的结合语义的语音识别装置。

本发明还提供一种语音助手，所述语音助手包括：如前所述的结合语义的语音识别装置。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、闪存、可擦式可编程只读存储器(eprom)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子，不用于限定本发明的范围。在具体实现时，本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少，在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例，本领域技术人员应当理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同替换所限定，在未经创造性劳动所作的改进等，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。