语音识别资源选取方法、装置、计算机设备及存储介质与流程

2021-01-28 15:01:55|

294|

起点商标网

本公开涉及通信技术领域，尤其涉及一种语音识别资源选取方法、一种语音识别资源选取装置、一种计算机设备以及一种计算机可读存储介质。

背景技术：

近年来，随着语音识别技术的发展，越来越多的电子设备配置了语音识别功能，成为语音识别设备，而语音识别的准确率一直是本领域技术人员致力于提升和改进的一个问题。目前，一些技术通过各种不同的方法提高语音输入指令识别的准确率，也有一些技术根据与语音输入场景对应的识别资源进行语音识别，以提高语音识别的准确度。

但是，现有技术基本都是通过提高对输入端的精准识别以提高准确率，或对语音识别资源进行场景化的匹配，而缺乏针对语音识别资源本身进行选取的方案，导致语音识别输出结果准确率低。

因此，提出一种针对语音识别资源本身进行选取的方案是目前亟待解决的问题。

技术实现要素：

为了至少部分解决现有技术中存在的技术问题而完成了本公开。

根据本公开实施例的一方面，提供一种语音识别资源选取方法，所述方法包括：

获取与用户输入的语音相匹配的语音识别资源；

根据语音输入的相关信息识别使用场景；

在预设的映射关系表中查询与所述使用场景相对应的语音识别资源输出格式，其中所述映射关系表中包含各种使用场景和与之对应的语音识别资源输出格式；

按照与所述使用场景相对应的语音识别资源输出格式从所述相匹配的语音识别资源中选择相应输出格式的资源作为选择结果；以及，

将所述选择结果输出。

根据本公开实施例的另一方面，提供一种语音识别资源选取装置，所述装置包括：

获取模块，其设置为获取与用户输入的语音相匹配的语音识别资源；

场景识别模块，其设置为根据语音输入的相关信息识别使用场景；

查询模块，其设置为在预设的映射关系表中查询与所述场景识别模块识别出的使用场景相对应的语音识别资源输出格式，其中所述映射关系表中包含各种使用场景和与之对应的语音识别资源输出格式；

选择模块，其设置为按照与所述场景识别模块识别出的使用场景相对应的语音识别资源输出格式从所述获取模块获取到的相匹配的语音识别资源中选择相应输出格式的资源作为选择结果；以及，

输出模块，其设置为将所述选择模块得出的选择结果输出。

根据本公开实施例的又一方面，提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行前述语音识别资源选取方法。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行前述语音识别资源选取方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例提供的语音识别资源选取方法，不是针对语音识别资源进行使用场景的匹配，而是在得到与用户输入的语音相匹配的语音识别资源以后，根据用户使用场景确定用户所需语音识别资源输出格式，再按照用户所需语音识别资源输出格式从已匹配的语音识别资源中选择相应输出格式的资源并输出，提高了语音识别资源选取的精准率，进而能够提高语音识别输出结果的准确率。

本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本公开技术方案的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1为本公开实施例提供的语音识别资源选取方法的流程示意图；

图2为本公开实施例提供的语音识别资源选取装置的结构示意图；

图3为本公开实施例提供的计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1为本公开实施例提供的语音识别资源选取方法的流程示意图。所述方法可应用于某种便携式智能设备，该设备应具备上网功能，同时具备语音输入输出模块和显示模块。如图1所示，所述方法包括如下步骤s101至s105。

s101.获取与用户输入的语音相匹配的语音识别资源；

s102.根据语音输入的相关信息识别使用场景；

s103.在预设的映射关系表中查询与所述使用场景相对应的语音识别资源输出格式；

其中，所述映射关系表中包含各种使用场景和与之对应的语音识别资源输出格式；

s104.按照与所述使用场景相对应的语音识别资源输出格式从所述相匹配的语音识别资源中选择相应输出格式的资源作为选择结果；

s105.将所述选择结果输出。

本公开实施例中，不是针对语音识别资源进行使用场景的匹配，而是在得到与用户输入的语音相匹配的语音识别资源以后，根据用户使用场景确定用户所需语音识别资源输出格式，再按照用户所需语音识别资源输出格式从已匹配的语音识别资源中选择相应输出格式的资源并输出，提高了语音识别资源选取的精准率，进而能够提高语音识别输出结果的准确率。

在一种实施方式中，步骤s101具体为：根据用户输入的语音从服务器中调取相匹配的语音识别资源。

需要说明的是，从服务器中调取与用户输入的语音相匹配的语音识别资源为现有技术，本公开实施例不再赘述。

在一种实施方式中，所述语音输入的相关信息包括：语音输入的时间和地点、语音输入的语调高低、语音输入设备的动静状态和周边环境噪音大小之中的至少一项。

本公开实施例中，通过分析语音输入的相关信息就能识别出用户当前所处场景(即使用场景)。举例来说，如若当前语音输入的时间是傍晚、地点是公园，语音输入设备处于慢速移动状态，则可判断当前用户处于休闲场景；如若当前语音输入的时间是工作时间、地点是会议室，语音输入设备处于静止状态，用户周边环境处于低躁状态，则可判断当前用户处于会议场景。

在一种实施方式中，所述使用场景包括：工作场景、会议场景、休闲场景、娱乐场景和聚会场景之中的至少一项。

在一种实施方式中，所述语音识别资源输出格式包括：文本格式、音频格式、图片格式和视频格式之中的至少一项。

本公开实施例中，通过配置与各种使用场景分别对应的语音识别资源输出格式，可得到使用场景与对应资源输出格式的映射关系表。所述映射关系表可以数据库的形式进行存储以供调用。

例如，工作场景对应的语音识别资源输出格式可以为文本格式、音频格式；会议场景对应的语音识别资源输出格式可以为音频格式、文本格式；休闲场景对应的语音识别资源输出格式可以为音频格式、视频格式；娱乐场景对应的语音识别资源输出格式可以为视频格式、音频格式；聚会场景对应的语音识别资源输出格式可以为音频格式、视频格式。

在一种实施方式中，在所述映射关系表中，若与使用场景相对应的语音识别资源输出格式为不止一种，则所述映射关系表中还包含该使用场景所对应的各种语音识别资源输出格式的优先级。

相应地，步骤s103具体为：在预设的映射关系表中查询与所述使用场景相对应的各种语音识别资源输出格式的优先级。

步骤s104具体为：按照与所述使用场景相对应的各种语音识别资源输出格式的优先级从所述相匹配的语音识别资源中选择相应的优先级最高的输出格式的资源作为选择结果。

例如，若当前用户所处场景为工作场景，其对应的语音识别资源输出格式为文本格式和音频格式，其中文本格式为第一优先级，音频格式为第二优先级，那么按照与工作场景相对应的两种语音识别资源输出格式的优先级从所述相匹配的语音识别资源中选择文本格式的资源作为选择结果。

在一种实施方式中，在步骤s104和s105之间还包括如下步骤s106和s107。

s106.判断用户是否对所述选择结果进行修正，若用户已对所述选择结果进行修正，则执行步骤s107；若用户未对所述选择结果进行修正，则执行步骤s105，直接将所述选择结果输出；

s107.根据用户修正情况更新所述映射关系表。

具体地，若用户对作为选择结果的第一优先级输出格式的资源进行了修正，则根据修正情况更新映射关系表，例如将相应使用场景下第一优先级输出格式往后顺延一位，即原第一优先级输出格式与原第二优先级输出格式在表中的位置互换；接着，判断用户是否继续进行修正，若用户再次进行修正，则根据修正情况再次更新映射关系表。以此类推，直至用户不再修正选择结果。

本公开实施例中，在用户已对所述选择结果进行修正的情况下根据用户修正情况更新所述映射关系表，以使得映射关系表中与使用场景对应的各种语音识别资源输出格式的优先级设定更加准确。

本公开实施例提供的语音识别资源选取方法，根据用户使用场景确定用户所需语音识别资源输出格式，再按照用户所需语音识别资源输出格式输出相应格式的资源，提高了语音识别资源选取的精准率，进而能够提高语音识别输出结果的准确率。

图2为本公开实施例提供的语音识别资源选取装置的结构示意图。如图2所示，所述装置2包括：获取模块21、场景识别模块22、查询模块23、选择模块24和输出模块25。

其中，获取模块21设置为获取与用户输入的语音相匹配的语音识别资源；场景识别模块22设置为根据语音输入的相关信息识别使用场景；查询模块23设置为在预设的映射关系表中查询与所述场景识别模块22识别出的使用场景相对应的语音识别资源输出格式，其中所述映射关系表中包含各种使用场景和与之对应的语音识别资源输出格式；选择模块24设置为按照与所述场景识别模块22识别出的使用场景相对应的语音识别资源输出格式从所述获取模块21获取到的相匹配的语音识别资源中选择相应输出格式的资源作为选择结果；输出模块25设置为将所述选择模块24得出的选择结果输出。

在一种实施方式中，获取模块21具体设置为，根据用户输入的语音从服务器中调取相匹配的语音识别资源。

需要说明的是，从服务器中调取与用户输入的语音相匹配的语音识别资源为现有技术，本公开实施例不再赘述。

在一种实施方式中，所述使用场景包括：工作场景、会议场景、休闲场景、娱乐场景和聚会场景之中的至少一项。

在一种实施方式中，所述语音识别资源输出格式包括：文本格式、音频格式、图片格式和视频格式之中的至少一项。

相应地，所述查询模块23具体设置为，在预设的映射关系表中查询与所述场景识别模块22识别出的使用场景相对应的各种语音识别资源输出格式的优先级。

所述选择模块24具体设置为，按照与所述场景识别模块22识别出的使用场景相对应的各种语音识别资源输出格式的优先级从所述获取模块21获取到的相匹配的语音识别资源中选择相应的优先级最高的输出格式的资源作为选择结果。

在一种实施方式中，装置2还包括：判断模块和更新模块。

其中，判断模块设置为判断用户是否对所述选择结果进行修正；更新模块设置为在所述判断模块判断用户已对所述选择结果进行修正时，根据用户修正情况更新所述映射关系表。

本公开实施例提供的语音识别资源选取装置，根据用户使用场景确定用户所需语音识别资源输出格式，再按照用户所需语音识别资源输出格式输出相应格式的资源，提高了语音识别资源选取的精准率，进而能够提高语音识别输出结果的准确率。

基于相同的技术构思，本公开实施例相应还提供一种计算机设备，如图3所示，所述计算机设备3包括存储器31和处理器32，所述存储器31中存储有计算机程序，当所述处理器32运行所述存储器31存储的计算机程序时，所述处理器32执行前述语音识别资源选取方法。

基于相同的技术构思，本公开实施例相应还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行前述语音识别资源选取方法。

综上所述，本公开实施例提供的语音识别资源选取方法、装置、计算机设备及存储介质，根据使用场景确定用户所需语音识别资源输出格式，再按照用户所需语音识别资源输出格式从已匹配的语音识别资源中选择相应输出格式的资源并输出，从而实现了根据用户使用场景输出对应格式的语音识别资源，提高了语音识别资源选取的精准率，进而能够提高语音识别输出结果的准确率。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。