一种语音识别方法、装置、计算机程序产品及存储介质与流程

2021-01-28 14:01:10|

286|

起点商标网

本申请涉及通信技术领域，具体涉及一种语音识别方法、装置、计算机程序产品及存储介质。

背景技术：

语音识别技术已经取得显著的成果，广泛应用于家电、通信、汽车电子、医疗、家庭服务以及消费电子产品等多个领域。语音识别是让机器通过识别和理解把音频转变为相应的文本或命令的过程。

目前市面上用于语音识别的开放平台有很多，对于输入的待识别音频，需要严格遵守各语音识别引擎商的规范，例如，待识别音频需要使用规定的音频格式，待识别音频的长度大小不能超过预置大小等。

传统的语音识别设备只能对符合语音识别引擎商规范的语音进行识别，不同的语音识别引擎对于待识别语音有不同的限制，因此需要为不同形式的音频设置不同的种类的语音识别引擎，导致语音识别引擎的开发成本高。

技术实现要素：

本申请实施例提供一种语音识别方法、装置、计算机程序产品及存储介质，可以将待识别音频转换成符合预设规范的音频，降低语音识别引擎的开发成本。

一方面，本申请体用一种语音识别方法，所述方法包括：

获取待识别音频；

通过转换接口判断所述待识别音频是否符合预设规范；

若不符合所述预设规范，则通过所述转换接口将所述待识别音频转换成符合预设规范的音频；

调用封装有语音识别引擎的第三方接口对所述符合预设规范的音频进行语音识别处理，得到语音识别结果。

可选的，在一些实施例中，所述通过所述转换接口判断所述待识别音频是否符合预设规范，包括：

通过所述转换接口判断所述待识别音频是否为非压缩音频；和/或，

通过所述转换接口判断所述待识别音频的音频格式是否为预置音频格式；和/或，

通过所述转换接口判断所述待识别音频的音频大小是否不大于预置音频大小。

可选的，在一些实施例中，所述获取待识别音频之前，所述方法还包括：

在所述转换接口中封装音频解压缩方法、音频转码方法和/或音频切分方法。

可选的，在一些实施例中，所述若不符合所述预设规范，则通过所述转换接口将所述待识别音频转换成符合预设规范的音频，包括：

若所述待识别音频不为非压缩音频，则通过所述音频解压缩方法对所述待识别音频进行音频解压缩处理，得到非压缩待识别音频；和/或，

若所述音频格式不为预置音频格式，则通过所述音频转码方法对所述待识别音频进行音频转码处理，得到预置音频格式的待识别音频；和/或，

若所述音频大小大于所述预置音频大小，则通过所述音频切分方法对所述待识别音频进行音频切分处理，得到多个不大于所述预置音频大小的待识别子音频。

可选的，在一些实施例中，所述通过所述转换接口判断所述待识别音频是否符合预设规范，包括：

根据所述待识别音频的音频名称判断所述待识别音频是否为历史识别音频；

若为历史识别音频，则从数据库中提取所述音频名称对应的语音识别结果；

若不为历史识别音频，则通过所述转换接口判断所述待识别音频是否符合预设规范。

可选的，在一些实施例中，所述调用封装有语音识别引擎的第三方接口对所述符合预设规范的音频进行语音识别处理，得到语音识别结果之后，所述方法还包括：

将所述语音识别结果存储至所述数据库中。

可选的，在一些实施例中，所述获取待识别音频之前，所述方法还包括：

对所述语音识别引擎进行本地化部署；

将本地化部署后的所述语音识别引擎封装至所述第三方接口中；

将所述第三方接口封装至所述转换接口中。

相应地，本申请还提供一种语音识别装置，具体包括：

获取单元，用于获取待识别音频；

判断单元，用于通过转换接口判断所述待识别音频是否符合预设规范；

转换单元，用于当待识别音频不符合所述预设规范时，通过所述转换接口将所述待识别音频转换成符合预设规范的音频；

识别单元，用于调用封装有语音识别引擎的第三方接口对所述符合预设规范的音频进行语音识别处理，得到语音识别结果。

可选的，在一些实施例中，所述判断单元具体用于：

通过所述转换接口判断所述待识别音频是否为非压缩音频；和/或，

通过所述转换接口判断所述待识别音频的音频格式是否为预置音频格式；和/或，

通过所述转换接口判断所述待识别音频的音频大小是否不大于预置音频大小。

可选的，在一些实施例中，所述装置还包括：

第一封装单元，用于在所述转换接口中封装音频解压缩方法、音频转码方法和/或音频切分方法。

可选的，在一些实施例中，所述转换单元具体用于：

若所述待识别音频不为非压缩音频，则通过所述音频解压缩方法对所述待识别音频进行音频解压缩处理，得到非压缩待识别音频；和/或，

若所述音频格式不为预置音频格式，则通过所述音频转码方法对所述待识别音频进行音频转码处理，得到预置音频格式的待识别音频；和/或，

可选的，在一些实施例中，所述获取单元具体用于：

根据所述待识别音频的音频名称判断所述待识别音频是否为历史识别音频；

若为历史识别音频，则从数据库中提取所述音频名称对应的语音识别结果；

若不为历史识别音频，则通过所述转换接口判断所述待识别音频是否符合预设规范。

可选的，在一些实施例中，所述装置还包括：

存储单元，用于将所述语音识别结果存储至所述数据库中。

可选的，在一些实施例中，所述装置还包括：

部署单元，用于对所述语音识别引擎进行本地化部署；

第二封装单元，用于将本地化部署后的所述语音识别引擎封装至所述第三方接口中；

第三封装单元，用于将所述第三方接口封装至所述转换接口中。

本申请的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

此外，本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例提供的任一种语音识别方法中的步骤。

本申请实施例中，语音识别装置获取待识别音频；然后通过转换接口判断待识别音频是否符合预设规范；若不符合预设规范，则通过转换接口将待识别音频转换成符合预设规范的音频；然后调用封装有语音识别引擎的第三方接口对符合预设规范的音频进行语音识别处理，得到语音识别结果。本申请实施例中的语音识别装置可以通过转换接口将不符合预设规范的待识别音频转换成符合预设规范的音频，故可以降低语音识别引擎的开发成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音识别方法的一种流程示意图；

图2是本申请实施例提供的语音识别方法的另一种流程示意图；

图3是本申请实施例提供的语音识别装置的一种结构示意图；

图4是本申请实施例提供的语音识别装置的另一种结构示意图；

图5是本申请实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下的多种步骤及操作亦可实施在硬件当中。

本申请的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本申请的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境，其中包括了任何的上述系统或装置。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。

本申请实施例提供了一种语音识别方法、装置、计算机程序产品及存储介质。

本申请中的语音识别装置可以集成在网络设备中，该网络设备可以是服务器，也可以是终端等设备，该终端可以包括手机、平板电脑、笔记本电脑和/或个人计算机(pc，personalcomputer)等。

请参阅图1，图1为本申请实施例提供的语音识别方法的一个流程示意图。该方法的具体流程如下：

101、获取待识别音频。

其中，待识别音频包括待识别音频的音频信息、压缩信息、格式信息、名称信息等参数信息。

在一些实施例中，调用方将待识别音频传至转换接口，其中，该转换接口可以为http接口，该转换接口对外开放，提供待识别音频等参数信息供调用方传入。

在一些实施例中，获取待识别音频之前，方法还包括，在转换接口中封装音频解压缩方法、音频转码方法和/或音频切分方法。

除此之外，还可以在转换接口中封装音频存储方法和/或文本记录方法等方法。

在一些实施例中，在获取待识别音频之前，方法还包括：对语音识别引擎进行本地化部署；并将封装有该语音识别引擎的第三方接口封装至转换接口中。

其中，在一些实施例中，将第三方接口封装至转换接口中之前，还包括，将本地化部署后的语音识别引擎封装至第三方接口中。

具体地，第三方接口可以为软件开发工具包(softwaredevelopmentkit，sdk)或网页应用程序编程接口(webapplicationprogramminginterface，webapi)等可以封装语音识别引擎的接口。

102、通过转换接口判断待识别音频是否符合预设规范。

其中，该预设规范与语音识别装置对应的语音识别引擎所要求的规范相对应，例如，若是与该语音识别装置对应的语音识别引擎所要求的规范为：非压缩音频、mp3(英文全称：movingpictureexpertsgroupaudiolayeriii)格式、音频大小10000000字节；则此时转接口中的预设规范也为：非压缩音频、mp3格式、音频大小10000000字节。

具体地，通过转换接口判断待识别音频是否符合预设规范，包括：

通过转换接口判断待识别音频是否为非压缩音频；和/或，

通过转换接口判断待识别音频的音频格式是否为预置音频格式；和/或，

通过转换接口判断待识别音频的音频大小是否不大于预置音频大小。

其中，判断待识别音频是否为非压缩音频、是否为预置音频格式以及是否不大于预置音频大小的判断顺序此处不做限定，以上三个判断步骤可以同时进行，也可以先后进行。

其中，判断的个数可以根据转换口的预设规范而定，如果，转换口的预设规范只设置了非压缩音频的规范，则此时只需要判断待识别音频是否为非压缩音频；如果设置了非压缩音频规范以及音频格式规范，则此时需要判断待识别音频否为非压缩音频，以及判断待识别音频是否为预置音频格式，其中，预设规范的个数及种类此处不做限定。

在一些实施例中，通过转换接口判断待识别音频是否符合预设规范，包括：

根据待识别音频的音频名称判断待识别音频是否为历史识别音频；

若为历史识别音频，则从数据库中提取与该音频名称对应的语音识别结果；

若不为历史识别音频，则再通过转换接口判断待识别音频是否符合预设规范。

其中，在一些实施例中，当该语音识别装置为接收到待识别音频之后，还需要接收语音转换指令，然后语音识别识别装置再根据该语音转换指令通过转换接口判断待识别音频是否符合预设规范。

103、若不符合预设规范，则通过转换接口将待识别音频转换成符合预设规范的音频。

由于转换接口中封装音频解压缩方法、音频转码方法和/或音频切分等方法。所以具体地：若不符合预设规范，则通过转换接口将待识别音频转换成符合预设规范的音频，包括：

若待识别音频不为非压缩音频，则通过音频解压缩方法对待识别音频进行音频解压缩处理，得到非压缩待识别音频；和/或，

若音频格式不为预置音频格式，则通过音频转码方法对待识别音频进行音频转码处理，得到预置音频格式的待识别音频；和/或，

若音频大小大于预置音频大小，则通过音频切分方法对待识别音频进行音频切分处理，得到多个不大于预置音频大小的待识别子音频。

其中，如果待识别音频为压缩音频，则此时不需要对待识别音频进行音频解压缩处理，同理，如果待识别音频的音频格式为预置音频格式，则不需要对待识别音频进行音频转码处理，如果待识别音频的大小不大于预置音频大小，也不需要对音频进行切分处理。

其中，在一些实施例中，如果需要对待识别音频进行音频解压缩处理、音频转码处理以及音频切分处理时，需要首先对待识别音频进行解压缩处理，然后再对经过解压缩处理的待识别音频进行音频转码处理，最后再对进行过解压缩处理即音频转码处理的待识别音频进行切分处理。

其中，若待识别音频为符合预设规范的音频，则此时转换接口不需要对待识别音频进行处理，而直接将待识别音频传送至第三方接口，使得封装在第三方接口的语音识别引擎对待识别音频中的音频信息进行语音识别处理。

104、调用封装有语音识别引擎的第三方接口对符合预设规范的音频进行语音识别处理，得到语音识别结果。

当通过转换接口获取符合预设规范的音频之后，语音识别装置将会调用封装有语音识别引擎的第三方接口对该符合预设规范的音频进行语音识别处理，得到语音识别结果，其中，该语音识别结果为待待识别音频所对应的文本信息。

其中，在一些实施例中，该语音识别引擎保存进行了本地部署化，即该语音识别引擎保存在了语音识别装置对应的服务器上，例如，若通过手机上的聊天软件对用户发送至聊天软件上的语音进行语音识别(语音转文字)，那么需要将该语音发送至对应的服务器上，然后通过部署在该服务器中的语音识别引擎对该语音进行语音识别处理，得到该语音对应的文本信息。

其中，在一些实施例中，当通过语音识别音频得到语音识别结果之后，将会返回该语音识别结果至语音识别装置的显示界面。

其中，在一些实施例中，当通过语音识别音频得到语音识别结果之后，还将存储该语音语音识别结果至数据库中，此外，还可以存储待识别音频指数据库中。

请参阅图2，图2为本申请实施例提供的语音识别方法的另一流程示意图，本实施例以执行主体为语音识别设备，转换接口为http接口，第三方接口为webapi为例进行说明，其中，该方法的具体流程可以如下：

201、语音识别设备获取待识别音频。

其中，待识别音频包括待识别音频的音频信息、压缩信息、格式信息、名称信息等参数信息。

在一些实施例中，调用方将待识别音频传至语音识别设备中的http接口，该http接口对外开放，提供待识别音频等参数信息供调用方传入。

在一些实施例中，获取待识别音频之前，方法还包括，在http接口中封装音频解压缩方法、音频转码方法和/或音频切分方法。

除此之外，还可以在http接口中封装音频存储方法和/或文本记录方法等方法，其中，音频存储方法用于存储待识别音频、文本记录方法用于将识别出来的语音识别结果存储至本地数据库或其他相关数据库中。

在一些实施例中，在获取待识别音频之前，方法还包括：对语音识别引擎进行本地化部署；并将封装有该语音识别引擎的webapi封装至http接口中。

其中，在一些实施例中，将webapi封装至http接口中之前，还包括，将本地化部署后的语音识别引擎封装至webapi中。

202、语音识别设备根据待识别音频的音频名称判断待识别音频是否为历史识别音频，若否，则执行步骤203，若是，则执行步骤211。

当语音识别设备接收到待识别音频之后，为了节省资源，会首先根据该待识别音频的音频名称判断该待识别音频是否为已经识别过的音频，具体地，语音识别设备存有已经识别过的音频的音频名称以及该已经识别过的音频所对应的语音识别结果。

其中，所该待识别音频为已经识别过的音频，则此时不需要在对给语音进行识别，而是从数据库中提取与该音频名称对应的语音识别结果，若该待识别音频未经过语音识别的音频，则此时需要执行以下步骤。

203、语音识别设备通过http接口判断待识别音频是否为非压缩音频，若否，则执行步骤204，若是，则执行步骤205。

由于语音识别设备所对应的语音识别音频的对待识别音频的规范有非压缩音频，所以在接收到待识别音频之后，可以通过http接口判断待识别音频是否为非压缩音频，如果是，则可以执行下一个判断步骤，如果否，则还需要对该待识别音频进行音频解压缩处理。

204、语音识别设备通过音频解压缩方法对待识别音频进行音频解压缩处理，得到非压缩待识别音频。

其中，由于在http接口中封装音频解压缩方法，所以在判断出待识别音频为压缩音频时，此时可以通过音频解压缩方法对待识别音频进行音频解压缩处理，得到非压缩待识别音频。

205、语音识别设备通过http接口判断待识别音频的音频格式是否为预置音频格式，若否，则执行步骤206，若是，则执行步骤207。

由于语音识别设备所对应的语音识别音频的对待识别音频的规范中要求音频格式为预置音频格式，例如为mp3格式，所以在接收到待检测音频之后，或者在对待检测音频进行音频解压处理之后，将会通过http接口判断待识别音频的音频格式是否为预置音频格式。

具体地，当对待检测音频进行音频解压缩处理(若需要进行音频解压缩处理)，得到非压缩待识别音频之后，语音识别设备将通过http接口判断上述经过音频解压缩处理的待识别音频的音频格式是否为预置音频格式，如果是，则可以执行下一个判断步骤，如果否，则还需要对该待识别音频(若前面经过了音频压缩处理，则此处为经过音频解压缩处理的待识别音频)进行音频转码处理。

206、语音识别设备通过音频转码方法对待识别音频进行音频转码处理，得到预置音频格式的待识别音频。

其中，由于http接口中封装有音频转码方法，所以在判断出该待识别音频的音频格式不是预置音频格式(例如不是mp3格式)时，需要通过音频转码方法对待识别音频进行音频转码处理，得到预置音频格式的待识别音频，其中，如果该待识别音频之前进行过音频解压缩处理，则此时则通过音频转码方法对进行过音频解压缩处理的待识别音频进行音频转码处理，得到符合预置音频格式的待识别音频。

207、语音识别设备通过http接口判断待识别音频的音频大小是否不大于预置音频大小，若否，则执行步骤208，若是，则执行步骤209。

由于语音识别设备所对应的语音识别音频的对待识别音频的规范中要求音频大小不能大于预置音频大小，所以在接收到待检测音频之后，或者在对待检测音频进行音频解压处理和/或音频转码处理之后，将会通过http接口判断待识别音频的音频长度是否不大于预置音频大小。

208、语音识别设备通过音频切分方法对待识别音频进行音频切分处理，得到多个不大于预置音频大小的待识别子音频。

其中，由于http接口中封装有音频切分方法，所以在判断出该待检测音频的音频大小(字节大小)大于预置音频大小的时候，将会通过音频切分方法对待识别音频进行音频切分处理，得到多个不大于预置音频大小的待识别子音频，然后分别将该多个不大于预置音频大小的待识别子音频依次发送至封装有语音识别引擎的第三方接口，使得第三方接口中的音频识别音频分别对该待识别子音频进行音频识别处理。

其中，如果该待识别音频之前经过了音频解压缩处理和/或音频转码处理，则此时对经过了音频解压缩处理和/或音频转码处理的待识别音频进行音频切分处理。

其中，对待识别音频进行音频切分处理的一个具体代码可以如下：

209、语音识别设备调用封装有语音识别引擎的webapi对符合预设规范的音频进行语音识别处理，得到语音识别结果。

当语音识别设备通过http接口将待识别音频转换为符合预设规范的音频之后，此时将会调用封装有语音识别引擎的webapi对符合预设规范的音频进行语音识别处理，得到语音识别结果。

具体地，在一些实施例中，该语音识别引擎保存进行了本地部署化，即该语音识别引擎保存在了语音识别装置对应的服务器上，例如，若通过手机上的聊天软件对用户发送至聊天软件上的语音进行语音识别(语音转文字)，那么需要将会该语音发送至对应的服务器上，然后通过部署在该服务器中的语音识别引擎对该语音进行语音识别处理，得到该语音对应的文本信息。

其中，在一些实施例中，当通过语音识别音频得到语音识别结果之后，将会返回该语音识别结果至语音识别装置的显示界面。

210、语音识别设备将语音识别结果存储至数据库中。

211、语音识别设备从数据库中提取音频名称对应的语音识别结果。

由于数据库中存储有历史识别过的音频的音频识别结果以及该音频对应的音频名称，所以语音识别设备在接收到待识别音频之后，为了提高识别速度以及节省识别资源，可以根据待识别音频的音频名称判断待识别音频是否为历史识别音频，如果是历史识别音频，则可以直接根据音频名称从数据库中提取与该音频名称对应的语音识别结果。

其中，本申请可以解决市面上传统的语音开放平台开发语音转义功能配置繁琐，格式不支持，文件过大，各种限制等一系列问题，提高了开发效率，节省了开发成本。

为了更好地实施本申请实施例提供的语音识别方法，本申请实施例还提供一种语音识别设备，该语音识别设备具体可以集成在网络设备中，该网络设备可以是服务器，也可以是终端等设备。其中名词的含义与上述语音识别方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本申请实施例提供的语音识别设备的结构示意图，该语音识别设备包括：获取单元301、判断单元302、转换单元303和识别单元304，如下：

获取单元301，用于获取待识别音频；

判断单元302，用于通过转换接口判断所述待识别音频是否符合预设规范；

转换单元303，用于当待识别音频不符合所述预设规范时，通过所述转换接口将所述待识别音频转换成符合预设规范的音频；

识别单元304，用于调用封装有语音识别引擎的第三方接口对所述符合预设规范的音频进行语音识别处理，得到语音识别结果。

在一些实施例中，所述判断单元302具体用于：

通过所述转换接口判断所述待识别音频是否为非压缩音频；和/或，

通过所述转换接口判断所述待识别音频的音频格式是否为预置音频格式；和/或，

通过所述转换接口判断所述待识别音频的音频大小是否不大于预置音频大小。

请参阅图4，在一些实施例中，所述装置还包括：

第一封装单元305，用于在所述转换接口中封装音频解压缩方法、音频转码方法和/或音频切分方法。

在一些实施例中，所述转换单元303具体用于：

若所述待识别音频不为非压缩音频，则通过所述音频解压缩方法对所述待识别音频进行音频解压缩处理，得到非压缩待识别音频；和/或，

若所述音频格式不为预置音频格式，则通过所述音频转码方法对所述待识别音频进行音频转码处理，得到预置音频格式的待识别音频；和/或，

在一些实施例中，所述获取单元301具体用于：

根据所述待识别音频的音频名称判断所述待识别音频是否为历史识别音频；

若为历史识别音频，则从数据库中提取所述音频名称对应的语音识别结果；

若不为历史识别音频，则通过所述转换接口判断所述待识别音频是否符合预设规范。

在一些实施例中，所述装置还包括：

存储单元306，用于将所述语音识别结果存储至所述数据库中。

在一些实施例中，所述装置还包括：

部署单元307，用于对所述语音识别引擎进行本地化部署；

第二封装单元308，用于将本地化部署后的所述语音识别引擎封装至所述第三方接口中；

第三封装单元309，用于将所述第三方接口封装至所述转换接口中。

本申请实施例中，获取单元301获取待识别音频；然后判断单元302通过转换接口判断待识别音频是否符合预设规范；若不符合预设规范，则转换单元303通过转换接口将待识别音频转换成符合预设规范的音频；然后识别单元304调用封装有语音识别引擎的第三方接口对符合预设规范的音频进行语音识别处理，得到语音识别结果。本申请实施例中的语音识别装置可以通过转换接口将不符合预设规范的待识别音频转换成符合预设规范的音频，故可以降低语音识别引擎的开发成本。

参考图5，本申请实施例提供了一种网络设备500，可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、射频(radiofrequency，rf)电路503、电源504、输入单元505、以及显示单元506等部件。本领域技术人员可以理解，图5中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。

rf电路503可用于收发信息过程中，信号的接收和发送。

网络设备还包括给各个部件供电的电源504(比如电池)，优选的，电源可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

该网络设备还可包括输入单元505，该输入单元505可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该网络设备还可包括显示单元506，该显示单元506可用于显示由用户输入的信息或提供给用户的信息以及网络设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。具体在本实施例中，网络设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取待识别音频；

通过转换接口判断所述待识别音频是否符合预设规范；

若不符合所述预设规范，则通过所述转换接口将所述待识别音频转换成符合预设规范的音频；

调用封装有语音识别引擎的第三方接口对所述符合预设规范的音频进行语音识别处理，得到语音识别结果。

由上可知，本申请实施例中，语音识别装置获取待识别音频；然后通过转换接口判断待识别音频是否符合预设规范；若不符合预设规范，则通过转换接口将待识别音频转换成符合预设规范的音频；然后调用封装有语音识别引擎的第三方接口对符合预设规范的音频进行语音识别处理，得到语音识别结果。本申请实施例中的语音识别装置可以通过转换接口将不符合预设规范的待识别音频转换成符合预设规范的音频，故可以降低语音识别引擎的开发成本。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种语音识别处理方法中的步骤。例如，该指令可以执行如下步骤：

获取待识别音频；

通过转换接口判断所述待识别音频是否符合预设规范；

若不符合所述预设规范，则通过所述转换接口将所述待识别音频转换成符合预设规范的音频；

调用封装有语音识别引擎的第三方接口对所述符合预设规范的音频进行语音识别处理，得到语音识别结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取记忆体(ram，randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种语音识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种语音识别方法、装置、计算机程序产品及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。