基于音视频录制的语音识别方法、装置、设备及存储介质与流程

2021-01-28 16:01:29|

327|

起点商标网

本发明涉及音视频处理技术领域，尤其涉及一种基于音视频录制的语音识别方法、装置、设备及存储介质。

背景技术：

随着技术的发展，音视频录制的使用场景越来越多，如执法过程中通过录制音视频记录执法人员对执法事项的处理，或者金融机构通过录制音视频记录客户对金融事项的处理。该类记录除了录制音视频之外，还需要对所录制音视频中的语音进行识别，以确保事项处理过程中的语言合法准确。

目前，音视频录制功能和语音识别功能都需要占用音频通道，对于某些录制终端并不支持两者的同时进行，若音视频录制对音频通道占用，则不能通过音频通道读取音频数据进行语音识别；或者通过音频通道输入音频数据进行语音识别，则不能通过音频通道实现音视频录制。如此一来，导致对于音视频录制功能和语音识别功能，在获取到音频数据后分别先后处理实现，在先处理功能的异常性或耗时较长直接影响到在后处理功能的实现时长。

技术实现要素：

本发明的主要目的在于提供一种基于音视频录制的语音识别方法、装置、设备及存储介质，旨在解决现有技术中对于音视频录制功能和语音识别功能的先后处理机制，导致在后处理功能的实现时长受在先处理功能的处理时长影响的技术问题。

为实现上述目的，本发明提供一种基于音视频录制的语音识别方法，所述基于音视频录制的语音识别方法包括以下步骤：

当接收到音视频录制请求时，实时获取视频数据以及音频数据；

将所述音频数据复制为目标音频数据，并将所述目标音频数据存储到内存队列中；

将所述视频数据和所述音频数据生成为音视频文件，并从所述内存队列中读取所述目标音频数据进行识别，生成识别结果，以对音视频录制时的语音进行识别。

可选地，所述从所述内存队列中读取所述目标音频数据进行识别，生成识别结果的步骤包括：

逐一从所述内存队列中读取所述音频数据，并对所述音频数据进行过滤，生成待处理音频数据；

检测预设音频库中是否存在与所述待处理音频数据对应的参考音频，若存在所述参考音频，则调用与所述参考音频对应的文字信息，并将所述文字信息生成为所述识别结果。

可选地，所述检测预设音频库中是否存在与所述待处理音频数据对应的参考音频的步骤包括：

将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比，确定所述待处理音频数据与各项所述音频元素之间的匹配率；

根据各项所述匹配率，确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频。

可选地，所述根据各项所述匹配率，确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频的步骤包括：

从各项所述匹配率中确定出最大匹配率，并判断所述最大匹配率是否大于预设阈值；

若所述最大匹配率大于预设阈值，则将所述最大匹配率对应的音频元素确定为所述参考音频，判定所述预设音频库中存在所述参考音频；

若所述最大匹配率小于或等于预设阈值，则判定所述预设音频库中不存在所述参考音频。

可选地，所述将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比，确定所述待处理音频数据与各项所述音频元素之间的匹配率的步骤包括：

调用所述预设音频库的各项音频元素，并针对各项所述音频元素分别执行以下步骤：

确定与所述音频元素对应的衍生音频元素，并将所述待处理音频数据分别和所述音频元素，以及所述衍生音频元素对比，生成多个元素匹配率；

将多个所述元素匹配率的最大值，确定为所述待处理音频数据与所述音频元素之间的匹配率。

可选地，所述将所述视频数据和所述音频数据生成为音视频文件的步骤包括：

读取所述视频数据的第一时间戳，以及所述音频数据的第二时间戳；

将所述第一时间戳和所述第二时间戳匹配，生成所述第一时间戳和所述第二时间戳之间的匹配关系；

根据所述匹配关系，对所述视频数据和所述音频数据进行合成，生成为音视频文件。

可选地，所述从所述内存队列中读取所述目标音频数据进行识别，生成识别结果，以对音视频录制时的语音进行识别的步骤之后包括：

根据所述识别结果，对音视频录制的进程进行控制。

进一步地，为实现上述目的，本发明还提供一种基于音视频录制的语音识别装置，所述基于音视频录制的语音识别装置包括：

获取模块，用于当接收到音视频录制请求时，实时获取视频数据以及音频数据；

存储模块，用于将所述音频数据复制为目标音频数据，并将所述目标音频数据存储到内存队列中；

音视频合成模块，用于将所述视频数据和所述音频数据生成为音视频文件；

语音识别模块，用于从所述内存队列中读取所述目标音频数据进行识别，生成识别结果，以对音视频录制时的音频数据进行识别。

进一步地，为实现上述目的，本发明还提供一种基于音视频录制的语音识别设备，所述基于音视频录制的语音识别设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于音视频录制的语音识别程序，所述基于音视频录制的语音识别程序被所述处理器执行时实现如上述所述的基于音视频录制的语音识别方法的步骤。

进一步地，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有基于音视频录制的语音识别程序，所述基于音视频录制的语音识别程序被处理器执行时实现如上所述的基于音视频录制的语音识别方法的步骤。

本发明的基于音视频录制的语音识别方法、装置、设备及存储介质，在接收到音视频录制请求，表征具有录制音视频需求时，实时获取视频数据以及音频数据，并对音频数据进行复制，得到目标音频数据存储到内存队列中；进而将视频数据和音频数据生成为音视频文件，并从内存队列中读取出目标音频数据进行识别，生成识别结果，以此实现在音视频录制的同时，对录制的语音进行识别。因此，本发明通过将音频数据复制到内存队列，从内存队列中读取视频数据即可进行识别，使得音视频录制和语音识别功能同时实现，相对于音视频录制和语音识别的先后处理机制，避免了在先处理功能的处理时长对后处理功能实现时长的影响，减少在后处理功能等待时间的同时，提升了音视频录制和语音识别的整体处理效率。

附图说明

图1为本发明基于音视频录制的语音识别设备实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明基于音视频录制的语音识别方法第一实施例的流程示意图；

图3为本发明基于音视频录制的语音识别装置较佳实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于音视频录制的语音识别设备，参照图1，图1为本发明基于音视频录制的语音识别设备实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，该基于音视频录制的语音识别设备可以包括：处理器1001，例如cpu，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的基于音视频录制的语音识别设备的硬件结构并不构成对基于音视频录制的语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于音视频录制的语音识别程序。其中，操作系统是管理和控制基于音视频录制的语音识别设备与软件资源的程序，支持网络通信模块、用户接口模块、基于音视频录制的语音识别程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的基于音视频录制的语音识别设备硬件结构中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；处理器1001可以调用存储器1005中存储的基于音视频录制的语音识别程序，并执行以下操作：

当接收到音视频录制请求时，实时获取视频数据以及音频数据；

将所述音频数据复制为目标音频数据，并将所述目标音频数据存储到内存队列中；

进一步地，所述从所述内存队列中读取所述目标音频数据进行识别，生成识别结果的步骤包括：

逐一从所述内存队列中读取所述音频数据，并对所述音频数据进行过滤，生成待处理音频数据；

进一步地，所述检测预设音频库中是否存在与所述待处理音频数据对应的参考音频的步骤包括：

将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比，确定所述待处理音频数据与各项所述音频元素之间的匹配率；

根据各项所述匹配率，确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频。

进一步地，所述根据各项所述匹配率，确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频的步骤包括：

从各项所述匹配率中确定出最大匹配率，并判断所述最大匹配率是否大于预设阈值；

若所述最大匹配率大于预设阈值，则将所述最大匹配率对应的音频元素确定为所述参考音频，判定所述预设音频库中存在所述参考音频；

若所述最大匹配率小于或等于预设阈值，则判定所述预设音频库中不存在所述参考音频。

进一步地，所述将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比，确定所述待处理音频数据与各项所述音频元素之间的匹配率的步骤包括：

调用所述预设音频库的各项音频元素，并针对各项所述音频元素分别执行以下步骤：

确定与所述音频元素对应的衍生音频元素，并将所述待处理音频数据分别和所述音频元素，以及所述衍生音频元素对比，生成多个元素匹配率；

将多个所述元素匹配率的最大值，确定为所述待处理音频数据与所述音频元素之间的匹配率。

进一步地，所述将所述视频数据和所述音频数据生成为音视频文件的步骤包括：

读取所述视频数据的第一时间戳，以及所述音频数据的第二时间戳；

将所述第一时间戳和所述第二时间戳匹配，生成所述第一时间戳和所述第二时间戳之间的匹配关系；

根据所述匹配关系，对所述视频数据和所述音频数据进行合成，生成为音视频文件。

进一步地，所述从所述内存队列中读取所述目标音频数据进行识别，生成识别结果，以对音视频录制时的语音进行识别的步骤之后，处理器1001可以调用存储器1005中存储的基于音视频录制的语音识别程序，并执行以下操作：

根据所述识别结果，对音视频录制的进程进行控制。

本发明基于音视频录制的语音识别设备的具体实施方式与下述基于音视频录制的语音识别方法各实施例基本相同，在此不再赘述。

本发明还提供一种基于音视频录制的语音识别方法。

参照图2，图2为本发明基于音视频录制的语音识别方法第一实施例的流程示意图。

本发明实施例提供了基于音视频录制的语音识别方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。具体地，本实施例中的基于音视频录制的语音识别方法包括：

步骤s10，当接收到音视频录制请求时，实时获取视频数据以及音频数据；

本实施例中的基于音视频录制的语音识别方法应用于识别设备，该识别设备可以是服务器，也可以是客户端。对于服务器，则与多个具有在音视频录制过程中识别语音需求的客户端通信连接，本实施例以客户端为例进行说明。并且，在音视频录制过程中识别语音的场景多种多样，如执法人员录制音视频对执法过程记录的同时，通过识别语音来记录执法人员的语言规范性；或者金融机构录制音视频对用户办理金融事项过程进行记录的同时，还通过识别语音来记录用户对提示点的知晓性；本实施例优选以金融机构录制音视频过程中对语音进行识别的场景为例进行说明。

进一步地，当具有音视频录制需求时，用户通过其终端所安装客户端的显示界面发起音视频录制请求，客户端在接收到该音视频录制请求时，发起调用指令，以调用启动终端内的摄像头和麦克风，通过摄像头拍摄视频数据，并通过麦克风接收音频数据。以此，实时获取到视频数据和音频数据。

步骤s20，将所述音频数据复制为目标音频数据，并将所述目标音频数据存储到内存队列中；

更进一步地，实时获取的视频数据和音频数据均存储于终端内存的不同存储位置，且不同存储位置以不同的标识区分。通过表征存储音频数据的标识，对存储音频数据的存储位置进行确定，进而对该存储位置中的音频数据进行复制操作，并将经复制得到的数据作为目标音频数据。此外，在终端内存中设置终端内存队列，将目标音频数据传输到内存队列中存储。从内存到内存的存储有利于快速存储，并且后续直接可从内存中读取目标音频数据进行识别，相对于将目标音频数据存储于本地外存，识别时从本地外存传输到内存进行处理的机制，有利于快速获取目标音频数据进行识别，且节省了传输处理的资源。

步骤s30，将所述视频数据和所述音频数据生成为音视频文件，并从所述内存队列中读取所述目标音频数据进行识别，生成识别结果，以对音视频录制时的语音进行识别。

进一步地，对视频数据和音频数据分别进行处理，生成为音视频数据。其中，对视频数据的处理包括但不限于压缩旋转，通过压缩来减少视频数据的数据量，通过旋转来将视频数据的格式规范统一。依据视频数据和音频数据各自的生成时间，将音频数据和视频数据合并，生成为音视频文件。此后，对内存队列中存储的目标音频数据逐一读取进行识别，得到识别结果；以此，实现在录制音视频过程中，对录制得到的语音进行识别，得到识别结果体现录制过程中的语音信息。具体地，从内存队列中读取目标音频数据进行识别，生成识别结果的步骤包括：

步骤s31，逐一从所述内存队列中读取所述音频数据，并对所述音频数据进行过滤，生成待处理音频数据；

步骤s32，检测预设音频库中是否存在与所述待处理音频数据对应的参考音频，若存在所述参考音频，则调用与所述参考音频对应的文字信息，并将所述文字信息生成为所述识别结果。

可理解地，音视频录制过程中，不可避免的存在环境噪声，使得录制得到的音频数据包含有噪音数据，从而设置有识别前的过来机制。具有地，预先依据人类声音具有的频率特性，设定频率范围；从内存队列中逐一读取到音频数据后，将音频数据的频率和该频率范围对比，若音频数据的频率不在该频率范围内，则说明音频数据为环境噪声而进行过滤。同时，音视频录制的过程中，还可能存在其他人员发出的声音，对于该类声音同样构成音频数据中的噪声，此时，依据音频数据的频率规律性，以及频率大小，识别噪声。将经环境噪声判别后音频数据中频率不规律，以及频率过大或过小的声音识别为噪声。通过将环境噪声和其他人员声音从音频数据中剔除，实现对音频数据的过滤，得到用于识别的待处理音频数据。

进一步地，预先针对设定包含多项音频元素的预设音频库，一项音频元素对应金融机构常用话术的关键词，或者短句。并且，每个音频元素对应有各自的文字信息，即各自所表达的话术含义。在识别过程中，检测预设音频库中是否存在与待处理音频数据对应的参考音频，该对应的参考元素其实质为预设音频库中与待处理音频数据匹配的音频元素。若存在该参考音频，则查找与该参考音频对应的文字信息，该文字信息即为当前从内存队列中读取到的音频数据表达的话术含义，而将其作为对该读取的音频数据进行识别所生成的识别结果。在当前读取的音频数据经识别生成识别结果后，继续读取内存队列中下一项的音频数据进行识别。因音视频录制具有时间先后顺序，将音视频录制过程中实时生成的各项音频数据存储到内存队列中，通过内存队列的先进先出特性，使得在先生成的音频数据先进行处理，得到识别结果，在后生成的音频数据后得到识别结果。在音视频录制过程中的音频数据均添加到内存队列并经识别后，将得到的识别结果按照识别的时间顺序组合，即可得到音视频录制过程中的语言话术，实现在录制音视频的同时，对所录制音视频中的语音高效识别。

更进一步地，所录制音视频中的音频数据除了可包含金融结构常用话术，如“本人已知晓风险”之外，还可包含控制音视频录制的进程进行控制的音频数据，如“暂停录制”、“下一步”等。对于该类音频数据经识别，得到识别结果后，则根据识别结果，对音视频录制的进程进行控制。以便简化用户的操作过程，直接通过识别结果控制音视频录制。

本发明的基于音视频录制的语音识别方法，在接收到音视频录制请求，表征具有录制音视频需求时，实时获取视频数据以及音频数据，并对音频数据进行复制，得到目标音频数据存储到内存队列中；进而将视频数据和音频数据生成为音视频文件，并从内存队列中读取出目标音频数据进行识别，生成识别结果，以此实现在音视频录制的同时，对录制的语音进行识别。因此，本发明通过将音频数据复制到内存队列，从内存队列中读取视频数据即可进行识别，使得音视频录制和语音识别功能同时实现，相对于音视频录制和语音识别的先后处理机制，避免了在先处理功能的处理时长对后处理功能实现时长的影响，减少在后处理功能等待时间的同时，提升了音视频录制和语音识别的整体处理效率。

进一步地，基于本发明基于音视频录制的语音识别方法的第一实施例，提出本发明基于音视频录制的语音识别方法第二实施例。

所述基于音视频录制的语音识别方法第二实施例与所述基于音视频录制的语音识别方法第一实施例的区别在于，所述检测预设音频库中是否存在与所述待处理音频数据对应的参考音频的步骤包括：

步骤s321，将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比，确定所述待处理音频数据与各项所述音频元素之间的匹配率；

本实施例在从预设音频库中检测与待处理音频数据对应的参考音频时，先将待处理音频数据和预设音频库中的各项音频元素逐一对比，生成待处理音频与各项音频元素之间的匹配率。匹配率的高低，表征了待处理音频数据与音频元素之间的相似程度高低；匹配率越高则相似程度越高，反之则越低。具体地，将待处理音频数据逐一和预设音频库中各项音频元素进行对比，确定待处理音频数据与各项音频元素之间的匹配率的步骤包括：

步骤a1，调用所述预设音频库的各项音频元素，并针对各项所述音频元素分别执行以下步骤：

步骤a2，确定与所述音频元素对应的衍生音频元素，并将所述待处理音频数据分别和所述音频元素，以及所述衍生音频元素对比，生成多个元素匹配率；

步骤a3，将多个所述元素匹配率的最大值，确定为所述待处理音频数据与所述音频元素之间的匹配率。

可理解地，预设音频库中包含的音频元素众多，待处理音频数据与各项音频元素均进行对比，且对比过程一致；其可以采用串行逐一对比，也可以并行对比，为了对比的效率，优选以并行的方式进行对比。具体地，在对比之前，先对预设音频库中的各项音频元素进行调用，并针对调用的各音频元素以相同的方式和待处理音频数据进行对比，本实施例以一项音频元素为例进行说明。考虑到不同地区的用户在表达同一含义的话语时，可能因口音发音的不同，导致音频数据存在差异，即表达同一文字信息的音频数据不同。此时，将用于表征文字信息的规范音频作为预设音频库中的音频元素，而将其他口音的表达该文字信息的音频作为该音频元素的衍生音频元素存储在预设音频库中。

进一步地，对于预设音频库中的每项音频元素，均携带有多项表征同一话语含义的衍生音频元素。在将待处理音频数据和预设音频库中的音频元素进行对比，确定表征相似程度高低的匹配率的过程中，将待处理音频数据和音频元素，以及该元素对应的衍生音频元素分别进行对比，生成各自对比的元素匹配率。进而在各个元素匹配率之间比较，确定其中的最大值。若最大值由待处理音频数据与音频元素对比生成，则说明所录制音视频中的音频为规范音频；若最大值由待处理音频数据与音频元素的衍生音频元素生成，则说明所录制音视频中的音频为携带有某一地区口音的音频。该最大值体现了待处理音频数据与音频元素之间最高的相似度，故将其作为待处理音频数据与音频元素之间的匹配率。以此，确定待处理音频数据与预设音频库中各音频元素之间的匹配率，表征待处理音频数据与各个音频元素各自之间的最高相似度。

步骤s322，根据各项所述匹配率，确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频。

更进一步地，依据各匹配度所表征的待处理音频数据与各音频元素之间的相似程度，确定预设音频库中是否存在与待处理音频数据对应的参考音频，即是否存在与待处理音频数据表达含义一致的音频元素。具有地，根据各项匹配率，确定预设音频库中是否存在与待处理音频数据对应的参考音频的步骤包括：

步骤b1，从各项所述匹配率中确定出最大匹配率，并判断所述最大匹配率是否大于预设阈值；

步骤b2，若所述最大匹配率大于预设阈值，则将所述最大匹配率对应的音频元素确定为所述参考音频，判定所述预设音频库中存在所述参考音频；

步骤b3，若所述最大匹配率小于或等于预设阈值，则判定所述预设音频库中不存在所述参考音频。

进一步地，在各项匹配率之间对比，确定其中的最大匹配率。并且预先设置表征相似程度较高的预设阈值，将最大匹配率和该预设阈值对比，判断最大匹配率是否大于预设阈值。若大于预设阈值，则说明待处理音频数据与生成最大匹配率的音频元素之间的相似程度较高。故而将生成最大匹配率的音频元素，作为与最大匹配率对应的音频元素，该对应的音频元素即为预设音频库中与待处理音频数据对应的参考音频，判定预设音频库中存在参考音频。反之若确定最大匹配率小于或等于预设阈值，则说明待处理音频数据与预设音频库中各音频元素之间的相似程度均较低，预设音频库中不存在参考音频。其原因可能是预设音频库中尚未收录与待处理音频数据匹配的音频元素，也可能是待处理音频数据所表达的口音较重，而难以识别。因此，在确定预设音频库中不存在参考音频后，可输出重新输入音频的提示的信息；并且对输入音频的次数进行限制，若在限制次数内均确定预设音频库中不存在参考音频，则输出语音识别失败的提示信息。

本实施例通过对预设音频库中的音频元素设置表征不同口音的衍生音频元素，内存队列中的各项音频数据经过滤处理后，和每一音频元素及其衍生音频元素对比，来确定音频数据与每一音频元素的匹配率，提升了所确定匹配率的准确性。此外，由各匹配率中的最大匹配率，表征预设音频库中与音频数据相似程度最高的音频元素；并且在最大匹配率大于预设阈值时，才判定预设音频库中存在与音频数据对应的参考音频；使得与音频数据与参考音频之间的相似程度较高，以确保由参考音频所确定文字信息的准确性，实现对音频数据的准确识别。

进一步地，基于本发明基于音视频录制的语音识别方法的第一或第二实施例，提出本发明基于音视频录制的语音识别方法第三实施例。

所述基于音视频录制的语音识别方法第三实施例与所述基于音视频录制的语音识别方法第一或第二实施例的区别在于，所述将所述视频数据和所述音频数据生成为音视频文件的步骤包括：

步骤s33，读取所述视频数据的第一时间戳，以及所述音频数据的第二时间戳；

步骤s34，将所述第一时间戳和所述第二时间戳匹配，生成所述第一时间戳和所述第二时间戳之间的匹配关系；

步骤s35，根据所述匹配关系，对所述视频数据和所述音频数据进行合成，生成为音视频文件。

在本实施例中，将音视频录制过程中的视频数据和音频数据生成用于播放观看的音视频文件。具体地，音视频录制过程中视频数据和音频数据均依据时间先后顺序依次生成，视频数据中携带有其生成时间，音频数据中也携带有生成时间。将视频数据中携带的生成时间作为视频数据的第一时间戳进行读取，并将音频数据中携带的生成时间作为第二时间戳进行读取。并且将第一时间戳和第二时间戳匹配，得到两者之间的匹配关系。因视频数据存在于音视频录制的整个过程，而音频数据仅存在于音视频录制过程中的某些阶段，故而音视频录制过程中音频数据的第二时间戳位于视频数据的第一时间戳的范围内。第一时间戳与第二时间戳的匹配关系，为第一时间戳的某些时间点与第二时间戳的时间点一致。故而可依据该一致的匹配关系，将视频数据和音频数据进行合成，将音频数据添加到视频数据中，生成为音视频文件，实现音视频的播放。或者依据匹配关系，在音频数据和视频数据之间设置调用关系；在播放视频数据的过程中，每当达到匹配的时间点，则对音频数据进行调用，将音频数据添加到当前播放的视频数据中，实现音视频的播放。

在一具体实施例中，若音视频录制过程中的视频数据包含数据d1、d2和d3，音频数据包含数据y1；读取的视频数据的第一时间戳为m1、m2和m3，音频数据的第二时间戳为n1。将第一时间戳和第二时间戳的匹配，确定两者之间的匹配关系为第一时间戳m2与第二时间戳n1匹配，说明在录制到视频数据d2时录制到音频数据y1，因而可将音频数据y2添加到视频数据d2中，和视频数据d1、d3一并生成为音视频文件进行播放观看。

本实施例中通过视频数据的第一时间戳与音频数据的第二时间戳之间的匹配关系，对视频数据和音频数据进行合成，确保了音视频数据与视频数据之间的同步播放，有利于对所录制音视频的准确播放观看。

本发明还提供一种基于音视频录制的语音识别装置。

参照图3，图3为本发明基于音视频录制的语音识别装置第一实施例的功能模块示意图。所述基于音视频录制的语音识别装置包括：

获取模块10，用于当接收到音视频录制请求时，实时获取视频数据以及音频数据；

存储模块20，用于将所述音频数据复制为目标音频数据，并将所述目标音频数据存储到内存队列中；

音视频合成模块30，用于将所述视频数据和所述音频数据生成为音视频文件；

语音识别模块40，用于从所述内存队列中读取所述目标音频数据进行识别，生成识别结果，以对音视频录制时的音频数据进行识别。

进一步地，所述语音识别模块40还包括：

过滤单元，用于逐一从所述内存队列中读取所述音频数据，并对所述音频数据进行过滤，生成待处理音频数据；

检测单元，用于检测预设音频库中是否存在与所述待处理音频数据对应的参考音频，若存在所述参考音频，则调用与所述参考音频对应的文字信息，并将所述文字信息生成为所述识别结果。

进一步地，所述检测单元还用于：

将所述待处理音频数据逐一和所述预设音频库中各项音频元素进行对比，确定所述待处理音频数据与各项所述音频元素之间的匹配率；

根据各项所述匹配率，确定所述预设音频库中是否存在与所述待处理音频数据对应的参考音频。

进一步地，所述检测单元还用于：

从各项所述匹配率中确定出最大匹配率，并判断所述最大匹配率是否大于预设阈值；

若所述最大匹配率大于预设阈值，则将所述最大匹配率对应的音频元素确定为所述参考音频，判定所述预设音频库中存在所述参考音频；

若所述最大匹配率小于或等于预设阈值，则判定所述预设音频库中不存在所述参考音频。

进一步地，所述检测单元还用于：

调用所述预设音频库的各项音频元素，并针对各项所述音频元素分别执行以下步骤：

确定与所述音频元素对应的衍生音频元素，并将所述待处理音频数据分别和所述音频元素，以及所述衍生音频元素对比，生成多个元素匹配率；

将多个所述元素匹配率的最大值，确定为所述待处理音频数据与所述音频元素之间的匹配率。

进一步地，所述语音识别模块40还包括：

读取单元，用于读取所述视频数据的第一时间戳，以及所述音频数据的第二时间戳；

生成单元，用于将所述第一时间戳和所述第二时间戳匹配，生成所述第一时间戳和所述第二时间戳之间的匹配关系；

合成单元，用于根据所述匹配关系，对所述视频数据和所述音频数据进行合成，生成为音视频文件。

进一步地，所述基于音视频录制的语音识别装置还包括：

控制模块，用于根据所述识别结果，对音视频录制的进程进行控制。

本发明基于音视频录制的语音识别装置具体实施方式与上述基于音视频录制的语音识别方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种存储介质。

存储介质上存储有基于音视频录制的语音识别程序，基于音视频录制的语音识别程序被处理器执行时实现如上所述的基于音视频录制的语音识别方法的步骤。

本发明存储介质可以是计算机存储介质，其具体实施方式与上述基于音视频录制的语音识别方法各实施例基本相同，在此不再赘述。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。