一种辅助语音识别的处理方法、装置、电子设备及存储介质与流程

2021-01-28 17:01:38|

240|

起点商标网

本申请涉及计算机数据处理技术领域，具体涉及一种辅助语音识别的处理方法、装置、电子设备及存储介质。

背景技术：

目前，市面上出现了各种能够实现语音识别功能的家教机、学习平板等电子设备。基于语音识别，这些电子设备可以为用户提供口语测评、跟读等语音交互功能。然而，在实践中发现，在利用电子设备进行语音识别时，电子设备有可能将周围的环境噪声误识别为用户输入的语音，从而导致语音识别的准确率比较低。

技术实现要素：

本申请实施例公开了一种辅助语音识别的处理方法、装置、电子设备及存储介质，能够提高语音识别的准确率。

本申请实施例第一方面公开一种辅助语音识别的处理方法，所述方法包括：

获取同步采集到的语音信号以及图像帧序列；

从所述图像帧序列包括的图像帧中识别出用户口型，得到用户口型序列；所述用户口型序列包括至少一个用户口型；

将所述用户口型序列与标准口型序列进行比对；所述标准口型序列由正确朗读目标内容的标准口型组成；

在比对出所述用户口型序列与所述标准口型序列匹配时，确定所述语音信号为有效语音信号。

作为一种可选的实施方式，在本申请实施例第一方面中，所述从所述图像帧序列包括的图像帧中识别出用户口型，得到用户口型序列，包括：

对所述图像帧序列包括的每个图像帧进行人脸识别，确定包括唇部特征的唇部图像帧，得到由所述唇部图像帧组成的第一图像帧子序列；

根据唇部特征识别出每个所述唇部图像帧对应的用户口型，得到用户口型序列；

以及，所述在比对出所述用户口型序列与所述标准口型序列匹配时，确定所述语音信号为有效语音信号，包括：

在比对出所述用户口型序列与所述标准口型序列匹配时，根据所述第一图像帧子序列包括的各个图像帧的采集时刻，从所述语音信号中确定出与所述第一图像帧子序列匹配的语音信号段；

确定所述语音信号段为有效语音信号。

作为一种可选的实施方式，在本申请实施例第一方面中，所述对所述图像帧序列包括的每个图像帧进行人脸识别，包括：

对所述图像帧序列包括的每个图像帧的中央区域进行人脸识别；所述中央区域的中心为图像帧的中心，所述中央区域的面积为预设面积。

作为一种可选的实施方式，在本申请实施例第一方面中，根据权利要求2所述的方法，其特征在于，所述在比对出所述用户口型序列与所述标准口型序列匹配时，根据所述第一图像帧子序列包括的图像帧的采集时刻，从所述语音信号中确定出与所述第一图像帧子序列匹配的语音信号段，包括：

在比对出所述用户口型序列中存在与所述标准口型序列的序列吻合度高于预设序列吻合度阈值的目标子序列时，在所述第一图像帧子序列中确定出与所述目标子序列对应的第二图像帧子序列；所述目标子序列包括的用户口型是从所述第二图像帧子序列包括的图像帧中识别出的；

以所述第二图像帧子序列中第一个图像帧的采集时刻为语音信号段的起始时刻，以所述第二图像帧子序列中最后一个图像帧的采集时刻为语音信号段的结束时刻，从所述语音信号中确定出与所述第一图像帧子序列匹配的语音信号段。

作为一种可选的实施方式，在本申请实施例第一方面中，所述方法还包括：

在对比出所述用户口型序列中不存在所述目标子序列时，输出提示信息；

其中，所述提示信息用于指示用户重新朗读所述目标内容。

作为一种可选的实施方式，在本申请实施例第一方面中，在所述将所述用户口型序列与标准口型序列进行比对之前，所述方法还包括：

获取目标内容的读音对应的音素组合；

根据音素与口型之间的预设对应关系，从口型库中匹配出与所述音素组合包括的各个音素对应的标准口型；

根据所述音素组合包括的各个音素对应的标准口型生成标准口型序列。

作为一种可选的实施方式，在本申请实施例第一方面中，所述根据所述音素组合包括的各个音素对应的标准口型生成标准口型序列，包括：

从所述音素组合包括的各个音素对应的标准口型中剔除出弱读或者不发音的音素对应的标准口型，得到保留的标准口型；

根据所述保留的标准口型生成标准口型序列。

本申请实施例第二方面公开一种辅助语音识别的处理装置，其特征在于，包括：

获取单元，用于获取同步采集到的语音信号以及图像帧序列；

识别单元，用于从所述图像帧序列包括的图像帧中识别出用户口型，得到用户口型序列；所述用户口型序列包括至少一个用户口型；

比对单元，将所述用户口型序列与标准口型序列进行比对；所述标准口型序列由正确朗读目标内容的标准口型组成；

确定单元，用于在比对出所述用户口型序列与所述标准口型序列匹配时，确定所述语音信号为有效语音信号。

本申请实施例第三方面公开一种电子设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本申请实施例第一方面公开的任一项方法。

本申请第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本申请实施例第一方面公开的任一项方法。

本申请实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本申请实施例第一方面公开的任一项方法。

与现有技术相比，本申请实施例具有以下有益效果：

在本申请实施例中，首先获取同步采集到的语音信号以及图像帧序列；再从图像帧序列中识别出用户口型，以得到用户口型序列。将用户口型序列与正确朗读目标内容时的标准口型序列进行比对。在比对出用户口型序列与标准口型序列匹配时，说明采集到的语音信号为用户朗读目标内容时输入的语音信号。因此将采集到的语音信号确定为有效语音信号，以便于对有效语音信息进行语音识别等后处理，可以减少将非朗读目标内容时输入的语音信号误识别为语音识别对象的情况发生，提高语音识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种辅助语音识别的处理方法的应用场景示例图；

图2是本申请实施例公开的一种辅助语音识别的处理方法的流程示意图；

图3是本申请实施例公开的一种从图像帧中识别出用户口型的示例图；

图4a是本申请实施例公开的一种与标准口型序列匹配的用户口型序列的示例图；

图4b是本申请实施例公开的一种与标准口型序列不匹配的用户口型序列的示例图；

图5是本申请实施例公开的另一种辅助语音识别的处理方法的流程示意图；

图6是本申请实施例公开的一种辅助语音识别的处理装置的结构示意图；

图7是本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例公开了一种辅助语音识别的处理方法、装置、电子设备及存储介质，能够提高语音识别的准确率。以下分别进行详细说明。

下面先对本申请实施例公开的一种辅助语音识别的处理方法的应用场景进行介绍。请参阅图1，图1为本申请实施例公开的一种辅助语音识别的处理方法的应用场景示例图。图1所示的电子设备10可以为智能手机、平板电脑、家教机、学习机等电子设备，具体不做限定。电子设备10可以对采集到的语音信号进行语音识别，基于语音识别功能，电子设备10可以实现口语测评、语音搜题、语音转录等功能。

如图1所示，电子设备10上可以设置有屏幕11、摄像头12、扬声器13、麦克风14等组件。

屏幕11可以用于显示文字信息、视频画面等文字或者图像信息。可选的，可以用于显示用户需要朗读的目标内容，以提示用户按照屏幕11上显示的目标内容进行朗读。其中，目标内容可以包括但不限于：音标、拼音、单词/字、短语、句子。

摄像头12可以用于采集包括用户的图像；其中，当摄像头12处于录像模式时，可以采集到包括用户的多个图像帧，得到图像帧序列(即用户视频)。

扬声器13可以用于播放音频。可选的，可以用于播放用户需要朗读的目标内容，以帮助用户学习目标内容的发音。

麦克风14可以用于采集声音，得到语音信号。

基于上述的一种或多种组件，电子设备10可以采集到的语音信号中可以包括用户朗读目标内容的声音，电子设备10采集到的图像帧中可以包括用户朗读目标内容的场景。

请参阅图2，图2是本申请实施例公开的一种辅助语音识别的处理方法的流程示意图，图2所示的方法可以应用于如图1所示的电子设备。如图2所示，该辅助语音识别的处理方法可以包括以下步骤：

210、获取同步采集到的语音信号以及图像帧序列。

在本申请实施例中，可以同时触发启动对语音信号以及图像帧序列的采集，以获得同步采集到的语音信号以及图像帧序列。可选的，可以由用户手动触发启动。示例性的，可以检测针对在屏幕上显示的启动按键的触及操作；当检测到上述的触及操作时，启动麦克风采集语音信号以及启动摄像头采集图像帧，以得到图像帧序列。

或者，也可以由电子设备在输出目标内容之后的预设时长内，自动触发启动。其中，上述的预设时长可以为从接收到目标内容到读出目标内容之间用户所需的预估反应时间。可选的，预设时长可以参考用户的年龄设置；用户的年龄越小，预设时长越长，从而可以根据用户连年灵活地调整语音信号和图像帧序列的采集起始时刻，尽可能减少采集到与朗读目标内容无关的其他干扰信息。

220、从图像帧序列包括的图像帧中识别出用户口型，得到用户口型序列。

在本申请实施例中，可以对图像帧序列包括的每个图像帧进行人脸识别，以从图像帧中提取出唇部特征，并根据提取出的唇部特征识别出用户口型。用户口型序列由从图像帧中识别出的用户口型组成，用户口型序列可以包括至少一个用户口型。

作为一种可选的实施方式，可以采用各种人脸识别算法检测图像帧中的脸部区域，再进一步从检测出的脸部区域中进行唇区检测，检测出唇部区域。唇区检测的方法可以包括但不限于：基于唇部在人脸中的位置的人脸结构特征方法、基于唇部色度分布和色度特征的方法、通过检测唇部关键轮廓点的基于模型的方法。

在本申请实施例中，唇部特征可以包括上述的唇部关键轮廓点，也可以进一步包括唇部的纹理、颜色等特征，具体不做限定。其中，对提取出的唇部关键轮廓点进行连接，可以勾勒出图像帧中的用户口型。示例性的，请一并参阅图3，图3是本申请实施例公开的一种从图像帧中识别出用户口型的示例图。如图3所示，对图像帧进行人脸识别，可以定位出脸部区域，对脸部区域进行唇部特征提取，检测关键轮廓点，可以识别出由多个关键轮廓点构成的用户口型。

此外，在本申请实施例中，电子设备的使用环境中可能存在多个用户。此时，采集到的图像帧中可能存在多个人脸。例如，当家长陪同孩子使用电子设备时，电子设备的摄像头拍摄到的图像帧中可能包括家长以及孩子的脸部。但是，与电子设备进行语音交互的一般为某一个核心用户(如孩子)。作为一种可选的实施方式，在本申请实施例中，可以只对图像帧的中央区域进行人脸识别，以提取出位于中央区域的人脸的唇部特征，从而识别出位于中央区域的人脸的用户口型。上述的中央区域的中心可以为图像帧的中心，区域大小可以为预设面积。可选的，预设面积可以参考摄像头的当前焦距设置，当前焦距越大，预设面积的值越大。也就是说，实施该实施方式，可以在拍摄到多张人脸时，将位于中央区域的人脸确定为核心用户的脸，并且只对位于中央区域的人脸进行识别和唇部特征的提取，可以减少除核心用户以外的其他用户脸部入镜带来的干扰，减少电子设备进行人脸识别和唇部特征提取的计算量，缩短响应时间。

230、将用户口型序列与标准口型序列进行比对。

在本申请实施例中，标准口型序列由正确朗读目标内容的标准口型组成。口型的差异会影响发音的准确性，某些语种已经定义出各个音素对应的标准口型。以英语为例，英语包括四十八个音素，每个音素可以对应有一个标准口型。例如，音素/e/对应的标准口型为：嘴唇嘴角咧开、嘴巴微张；音素/o/对应的标准口型为：嘴唇呈圆形；音素/u/对应的标准口型为：嘴唇微翘、嘴唇呈很小的圆形。朗读某一目标内容，本质上为根据音素或者音素组合，做出相应的标准口型，从而发出该目标内容的读音。因此，将用户口型序列与标准口型序列进行比对，可以判断用户在做出用户口型时，读出的内容是否为目标内容。

可选的，在本申请实施例中，将用户口型序列与标准口型序列进行比对的方式可以包括：

计算用户口型序列与标准口型序列的序列吻合度；若序列吻合度高于预设序列吻合度阈值，则判定用户口型序列与标准口型序列匹配；若序列吻合度不高于预设序列吻合度阈值，则判定用户口型序列与标准口型序列不匹配。

上述的序列吻合度可以用于表征两个口型序列的一致性或者相似性，序列吻合度阈值可以为经验值，序列吻合度阈值较小，对口型错误的容忍度越高，语音信号被确定为有效信号的可能性越大，但匹配的准确率较低；序列吻合度阈值较大，匹配的准确率提高，但语音信号被确定为有效信号的可能性降低，可能导致漏判。因此，可以根据经验调试出兼顾准确和全面的序列吻合度阈值。

口型序列内包括一个或多个口型，因此，可以通过各个用户口型和标准口型的口型吻合度来确定序列吻合度。口型吻合度用于表征两个口型之间的一致性或者相似性，可以通过关键轮廓点的偏离程度进行计算：计算某一用户口型的关键轮廓点偏离某一标准口型中对应的关键轮廓点的偏离程度，偏离程度越高，该用户口型和该标准口型的口型吻合度越低。

进一步可选的，用户口型序列与标准口型序列的序列吻合度的计算方式可以包括但不限于以下两种：

方式一：统计用户口型序列和标准口型序列中一致的口型的个数；任意两个口型的口型吻合度高于预设口型吻合度阈值时，这两个口型为一致的口型；口型吻合度阈值设置得越大，被判定为一致的口型的要求越严格。

根据统计出的一致的口型的个数计算用户口型序列和标准口序列的序列吻合度。其中，用户口型序列和标准口型序列中一致的口型的个数越多，序列吻合度越高。

在本申请实施例中，通过方式一计算序列吻合度时，判定用户口型序列和标准口型序列匹配的要求相对较低，用户口型与标准口型并非完全一致，或者用户口型的排列顺序与标准口型的排列顺序存在部分差异时，也可能判定用户口型序列与标准口型序列匹配。这使得本申请实施例提供的辅助语音识别的处理方法可以容纳一定的用户口型错误，可以放宽被确定为有效语音信号的条件，改善用户体验。

示例性的，请一并参阅图4a，图4a是本申请实施例公开的一种与标准口型序列匹配的用户口型序列的示例图。如图4a所示，目标内容为“hello”，标准口型序列包括四种不同的口型，分别对应读音中的音素/h/、音素音素/l/、音素用户在朗读目标内容时，将“hello”读作用户口型序列如图4a所示。虽然由于用户的发音不准确导致用户口型序列中的最后一个用户口型与标准口型序列中的最后一个口型并不一致，但由于其余三个口型一致，图4a所示的用户口型序列与标准口型序列的口型吻合度较高，可以判定为相匹配。

方式二：以用户口型序列中的第一个用户口型为计算起点，依次计算当前的用户口型与标准口型序列的对应位置上的标准口型的口型吻合度；

根据各个用户口型与对应位置上的标准口型的口型吻合度计算整个用户口型序列与标准口型序列的序列吻合度。例如，以各个用户口型的口型吻合度平均值作为用户口型序列与标准口型序列的序列吻合度。

在本申请实施例中，通过方式二计算序列吻合度时，判定用户口型序列和标准口型序列匹配的要求相对较高，即使用户口型与标准口型一致，但用户口型的排列顺序与标准口型的排列顺序存在部分差异时，也可能判定用户口型序列与标准口型序列不匹配。这使得本申请实施例提供的辅助语音识别的处理方法将语音信号确定为有效语音信号时的准确率。

示例性的，请一并参阅图4b，图4b是本申请实施例公开的一种与标准口型序列不匹配的用户口型序列的示例图。如图4b所示，虽然用户口型序列包括的用户口型与标准口型序列包括的标准口型完全一致，但是由于口型的排列顺序不同，第二个用户口型与第二个标准口型的口型吻合度、以及第四个用户口型与第四个标准口型的口型吻合度均比较低，导致用户口型序列的序列吻合度与标准口型序列的序列吻合度较低，图4b所示的用户口型序列与标准口型序列不匹配。

需要说明的是，在本申请实施例中，用户除了朗读目标内容，还可能发出了其他声音，这有可能导致用户口型序列的序列长度大于标准口型序列的序列长度。此时，将用户口型序列与标准口型序列进行比对的方式可以包括：

查找用户口型序列中是否存在于标准口型序列的序列吻合度高于预设吻合度阈值的目标子序列。若存在，则判定用户口型序列与标准口型序列匹配；若不存在，则判定用户口型序列与标准口型序列不匹配。其中，目标子序列于标准口型序列的序列吻合度计算方式可以如上述两种计算方式所示，以下内容不再赘述。

也就是说，在本申请实施例中，即使识别到的用户口型序列中既包括朗读目标内容时做出的口型，还包括用户与他人闲谈等场景下做出的口型，也有可能判定用户口型序列与标准口型序列匹配，判定采集到的语音信号为有效语音信号，从而可以进一步将语音信号确定为有效语音信号时的准确率。

示例性的，电子设备在屏幕上显示目标内容“hello”之后，启动麦克风和摄像头。用户在看到目标内容时，由于未做好准备，先说出了“oh，no”的感叹，再读出“hello”，则识别出的用户口型序列中既包括“oh，no”的口型，也包括“hello”的口型。在本申请实施例中，由于从用户口型序列中可以查找到“hello”对应的目标子序列，因此可以将麦克风采集到的语音信号确定为有效语音信号，用户无需再次读一次目标内容。

240、在比对出用户口型序列与标准口型序列匹配时，确定语音信号为有效语音信号。

在本申请实施例中，在确定语音信号为有效语音信号之后，可以对有效语音信号进行去噪、声学特征提取、声学模型识别、发音验证等操作。可选的，在进行口语测评且电子设备确定采集到的语音信号为有效语音信号之后，可以将有效语音信号和目标内容对应的标准语音信号进行比对，以验证有效语音信号中的用户发音是否正确；其中，标准语音信号中的发音为朗读目标内容的标准发音。

可见，在本申请公开的上述实施例中，可以采集并识别用户口型，并且在比对出用户口型序列与标准口型序列匹配时，判定用户在做出用户口型时，读出的内容为目标内容，因此可以将与用户口型同步采集到的语音信号识别为有效语音信号，从而可以尽量避免将非朗读目标内容时输入的语音信号误识别为语音识别的识别对象，可以提高语音识别的准确率。进一步的，在将语音识别应用于口语测评功能时，可以显著提高口语测评的准确率。

此外，在本申请实施例中，由于电子设备使用环境的复杂性、语音信号的开始采集时刻过早或者结束采集时刻过晚等原因，可能导致采集到的语音信号中既包括核心用户输入的用户语音，也包括核心用户当前所处的环境中的环境噪声。这些环境噪声可以包括但不限于：除核心用户以外的其他人员输入的语音，或者电视机、冰箱等设备运行时产生的声音。

示例性的，假设孩子正在利用电子设备进行口语测评，电子设备在屏幕上显示目标内容并启动麦克风进行语音信号的采集；与此同时，孩子佩戴的智能手表发出了通知消息的响声，孩子受到该响声的干扰，并没有马上观看电子设备的屏幕上显示的目标内容，而是在查看了智能手表上的通知消息之后，再转头看向屏幕上的目标内容，随后朗读目标内容。因此，电子设备采集到的语音信号中，起始时刻之后的内容为智能手表的响声，随后才是孩子输入的用户语音。当采集到的语音信号中包括的环境噪声过多时，就有可能影响到语音识别的准确率。

因此，在本申请实施例中，作为一种可选的实施方式，在对比出用户口型与标准口型序列匹配时，可以先从图像帧序列中确定出由包括唇部特征的图像帧组成的第一图像帧子序列；再根据第一图像帧子序列包括的图像帧的采集时刻，从语音信号中确定出包括用户语音的语音信号段，将语音信号段确定为有效语音信号。

其中，语音信号段的起始时刻可以为第一图像帧子序列包括的第一个图像帧的采集时刻，语音信号段的结束时刻可以为第一图像帧子序列包括的最后一个图像帧的采集时刻。也就是说，语音信号段为核心用户发出声音时采集到的语音信号，实施上述的实施方式，可以从采集到的语音信号中截取出核心用户说话时对应的语音信号段作为有效语音信号，相当于将语音信号中与核心用户说话无关的语音信号段删除，可以减少环境噪声对语音识别的干扰。

在本申请实施例中，由于核心用户除了朗读目标内容，还可能发出了其他声音。因此，进一步可选的，若执行步骤230对比出用户口型序列中存在与标准口型序列的吻合度高于预设吻合度阈值的目标子序列，则可以从第一图像帧子序列中确定出与目标子序列对应的第二图像帧子序列。并且，可以将第二图像帧子序列包括的第一个图像帧的采集时刻作为上述的语音信号段的起始时刻，可以将第二图像帧子序列包括的最后一个图像帧的采集时刻作为语音信号段的结束时刻。也就是说，当用户口型序列中存在上述的目标子序列时，语音信号段为核心用户朗读目标内容时采集到的语音信号。实施上述的实施方式，可以精准地在语音信号中定位出只包括用户朗读目标内容时采集到的语音信号段，相当于将语音信号中与朗读目标内容无关的语音信号段删除，可以进一步减少环境噪声对语音识别的干扰，提高语音识别的准确率。

请参阅图5，图5是本申请实施例公开的另一种辅助语音识别的处理方法的流程示意图。如图5所示，该辅助语音识别的处理方法可以包括以下步骤：

501、获取目标内容的读音对应的音素组合。

在本申请实施例中，目标内容的读音对应的音素组合可以从互联网中搜索得到，或者可以从服务器的读音数据库中查询得到。或者，当目标内容是印刷在书本上的内容时，目标内容的读音对应的音素组合也可以是从采集到的书本图像中识别出的。

503、根据音素与口型之间的预设对应关系，从口型库中匹配出与音素组合包括的各个音素对应的标准口型。

在本申请实施例中，口型库中包括的音素与口型之间的预设对应关系可以如

505、根据音素组合包括的各个音素对应的标准口型生成标准口型序列。

在本申请实施例中，可以按照音素组合中各个音素的排列顺序对相应的标准口型进行排序，从而得到标准口型序列。

此外，在某些语种中，存在音素需要弱读或者不发音，但仍然需要做出相应口型的发音规则。作为一种可选的实施方式，在本申请实施例中，在生成标准口型序列时，可以先从音素组合包括的各个音素对应的标准口型中剔除出弱读或者不发音的音素对应的标准口型，得到保留的标准口型；然后再根据保留的标准口型生成标准口型序列。

示例性的，当目标内容为“openedthedoor”时，“opened”中“ed”的发音规则一般为只做口型，留出停顿时间，但不发音。则在生成标准口型序列时，可以先剔除“ed”对应的音素/d/对应的标准口型，再根据保留的标准口型生成标准口型序列。

弱读或者不发音但做出相应口型属于较为高级的发音技巧，大部分低龄用户难以掌握。若标准口型序列严格按照音素组合生成，可能导致将语音信号判定为有效语音信号的标准过于严苛，导致低龄用户输入的大部分语音信号都被判定为无效，反而使得电子设备无法有效地利用语音识别功能。因此，在本申请实施例中，可以通过上述的实施方式，适当放宽标准口型序列的生成标准，改善用户体验。

507、获取同步采集到的语音信号以及图像帧序列。

509、对图像帧序列包括的每个图像帧进行人脸识别，确定包括唇部特征的唇部图像帧，得到由所述唇部图像帧组成的第一图像帧子序列。

在本申请实施例中，作为一种可选的实施方式，可以对每个图像帧的中央区域进行人脸识别，从而可以在拍摄到多张人脸时，只对位于中央区域的核心用户的人脸进行识别和唇部特征的提取，可以减少除核心用户以外的其他用户脸部入镜带来的干扰，减少电子设备进行人脸识别和唇部特征提取的计算量，缩短响应时间。

511、根据唇部特征识别出每个唇部图像帧对应的用户口型，得到用户口型序列。

513、将用户口型序列与标准口型序列进行比对，查找用户口型序列中是否存在于标准口型序列的吻合度高于预设吻合度阈值的目标子序列；若是，执行步骤515-步骤519；若否，执行步骤521。

515、从第一图像帧子序列中确定出与目标子序列对应的第二图像帧子序列。

在本申请实施例中，目标子序列包括的用户口型是从第二图像帧子序列中识别出的。需要说明的是，当用户口型序列的序列长度与目标子序列的序列长度相同时，目标子序列与用户口型序列实质性相同，第二图像帧子序列与第一图像帧子序列实质性相同。当用户口型序列的序列长度大于目标子序列的序列长度时，目标子序列为用户口型序列中的部分区段，第二图像帧子序列为第一图像帧子序列中的部分区段。

517、确定语音信号中与第二图像帧子序列在时间上同步的语音信号段。

在本申请实施例中，语音信号段的起始时刻为第二图像帧子序列中第一个图像帧的采集时刻，语音信号段的结束时刻为第二图像帧子序列中最后一个图像帧的采集时刻。也就是说，语音信号段为核心用户朗读目标内容时采集到的语音信号。

519、确定语音信号段为有效语音信号。

521、输出用于指示用户重新朗读目标内容的提示信息。

在本申请实施例中，若执行上述的步骤513时，无法从用户口型序列中查找出目标子序列，则说明采集到的语音信号很可能不是用户朗读目标内容时发出的声音。因此，执行步骤521，以提示用户重新朗读目标内容。

在本申请实施例中，提示信息的输出形式可以包括但不限于：文字、语音、动画或者视频。

可见，在本申请公开的上述实施例中，可以根据目标内容的读音自动生成标准口型序列，无需手动设置，可以扩展应用场景。进一步的，可以根据用户对发音的掌握程度，放宽标准口型序列的生成标准，能够改善用户体验。此外，即使采集到的语音信号中既包括用户朗读目标内容时发出的声音，还包括其他声音，在本申请公开的上述实施例中，也可以准确定位出只包括用户朗读目标内容时采集到的语音信号段，可以减少环境噪声对语音识别的干扰，提高语音识别的准确率。

请一并参阅图6，图6是本申请实施例公开的一种辅助语音识别的处理装置的结构示意图。如图6所示，该装置可以包括：

获取单元601，用于获取同步采集到的语音信号以及图像帧序列；

识别单元602，用于从图像帧序列包括的图像帧中识别出用户口型，得到用户口型序列；用户口型序列包括至少一个用户口型。

在本申请实施例中，作为一种可选的实施方式，识别单元602具体可以用于对图像帧序列包括的每个图像帧进行人脸识别，确定包括唇部特征的图像帧，得到由包括唇部特征的图像帧组成的第一图像帧子序列；根据唇部特征从第一图像帧子序列包括的各个图像帧中识别出用户口型，得到用户口型序列。进一步可选的，识别单元602在进行人脸识别时，具体可以为对图像帧序列包括的每个图像帧的中央区域进行人脸识别。

比对单元603，用于将用户口型序列与标准口型序列进行比对；标准口型序列由正确朗读目标内容的标准口型组成。

确定单元604，用于在比对出用户口型序列与标准口型序列匹配时，确定语音信号为有效语音信号。

在本申请实施例中，作为一种可选的实施方式，确定单元604具体可以用于在比对出用户口型序列与标准口型序列匹配时，根据第一图像帧子序列包括的图像帧的采集时刻，从语音信号中确定出包括用户语音的语音信号段；以及，确定语音信号段为有效语音信号。

进一步可选的，当比对单元603将用户口型序列与标准口型序列进行比对，查找到用户口型序列中包括与标准口型序列的吻合度高于预设吻合度阈值的目标子序列时，可以触发确定单元604执行以下操作，以根据第一图像帧子序列包括的图像帧的采集时刻，从语音信号中确定出包括用户语音的语音信号段：

确定单元604，用于从第一图像帧子序列中确定出与目标子序列对应的第二图像帧子序列；并且，以第二图像帧子序列中第一个图像帧的采集时刻为语音信号段的起始时刻，以结第二图像帧子序列中最后一个图像帧的采集时刻为语音信号段的结束时刻，从语音信号中确定出包括用户语音的语音信号段。

实施本申请实施例公开的电子设备，可以以采集并识别用户口型，并且在比对出用户口型序列与标准口型序列匹配时，将与用户口型同步采集到的语音信号识别为有效语音信号，从而可以尽量避免将非朗读目标内容时输入的语音信号误识别为语音识别的识别对象，可以提高语音识别的准确率。进一步的，在识别有效语音时，可以精准地在语音信号中定位出只包括用户朗读目标内容时采集到的语音信号段，减少环境噪声对语音识别的干扰，提高语音识别的准确率。

请参阅图7，图7是本申请实施例公开的一种电子设备的结构示意图。如图7所示，该电子设备可以包括：

存储有可执行程序代码的存储器701；

与存储器701耦合的处理器702；

其中，处理器702调用存储器701中存储的可执行程序代码，执行本申请实施例公开的的辅助语音识别的处理方法。

需要说明的是，图7所示的移动终端还可以包括电源、输入按键、rf电路、wi-fi模块、蓝牙模块、传感器等未显示的组件，本实施例不作赘述。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行本申请实施例公开的的辅助语音识别的处理方法。

本申请实施例公开一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行本申请实施例公开的的辅助语音识别的处理方法。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(read-onlymemory，rom)、随机存储器(randomaccessmemory，ram)、可编程只读存储器(programmableread-onlymemory，prom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory，eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory，otprom)、电子抹除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory，eeprom)、只读光盘(compactdiscread-onlymemory，cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本申请实施例公开的一种辅助语音识别的处理方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。