助听语音识别方法、装置及助听设备与流程

2021-01-28 16:01:05|

237|

起点商标网

本公开涉及数据处理技术领域，尤其涉及一种助听语音识别方法、装置及助听设备。

背景技术：

现有的辅助听力设备都是通过纯粹的音频输入、处理与输出单元组成。对于助听器，大部分的使用场景为听清人与人的对话内容。然而，单纯的音频处理在对有多个人声声源的场景里面，无法真正区分当前使用者想要听到的音频来源，导致助听的适用性较差。

可见，现有的辅助听力设备存在适用性较差的技术问题。

技术实现要素：

有鉴于此，本公开实施例提供一种助听语音识别方法、装置及助听设备，至少部分解决现有技术中存在的问题。

第一方面，本公开实施例提供了一种助听语音识别方法，应用于助听设备，所述方法包括：

采集预设区域内的音频数据，以及，采集包含目标对象的人脸信息的视频数据，其中，所述目标对象位于所述预设区域内，所述音频数据至少包括所述预设区域内的目标对象发出的音频数据；

根据所述视频数据，提取所述目标对象的唇语数据；

筛选所述音频数据与所述唇语数据中相匹配的目标内容；

将所述目标内容转换为助听语音输出。

根据本公开实施例的一种具体实现方式，所述根据所述视频数据提取唇语数据，筛选所述音频数据与所述唇语数据中相匹配的目标内容的步骤，包括：

将所述音频数据和所述视频数据均输入预先训练好的识别模型；

经所述识别模型对所述视频数据进行关键点分析和唇语转换处理，获取所述唇语数据；

将所述音频数据转换为语言数据；

提取所述语言数据和所述唇语数据中相同的语言数据，作为所述目标内容。

根据本公开实施例的一种具体实现方式，所述提取所述语言数据和所述唇语数据内容相同的语言数据，作为所述目标内容的步骤，包括：

确定所述语言数据对应的第一时间序列，以及，确定所述唇语数据对应的第二时间序列；

查找同一时间节点上的语言数据和唇语数据相同的所述目标内容。

根据本公开实施例的一种具体实现方式，所述将所述音频数据和所述视频数据均输入预先训练好的识别模型的步骤之前，所述方法还包括：

布置一训练区域，其中，所述训练区域包括固定设置的所述助听设备、第一样本人员和至少一个第二样本人员，所述助听设备的摄像区域朝向所述第一样本人员的人脸，且所述助听设备的摄像区域不朝向所述第二样本人员的人脸；

开启所述助听设备，并控制所述第一样本人员和所述第二样本人员发出音频；

获取所述训练区域内的视频样本数据和音频样本数据；

将所述视频样本数据和所述音频样本数据输入基础神经网络，训练得到所述识别模型。

根据本公开实施例的一种具体实现方式，所述助听设备包括头箍、摄像头、收音装置和扬声器，所述收音装置和所述扬声器均位于所述头箍两侧的耳部对应区域，所述摄像头的摄像区域朝向所述头箍的眼部视野范围。

第二方面，本公开实施例提供了一种助听语音识别装置，应用于助听设备，所述装置包括：

采集模块，用于采集预设区域内的音频数据，以及，采集包含目标对象的人脸信息的视频数据，其中，所述目标对象位于所述预设区域内，所述音频数据至少包括所述预设区域内的目标对象发出的音频数据；

提取模块，用于根据所述视频数据，提取所述目标对象的唇语数据；

筛选模块，用于筛选所述音频数据与所述唇语数据中相匹配的目标内容；

输出模块，用于将所述目标内容转换为助听语音输出。

根据本公开实施例的一种具体实现方式，所述筛选模块用于：

将所述音频数据和所述视频数据均输入预先训练好的识别模型；

经所述识别模型对所述视频数据进行关键点分析和唇语转换处理，获取所述唇语数据；

将所述音频数据转换为语言数据；

提取所述语言数据和所述唇语数据中相同的语言数据，作为所述目标内容。

根据本公开实施例的一种具体实现方式，所述筛选模块具体用于：

确定所述语言数据对应的第一时间序列，以及，确定所述唇语数据对应的第二时间序列；

查找同一时间节点上的语言数据和唇语数据相同的所述目标内容。

第三方面，本公开实施例提供了一种助听设备，包括处理器、头箍、摄像头、收音装置和扬声器，所述处理器与所述摄像头、所述收音装置和所述扬声器均连接，所述收音装置和所述扬声器均位于所述头箍两侧的耳部对应区域，所述摄像头的摄像区域朝向所述头箍的眼部视野范围；其中，

所述处理器用于执行第一方面中任一项所述的助听语音识别方法。

本公开实施例中的助听语音识别方案，应用于助听设备的助听语音识别过程中。通过采集预设区域内的音频数据和包括目标对象的人脸信息的视频数据，依据视频数据提取目标对象的唇语，将音频数据与唇语数据中相匹配的目标内容作为目标对象发出的语音，最后将得到的目标内容转换为助听语音输出。这样，在提取音频数据的基础上增加了发音对象的唇语数据的分析，并进行一致性分析，以通过视觉引导的方式集中识别输出助听设备主要面对的发音对象的语音，提高助听语音识别的准确性和适用性。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种助听语音识别方法的流程示意图；

图2为本公开实施例提供的一种助听设备的结构示意图；

图3为本公开实施例提供的助听语音识别方法的应用场景程示意图；

图4为本公开实施例提供的助听语音识别方法的部分流程示意图；

图5为本公开实施例提供的一种助听语音识别装置的结构示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

参见图1，为本公开实施例提供的一种助听语音识别方法的流程示意图，主要应用于视觉引导的神经网络人声提升领域(visual-guidedneuralnetworkbasedspeechenhancement)。如图1所示，所述方法主要包括以下步骤：

s101，采集预设区域内的音频数据，以及，采集包含目标对象的人脸信息的视频数据，其中，所述目标对象位于所述预设区域内，所述音频数据至少包括所述预设区域内的目标对象发出的音频数据；

本实施例提供的助听语音识别方法，应用于助听设备。如图2所示，所述助听设备200可以包括处理器(图2中未示出)、头箍210、摄像头220、收音装置230和扬声器(图2中未示出)，所述处理器与所述摄像头210、所述收音装置220和所述扬声器均连接，所述收音装置220和所述扬声器均位于所述头箍210两侧的耳部对应区域，所述摄像头210的摄像区域朝向所述头箍210的眼部视野范围。其中，所描述的头箍为所述助听设备的主要支撑部件，用于支撑其他的功能部件，头箍可以不为常规的头箍，其他类似日常的头戴式耳机的结构，头箍两侧的耳部对应区域为将用户佩戴头箍时耳部接触的区域，头箍的眼部视野区域为用户佩戴头箍时正前方的扇形视野区域，该扇形视野区域通常以用户两眼的中间点为正中心形成的扇形区域，扇形区域的角度可以为中间点所在半径的两侧锐角范围内，例如(-30°，+30°)。

助听语音识别方法的应用场景可以如图3所示，其中，r0为助听设备的佩戴对象，r1为所述佩戴对象所面向或者正在交谈的目标对象。佩戴对象佩戴助听设备，助听设备的收音装置230的收音区域可以表示为z1，摄像头220的摄像区域则可以表示为z2。收音装置230能够采集z1区域内的音频数据，包括r1和r2发出的音频数据。摄像头能够采集z2区域内的视频数据，包括z2区域内的r1的人脸信息。收音装置230和摄像头220受处理器控制，且将采集的音频数据和视频数据发送给处理器进行处理。

在实际使用过程中，助听设备开启，收音装置采集所在的预设区域内的音频数据，该预设区域内存在面向助听设备佩戴用户的目标对象，该目标对象位于摄像头的摄像区域内，摄像头同时采集包含目标对象的人脸信息的视频数据。

s102，根据所述视频数据，提取所述目标对象的唇语数据；

上述步骤获取的视频数据，包含目标对象的人脸信息。通过关键点分析可以提取目标对象的唇部关键点特征，将所述唇部关键点特征进行唇语分析，即可获取所述目标对象的唇语数据。通过图像关键点特征分析识别唇语的具体实施过程是较为成熟的技术，此处不再赘述。

s103，筛选所述音频数据与所述唇语数据中相匹配的目标内容；

上述步骤已经得到收音装置采集的音频数据，再结合视频数据提取出的目标对象的唇语数据，通过一致性匹配，找出音频数据与唇语数据中相匹配的目标内容，该部分目标内容既存在收音装置采集的音频数据中，又存在于分析所得的目标对象的唇语数据中，则可以认为该部分内容数据即为目标对象发出的音频。音频数据中存在的不与唇语数据匹配的内容，可以认定为预设区域内的其他用户发出的音频，例如侧向或者背向佩戴用户发出的音频，为避免干扰可以直接忽略。

s104，将所述目标内容转换为助听语音输出。

依据上述步骤筛选出目标对象确定发出的音频对应的目标内容后，即可将目标内容转化为助听语音输出。输出助听语音的格式可以有多种，例如根据预设的助听设备的音量、发音风格、用户特定的助听等格式输出音频。预设的助听设备的音量可以根据助听设备佩戴用户的听力需求来设置，发音风格也可以根据用户适用或者期待的风格或者与目标对象匹配的风格来设置，用户特定的助听补偿则可以由用户自定义设置，不作限定。

根据本公开实施例的一种具体实现方式，所述根据所述视频数据提取唇语数据，筛选所述音频数据与所述唇语数据中相匹配的目标内容的步骤，包括：

将所述音频数据和所述视频数据均输入预先训练好的识别模型；

经所述识别模型对所述视频数据进行关键点分析和唇语转换处理，获取所述唇语数据；

将所述音频数据转换为语言数据；

提取所述语言数据和所述唇语数据中相同的语言数据，作为所述目标内容。

本实施方式中，限定唇语提取和数据匹配的操作，由预先训练好的识别模型来实现。直接将提取的音频数据和视频数据分别输入识别模型，识别模型中的一条支路用于对视频数据进行唇部关键点分析和唇语转换处理，获得唇语数据，识别模型的另一条支路用于将音频数据转换为语言数据。将上述两条支路的输出作为一致性比对层的输入，该层的输出即为所需要的目标内容。

进一步的，所述提取所述语言数据和所述唇语数据内容相同的语言数据，作为所述目标内容的步骤，包括：

确定所述语言数据对应的第一时间序列，以及，确定所述唇语数据对应的第二时间序列；

查找同一时间节点上的语言数据和唇语数据相同的所述目标内容。

本实施方式中，进一步限定语言数据和唇语数据在时间序列上的同步性，即仅保留在同一时间节点上保持一致性的语言数据和唇语数据，进一步提高助听语言识别的准确性。

需要说明的是，在实际使用过程中，为保证助听器佩戴用户能够获取的助听语音与其面向对象的唇语尽可能接近，设定较小的采集和语音识别周期，以使得助听设备在采集到目标对象的唇语数据后能尽快地将对应的助听语音输出给佩戴用户，提升用户体验。

根据本公开实施例的一种具体实现方式，所述将所述音频数据和所述视频数据均输入预先训练好的识别模型的步骤之前，所述方法还可以包括：

s401，布置一训练区域，其中，所述训练区域包括固定设置的所述助听设备、第一样本人员和至少一个第二样本人员，所述助听设备的摄像区域朝向所述第一样本人员的人脸，且所述助听设备的摄像区域不朝向所述第二样本人员的人脸；

训练区域可以如图3所示，助听设备佩戴在中间用户r0的头部，第一样本人员为r1，第二样本人员为r2，z1为助听设备的收音区域，z2为摄像头的摄像区域。当然，考虑到样本训练时的人力成本，第一样本人员r1、第二样本人员r2均可以由假人或者其他发音设备来代替，例如，面向助听设备的第一样本人员r1由包含人脸的视频设备来代替，第二样本人员r2则可以由音频设备来代替即可。

此外，r0作为下还可以另外设置一个可升降旋转底座(图3中未示出)，可以调整r0及其所佩戴的目标用户的朝向。

s402，开启所述助听设备，并控制所述第一样本人员和所述第二样本人员发出音频；

训练开始时，第一样本人员和第二样本人员在当前站立位置开始说话，r0配戴的收声设备开始录音。r0将随机地旋转到某个真人站立位置，高度随机调节，高度调节范围为正常人类的身高范围，摄像头将开始录像，收声设备开始录音。当然，发音的样本人员也可以由一个屏幕上播放人说话的视频代替。

s403，获取所述训练区域内的视频样本数据和音频样本数据；

在模型训练阶段，首先将摄像头录下的视频进行预处理，预处理主要为人脸关键点检测，特别是与嘴唇相关的关键点。

s404，将所述视频样本数据和所述音频样本数据输入基础神经网络，训练得到所述识别模型。

模型训练时，训练输入为当前视频中最靠近画面中线的人脸/嘴唇关键点与假人头上的收声设备录下的音频，训练目标为人脸/嘴唇关键点相对应的收声设备录下的音频。通过这样，建立了一个深度学习模型，将人的朝向经过视觉引导，判断出人真正想听到的声音来源，从而达到人声定向增强的效果，解决在多人环境中无法真正听清想要注意的对话。

在模型部署阶段，将在传统的助听器上增加一个摄像头，此时，将摄像头得到的视频经过人脸关键点检测，与助听器本身的麦克风得到的声音一同输入到训练好的模型，得到人声定向增强的声音输出。

综上所述，本公开实施例提供的助听语音识别方法，通过采集预设区域内的音频数据和包括目标对象的人脸信息的视频数据，依据视频数据提取目标对象的唇语，将音频数据与唇语数据中相匹配的目标内容作为目标对象发出的语音，最后将得到的目标内容转换为助听语音输出。这样，在提取音频数据的基础上增加了发音对象的唇语数据的分析，并进行一致性分析，以通过视觉引导的方式集中识别输出助听设备主要面对的发音对象的语音，提高助听语音识别的准确性和适用性。

与上面的方法实施例相对应，本公开实施例提供了一种助听语音识别装置，应用于助听设备。如图5所示，所述助听语音识别装置50包括：

采集模块501，用于采集预设区域内的音频数据，以及，采集包含目标对象的人脸信息的视频数据，其中，所述目标对象位于所述预设区域内，所述音频数据至少包括所述预设区域内的目标对象发出的音频数据；

提取模块502，用于根据所述视频数据，提取所述目标对象的唇语数据；筛选模块503，用于筛选所述音频数据与所述唇语数据中相匹配的目标内容；

输出模块504，用于将所述目标内容转换为助听语音输出。

根据本公开实施例的一种具体实现方式，所述筛选模块503用于：

将所述音频数据和所述视频数据均输入预先训练好的识别模型；

经所述识别模型对所述视频数据进行关键点分析和唇语转换处理，获取所述唇语数据；

将所述音频数据转换为语言数据；

提取所述语言数据和所述唇语数据中相同的语言数据，作为所述目标内容。

根据本公开实施例的一种具体实现方式，所述筛选模块503具体用于：

确定所述语言数据对应的第一时间序列，以及，确定所述唇语数据对应的第二时间序列；

查找同一时间节点上的语言数据和唇语数据相同的所述目标内容。

图5所示装置可以对应的执行上述方法实施例中的内容，本实施例未详细描述的部分，参照上述方法实施例中记载的内容，在此不再赘述。

此外，继续参见图2，本公开实施例提供了一种助听设备200，包括处理器、头箍210、摄像头220、收音装置230和扬声器，所述处理器与所述摄像头220、所述收音装置230和所述扬声器均连接，所述收音装置230和所述扬声器均位于所述头箍210两侧的耳部对应区域，所述摄像头的摄像区域朝向所述头箍的眼部视野范围；其中，

所述处理器用于执行上述实施例所述的助听语音识别方法。

图2所示助听设备可以对应的执行上述方法实施例中的内容，本实施例未详细描述的部分，参照上述方法实施例中记载的内容，在此不再赘述。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。