HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音识别装置、电子设备和语音识别方法与流程

2021-01-28 16:01:32|264|起点商标网
语音识别装置、电子设备和语音识别方法与流程

本申请涉及人工智能技术领域,具体涉及信息流、语音技术、深度学习和芯片技术领域,尤其涉及一种语音装置、电子设备和语音识别方法。



背景技术:

随着人工智能技术的飞速发展,出现了与用户进行语音交互的电子设备,语音识别技术也逐步走向实用化和产品化,越来越多的语音识别智能软件和应用开始走入大家的日常生活,例如语音输入法,智能语音助手,车载语音交互系统等等。

现有的电子设备中用于处理语音信号的语音芯片,通过对语音信号进行处理包括回声消除、波束形成、声源定位、噪声抑制、自动控制等多个控制过程,以对语音进行识别。但是,在整个语音信号的处理过程中,现有的语音芯片的各模块均处于开启状态,从而出现功耗较大的技术问题。



技术实现要素:

本申请提供了一种语音识别装置、电子设备以及语音识别方法。

本申请第一方面实施例提供的一种语音识别装置,包括:

音频内存,用于获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号;

第一内核,用于在低功耗状态下,根据所述原始语音信号和所述参考语音信号确定是否触发第一级唤醒状态;并在所述第一级唤醒状态下,运行唤醒模型,以在所述唤醒模型根据所述原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核;

第二内核,用于在所述第二级唤醒状态下,运行语音识别模型,以对所述原始语音信号进行语音识别。

本申请第二方面实施例提供的一种电子设备,包括第一方面实施例所述的语音识别装置、麦克风和扬声器。

本申请第三方面实施例提供的一种语音识别方法,应用于语音识别装置,所述语音识别装置包括音频内存、第一内核和第二内核;其中,所述语音识别方法包括:

所述音频内存获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号;

在低功耗状态下,所述第一内核根据所述原始语音信号和所述参考语音信号确定是否触发第一级唤醒状态;

若触发所述第一级唤醒状态,则在所述第一唤醒状态下,所述第一内核运行唤醒模型,以在所述唤醒模型根据所述原始语音信号识别出唤醒时,所述第一内核触发第二级唤醒状态,并启动第二内核;

在所述第二级唤醒状态下,所述第二内核运行语音识别模型,以对所述原始语音信号进行语音识别。

上述申请中的一个实施例具有如下优点或有益效果:在音频内存获取并存储麦克风采集的原始语音信号以及扬声器播放的参考语音信号后,第一内核在低功耗状态下,根据原始语音信号和参考语音信号确定是否触发第一级唤醒状态,并在第一级唤醒状态下,运行唤醒模型,以在唤醒模型根据原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核,第二内核在第二级唤醒状态下,运行语音识别模型,以对原始语音信号进行语音识别。由此,该语音识别装置在获取到用户输入的原始语音信号后,通过逐级启用不同的部件以对原始语音信号进行语音识别,实现了在保持高性能语音识别的同时,达到了降低能耗的目的。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1为本申请实施例一提供的语音识别装置的结构示意图;

图2为本申请实施例二提供的语音识别装置的结构示意图;

图3为本申请实施例三提供的语音识别装置的结构示意图;

图4为本申请实施例四提供的语音识别装置的结构示意图;

图5为本申请实施例五提供的语音识别装置识别语音信号的交互示意图;

图6为本申请实施例六提供的电子设备的结构示意图

图7为本申请实施例七提供的语音识别方法的流程示意图;

图8为本申请实施例八提供的语音识别方法的流程示意图;

图9为本申请实施例九提供的语音识别方法的流程示意图;

图10为本申请实施例提供的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

模型波束是语音技术在工业界新的标杆,以完全的深度学习端到端的训练方法替代传统的远场信号处理方法,其识别率、唤醒率相对于传统方法都获得了大幅的提升。电子设备的语音芯片是模型波束端到端语音识别方案非常好的载体,整体方案包括模型波束端到端识别(单次识别,多次交互识别),模型波束唤醒和定位,回声消除(automaticexposurecontrol,简称aec),语音去混响(weightedpredictionerror,简称wpe),低功耗策略等。

本申请的语音识别装置在处理用户输入的语音信号时相对于现有技术的语音识别装置,在语音处理过程中,每一级启用不同的部件,实现高性能语音识别的同时,达到了降低功耗的目的。

下面参考附图描述本申请实施例的语音识别装置、电子设备以及语音识别方法。

图1为本申请实施例一提供的语音识别装置的结构示意图。

作为一种示例,本申请中的语音识别装置可以设置在任意电子设备中,其中,电子设备不限于个人电脑(personalcomputer,简称pc)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统的硬件设备。

如图1所示,该语音识别装置100,可以包括:音频内存110、第一内核120以及第二内核130。

其中,音频内存110,用于获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号。

其中,原始语音信号,可以为用户与电子设备进行语音交互时,电子设备的麦克风采集到的用户输入的语音信号;参考语音信号,可以为用户与电子设备进行语音交互时,电子设备的扬声器正在播放的语音信号。

例如,音频内存110获取到的原始语音信号和参考语音信号均可以为16bit的数字信号。

可以理解的是,用户与电子设备进行语音交互时,电子设备可能正在播放音频或者视频,从而电子设备的扬声器中可能播放有参考语音信号。当检测到用户输入语音信号时,电子设备的麦克风可以对语音信息进行语音拾取,以获取到用户输入的原始语音信号,进而,语音识别装置100可以获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号。

第一内核120,用于在低功耗状态下,根据原始语音信号和参考语音信号确定是否触发第一级唤醒状态;并在第一级唤醒状态下,运行唤醒模型,以在唤醒模型根据所述原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核。

本申请实施例中,音频内存110获取到原始语音信号和参考语音信号后,第一内核120,可以通过音频内存110获取到的原始语音信号和参考语音信号,确定语音识别装置100是否处于低功耗状态下。

在一种可能的情况下,第一内核120根据原始语音信号和参考语音信号,确定电子设备周围环境是持续有声音的,也就是说电子设备的扬声器正在播放参考语音信号,这种情况下,可以确定语音识别装置100未处于低功耗状态。

在另一种可能的情况下,第一内核120根据原始语音信号和参考语音信号,确定电子设备周围环境处于持续安静状态,例如,周围环境持续1分钟均是安静状态。也就是说电子设备的扬声器并未播放参考语音信号,这种情况下,可以确定语音识别装置100处于低功耗状态。在低功耗状态下,语音识别装置100的音频内存110继续获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号,第一内核120继续根据获取到的原始语音信号和参考语音信号,确定电子设备的周围环境是否处于安静状态。当第一内核120确定电子设备的周围环境是持续有声音的,则退出低功耗状态,并触发第一级唤醒状态。

需要说明的是,用户与电子设备进行语音交互可能是持续的过程,音频内存110可以持续地获取到麦克风采集的原始语音信息,因此,第一内核120根据原始语音信号和参考语音信号触发第一级唤醒状态后,可以保持第一级唤醒状态持续处于开启状态,以对持续获取到的原始语音信号进行识别。

本申请实施例中,第一内核120在第一级唤醒状态下,监听到用户输入的原始语音信号后,可以将原始语音信号输入唤醒模型,以根据唤醒模型的输出确定是否根据原始语音信号识别出唤醒。

在一种可能的情况下,第一内核120触发第一级唤醒状态后,在第一级唤醒状态下,第一内核120运行唤醒模型,将原始语音信号输入唤醒模型,唤醒模型并未识别出原始语音信号为唤醒。第一内核120可以将音频内存110后续获取到的原始语音信号继续输入唤醒模型,以使得唤醒模型对原始语音信号进行识别。

在另一种可能的情况下,第一内核120触发第一级唤醒状态后,在第一级唤醒状态下,第一内核120运行唤醒模型,将原始语音信号输入唤醒模型,在根据唤醒模型的输出确定识别出唤醒时,触发第二级唤醒状态,并启用第二内核130。

需要解释的是,语音识别装置100在第一级唤醒状态下,对原始语音信号进行识别以确定是否唤醒,在根据原始语音信号识别出唤醒时,触发第二级唤醒状态,以在第二级唤醒状态下对原始语音信号进行语音识别,以确定原始语音信号对应的语音信息。

第二内核130,用于在第二级唤醒状态下,运行语音识别模型,以对原始语音信号进行语音识别。

本申请实施例中,在第一内核120识别出唤醒时,触发第二级唤醒状态,并启动第二内核130后,第二内核130在第二级唤醒状态下,运行语音识别模型,对原始语音信号进行语音识别,以得到原始语音信号对应的语音信息。

本申请实施例中,语音识别模型,可以为采用大量训练样本预先训练得到的,已经学习得到了原始语音信号对应的语音特征与原始语音信号对应的语音信息之间的映射关系,因此,将原始语音信号输入语音识别模型后,能够准确识别出原始语音信号对应的语音信息。

需要说明的是,在第一内核120处于开启状态,并未触发第二级唤醒状态时,第二内核130处于关闭状态。在启用第二内核130成功后,第一内核120和第二内核130均处于开启状态。由此,通过逐级启用语音识别装置100的不同部件,实现了在保持高性能语音识别的同时,达到了降低能耗的目的。

可以理解的是,用户与电子设备进行语音交互的过程,也是信息流传递的过程,通过电子设备的麦克风采集用户输入的原始语音信号,音频内存110获取并存储原始语音信号,第一内核120在第一级唤醒状态下,运行唤醒模型,以在唤醒模型根据原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核130,第二内核130在第二级唤醒状态下,运行语音识别模型,以对原始语音信号进行语音识别。由此,实现了对语音信息的传递过程。

本申请实施例的语音识别装置,在音频内存获取并存储麦克风采集的原始语音信号以及扬声器播放的参考语音信号后,第一内核在低功耗状态下,根据原始语音信号和参考语音信号确定是否触发第一级唤醒状态,并在第一级唤醒状态下,运行唤醒模型,以在唤醒模型根据原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核,第二内核在第二级唤醒状态下,运行语音识别模型,以对原始语音信号进行语音识别。由此,该语音识别装置在获取到用户输入的原始语音信号后,通过逐级启用不同的部件以对原始语音信号进行语音识别,实现了在保持高性能语音识别的同时,达到了降低能耗的目的。

在一种可能的场景下,由于用户可能身处不同的场景当中,例如用户处于街区,现场比较嘈杂,电子设备接收到的语音中的噪声比较多,第一内核120在第一级唤醒状态下,运行唤醒模型,以使得唤醒模型根据原始语音信号识别唤醒时,可能存在误唤醒的情况。在实际使用过程中,用户与电子设备进行交互的场景可能比较复杂,特别是远场景唤醒时,为了避免存在误唤醒的情况,可以将唤醒模型分为第一级唤醒模型和第二级唤醒模型,以对识别出的唤醒词进行确认,从而避免误唤醒的情况。

在上述实施例的基础上,参见图2,图2为本申请实施例二提供的语音识别装置的结构示意图。

如图2所示,该语音识别装置100,还可以包括:第一核外内存140。

在本申请实施例的一种可能的情况下,唤醒模型可以包括第一级唤醒模型和第二级唤醒模型。

其中,第一核外内存140,用于存储第二级唤醒模型。例如,第一核外内存140的内存大小可以为1m。

对应地,第一内核120,具有核内内存121,用于采用核内内存121存储第一级唤醒模型,在第一级唤醒状态下,运行第一级唤醒模型;若第一级唤醒模型识别出唤醒词,则启用第一核外内存140,加载并运行第一核外内存140中所存储的第二级唤醒模型,以确定是否为误唤醒。

可以理解的是,在第一级唤醒状态下,第一级唤醒模型对原始语音信号进行识别,以识别出唤醒词时,可能存在误唤醒的情况。为了避免误唤醒的情况,在第一级唤醒模型识别出唤醒词后,可以启用第一核外内存140,加载并运行第一核外内存140中所存储的第二级唤醒模型,采用第二级唤醒模型对第一级唤醒模型识别出的原始语音信号再次进行识别,以避免误唤醒的情况。

在一种可能的情况下,第二级唤醒模型对原始语音信号进行识别后,仍然识别为唤醒时,则确定唤醒成功,进而触发第二级唤醒状态,并启用第二内核130,以对原始语音信号进行语音识别。

在另一种可能的情况下,第二级唤醒模型对原始语音信号进行识别后,识别为未唤醒,则不触发第二级唤醒状态,继续采用第一级唤醒模型对音频内存110获取到的原始语音信号进行识别。

需要说明的是,第一内核120和第二内核130的核内结构相同,第二内核130具有核内内存131,用于存储语音识别模型在对原始语音信号进行处理过程中相关的数据。例如,第一内核120和第二内核130的核内结构可以包括动态随机存取存储器、微处理器、指令缓存、数据缓存。由此,可以提高语音芯片的计算效率,从而可以在低功耗处理以及常规模式下更加节省功耗。

由此,相较于现有的语音识别装置不存在核内内存,导致在用户与电子设备之间进行语音交互时出现功耗过高的情况,本申请中通过在核内内存存储第一级唤醒模型,在第一核外内存存储第二级唤醒模型,在根据唤醒模型识别原始语音信号是否为唤醒时,通过双核交互,不仅提高了唤醒模型确定原始语音信号是否为唤醒时的计算效率,减少计算时间,还实现了更低功耗。

可选地,第一核外内存140,还可以用于存储回声消除程序。

第一内核120,还可以用于在第一级唤醒状态下和第二级唤醒状态下,运行第一核外内存140存储的回声消除程序,以对原始语音信号进行回声消除。

在实际使用场景中,由于空间反射或者电路不匹配等原因,可能导致第一内核120从音频内存110中获取到的原始语音信号中可能存在回声的情况。本申请中,为了提高原始语音信号的语音质量,第一内核120可以在第一级唤醒状态下和第二级唤醒状态下,运行第一核外内存140存储的回声消除程序,以对原始语音信号进行回声消除。

作为一种可能的实现方式,在对原始语音信号进行回声消除时,可以采用声学回声消除算法是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的。

由此,通过对原始语音信号进行回声消除,可以提高唤醒模型识别原始语音信号是否为唤醒以及语音识别模型对原始语音信息进行语音识别的准确率。

在实际场景下,音频内存110获取麦克风采集的原始语音信号时,还可能接收到其他声源发出的、经过其他途径传递而到达的语音信号,从而导致音频内存110获取到的原始语音信号中存在混响。

由于混响会导致语音识别模型的性能显著下降,为了减少混响对语音识别的影响,可以对原始语音信号进行去混响处理。

在一种可能的情况下,第一内核120,还可以用于在第一级唤醒状态下和第二级唤醒状态下,运行核内内存121中存储的解混响程序,以对原始语音信号进行去混响处理。由此,通过对原始语音信号进行去混响处理,能够提高原始语音信号的清晰度,还有利于提高语音识别模型的识别性能。

在一种可能的场景下,用于对原始语音信号进行语音识别的语音识别模型可以存储在第二核外内存,以使得第二级唤醒模型确定原始语音信号为唤醒时,第一内核120触发第二级唤醒状态,并启用第二核外内存,以使第二内核130运行第二核外内存中存储的语音识别模型,对原始语音信号进行语音识别。

可见,在上述实施例的基础上,参见图3,图3为本申请实施例三提供的语音识别装置的结构示意图。

如图3所示,该语音识别装置100,还可以包括:第二核外内存150。

其中,第二核外内存150,用于存储语音识别模型。例如,第二核外内存150的内存大小可以为512k。

第一内核120,还用于在第二级唤醒模型排除误唤醒时,启用第二核外内存150。

可以理解的是,在第二级唤醒模型排除误唤醒时,第一内核120确定原始语音信号为唤醒,则启用第二核外内存150,以使得第二内核130可以获取到第二核外内存150中存储的语音识别模型,以运行语音识别模型对原始语音信号进行语音识别。

由此,第一内核120在二级唤醒模型排除误唤醒时,再启动第二核外内存150,从而实现了按顺序启动语音识别装置100的各种部件,达到了降低功耗的目的。

在一种可能的情况下,语音识别模型可以为深度学习神经网络结构,对应地,第二内核130,还可以用于采用深度学习神经网络对原始语音信号进行特征提取,得到语音特征,将语音特征提供至云端服务器,以基于语音特征进行语音识别。

需要说明的是,深度学习神经网络,可以包含深度卷积神经网络、循环神经网络、transformer等神经网络,本申请中在此不做限定。

可选地,云端服务器,可以是提供各种服务的服务器,例如,云端服务器可以基于接收到的语音特征进行语音识别,还可以对电子设备提供支持的后台服务器。云端服务器可以对接收到的数据进行分析、存储和计算等处理,并将分析、存储或计算结果推送给电子设备。

其中,深度卷积神经网络主要是由输入层、卷积层、激活函数、池化层、全连接层和输出层组成。

作为一种示例,可以直接将原始语音信号输入深度卷积神经网络的输入层,通过输入层对原始语音信号进行特征提取,以得到语音特征。

可选地,采用深度学习神经网络对原始语音信号进行特征提取的过程,也就是将原始语音信号中具有辨识性的成分提取出来,然后把其他的信息扔掉,例如,背景噪声,情绪等等。由此,提高了语音识别模型对原始语音信号进行语音识别的效率。

在一种可能的情况下,第二内核130在采用深度学习神经网络对原始语音信号进行特征提取,得到语音特征后,还可以对语音特征进行压缩处理,从而减少了对将语音特征提供至云端服务器的时间,也减少了对语音特征进行语音识别时的计算量。

在上述实施例的基础上,参见图4,图4为本申请实施例四提供的语音识别装置的结构示意图。

如图4所示,该语音识别装置100,还可以包括:音频单元160。

其中,音频单元160,用于每当从音频内存110中读取到设定时长的原始语音信号和对应的参考语音信号时,触发语音中断,并将读取到的原始语音信号和参考语音信号提供至第一内核120。

其中,设定时长,可以为通过程序预先设置的时长,例如设定时长可以为8ms。

可以理解的是,音频单元160每当从音频内存110中读取到设定时长的原始语音信号和对应的参考语音信号时,可以触发语音中断,以使得第一内核120对设定时长的原始语音信号和参考语音信号进行处理。

在一种可能的情况下,音频内存110获取到的原始语音信号和对应的参考语音信息会超过设定时长,这种情况下,可以设定环形缓冲区进行存储超过设定时长的语音信号,从而避免丢帧的情况。

音频单元160从音频内存110中读取到设定时长的原始语音信号和对应的参考语音信号,可能为脉冲密度调制信号(pulsedensitymodulation,简称pdm)、时分多路复用信号(timedivisionmultiplexing,简称tdm)等形式的信号,这种情况下,音频单元160可以将pdm或tdm等形式的信号转换为16bit的脉冲编码调制信号(pulsecodemodulation,简称pcm),从而使得第一内核120对pcm形式的原始语音信号和参考语音信号进行分析处理。

在上述实施例的基础上,在一种可能的情况下,第一内核120,还可以用于在低功耗状态下,根据原始语音信号和参考语音信号,识别环境的声音强度;确定声音强度大于阈值且持续第一时长时,触发第一级唤醒状态。

可选地,在所述低功耗状态下,第一内核120获取到原始语音信号和参考语音信号后,可以根据参考语音信号识别环境的声音强度。例如,参考语音信号的幅度越大,说明环境的声音强度越大,同理,参考语音信号的幅度越小,说明环境的声音强度越小。

第一内核120在根据参考语音信号的幅度确定环境的声音强度大于阈值且持续第一时长时,触发第一级唤醒状态。其中,阈值,可以为通过程序预先设定的值。第一时长,也可以为通过程序预先设定的时长,例如,第一时长可以为1分钟、50秒等等。

需要说明的是,第一内核120触发第一级唤醒状态时,退出了低功耗状态,但是音频内存110可能继续获取到麦克风采集的原始语音信号,以及扬声器播放的参考语音信号。在一种可能的情况下,第一内核120,还可以在第一级唤醒状态,根据原始语音信号和参考语音信号,识别环境的声音强度,确定环境的声音强度小于或等于阈值,且持续第二时长时,恢复低功耗状态。其中,第二时长,也可以为通过程序预先设定的时长,例如,第二时长也可以为1分钟、50秒等等。

在另一种可能的情况下,第一内核120触发第二唤醒状态后,在第二唤醒状态下,第一内核120还可以根据原始语音信号和参考语音信号,识别环境的声音强度;确定声音强度小于或等于阈值,且持续第二时长时,恢复低功耗状态。

在又一种可能的情况下,第一内核120可以在触发第一级唤醒状态和第二级唤醒状态后,在第一级唤醒状态和第二级唤醒状态下,根据原始语音信号和参考语音信号,识别环境的声音强度,确定环境的声音强度小于或等于阈值,且持续第二时长时,恢复低功耗状态。

需要说明的是,通过第一内核120确定语音识别装置100处于低功耗状态下时,第一级唤醒状态和第二级唤醒状态均处于关闭状态,从而实现了低功耗控制的目的。

作为一种示例,参见图5,图5为本申请实施例五提供的语音识别装置识别语音信号的交互示意图。

如图5所示,用户与电子设备进行语音交互时,语音识别装置对用户输入的语音信号进行处理的过程包括以下步骤:

步骤501,音频内存110获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号。

可选地,用户与电子设备进行语音交互时,电子设备可能正在播放音频或者视频,从而电子设备的扬声器中可能播放有参考语音信号。当检测到用户输入语音信号时,电子设备的麦克风可以对语音信息进行语音拾取,以获取到用户输入的原始语音信号,进而,语音识别装置可以获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号。

步骤502,第一内核120从音频内存110获取到原始语音信号和参考语音信号,根据原始语音信号和参考语音信号确定是否处触发第一级唤醒状态。

在一种可能的情况下,第一内核120根据原始语音信号和参考语音信号,确定电子设备周围环境处于持续安静状态,例如,周围环境持续1分钟均是安静状态。也就是说电子设备的扬声器并未播放参考语音信号,这种情况下,可以确定语音识别装置100处于低功耗状态。在低功耗状态下,语音识别装置100的音频内存110继续获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号,第一内核120继续根据获取到的原始语音信号和参考语音信号,确定电子设备的周围环境是否处于安静状态。当第一内核120确定电子设备的周围环境是持续有声音的,则退出低功耗状态,并触发第一级唤醒状态。

步骤503,第一内核120在第一级唤醒状态下,运行第一级唤醒模型。

步骤504,第一级唤醒模型识别出唤醒词,则启动第一核外内存。

步骤505,第一内核120加载并运行第一核外内存中所存储的第二级唤醒模型,识别出为唤醒时,触发第二级唤醒状态,并启用第二内核130。

在第一级唤醒状态下,第一级唤醒模型对原始语音信号进行识别,以识别出唤醒词时,可能存在误唤醒的情况。为了避免误唤醒的情况,在第一级唤醒模型识别出唤醒词后,可以启用第一核外内存140,加载并运行第一核外内存140中所存储的第二级唤醒模型,采用第二级唤醒模型对第一级唤醒模型识别出的原始语音信号再次进行识别,以避免误唤醒的情况。

本申请中,第二级唤醒模型对原始语音信号进行识别后,仍然识别为唤醒时,则确定唤醒成功,进而触发第二级唤醒状态,并启用第二内核130,以对原始语音信号进行语音识别。

步骤506,第二内核130在第二级唤醒状态下,运行语音识别模型,以对原始语音信号进行语音识别。

由此,在用户与电子设备进行语音交互时,该语音芯片在获取到用户输入的原始语音信号后,通过逐级启用不同的部件以对原始语音信号进行语音识别,实现了在保持高性能语音识别的同时,达到了降低能耗的目的。

根据本申请的实施例,本申请实施例六提供了一种电子设备。本申请实施例的电子设备包括上述实施例中所述的语音识别装置、麦克风和扬声器。

作为一种示例,图6为本申请实施例六提供的电子设备的结构示意图。

如图6所示,该电子设备600,可以包括语音识别装置610、麦克风620以及扬声器630。

在上述实施例的基础上,本申请实施例提出了一种语音识别方法。

图7为本申请实施例七提供的语音识别方法的流程示意图。

如图7所示,该语音识别方法,应用于语音识别装置,所述语音识别装置包括音频内存、第一内核和第二内核,其中,语音识别方法可以包括以下步骤:

步骤701,音频内存获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号。

其中,原始语音信号,可以为用户与电子设备进行语音交互时,电子设备的麦克风采集到的用户输入的语音信号;参考语音信号,可以为用户与电子设备进行语音交互时,电子设备的扬声器正在播放的语音信号。

例如,音频内存获取到的原始语音信号和参考语音信号均可以为16bit的数字信号。

可以理解的是,用户与电子设备进行语音交互时,电子设备可能正在播放音频或者视频,从而电子设备的扬声器中可能播放有参考语音信号。当检测到用户输入语音信号时,电子设备的麦克风可以对语音信息进行语音拾取,以获取到用户输入的原始语音信号,进而,语音识别装置可以获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号。

步骤702,在低功耗状态下,第一内核根据原始语音信号和参考语音信号确定是否触发第一级唤醒状态。

本申请实施例中,音频内存获取到原始语音信号和参考语音信号后,第一内核可以通过音频内存获取到的原始语音信号和参考语音信号,确定语音识别装置是否处于低功耗状态下。

在一种可能的情况下,第一内核根据原始语音信号和参考语音信号,确定电子设备周围环境是持续有声音的,也就是说电子设备的扬声器正在播放参考语音信号,这种情况下,可以确定语音识别装置未处于低功耗状态。

在另一种可能的情况下,第一内核根据原始语音信号和参考语音信号,确定电子设备周围环境处于持续安静状态,例如,周围环境持续1分钟均是安静状态。也就是说电子设备的扬声器并未播放参考语音信号,这种情况下,可以确定语音识别装置处于低功耗状态。在低功耗状态下,语音识别装置的音频内存继续获取并存储麦克风采集的原始语音信号,以及扬声器播放的参考语音信号,第一内核继续根据获取到的原始语音信号和参考语音信号,确定电子设备的周围环境是否处于安静状态。当第一内核确定电子设备的周围环境是持续有声音的,则退出低功耗状态,并触发第一级唤醒状态。

步骤703,若触发第一级唤醒状态,则在第一唤醒状态下,第一内核运行唤醒模型,以在唤醒模型根据原始语音信号识别出唤醒时,第一内核触发第二级唤醒状态,并启动第二内核。

在一种可能的情况下,第一内核触发第一级唤醒状态后,在第一级唤醒状态下,第一内核运行唤醒模型,将原始语音信号输入唤醒模型,唤醒模型并未识别出原始语音信号为唤醒。第一内核可以将音频内存后续获取到的原始语音信号继续输入唤醒模型,以使得唤醒模型对原始语音信号进行识别。

在另一种可能的情况下,第一内核触发第一级唤醒状态后,在第一级唤醒状态下,第一内核运行唤醒模型,将原始语音信号输入唤醒模型,在根据唤醒模型的输出确定识别出唤醒时,触发第二级唤醒状态,并启用第二内核。

步骤704,在第二级唤醒状态下,第二内核运行语音识别模型,以对原始语音信号进行语音识别。

本申请实施例中,在第一内核识别出唤醒时,触发第二级唤醒状态,并启动第二内核后,第二内核在第二级唤醒状态下,运行语音识别模型,对原始语音信号进行语音识别,以得到原始语音信号对应的语音信息。

本申请实施例中,语音识别模型,可以为采用大量训练样本预先训练得到的,已经学习得到了原始语音信号对应的语音特征与原始语音信号对应的语音信息之间的映射关系,因此,将原始语音信号输入语音识别模型后,能够准确识别出原始语音信号对应的语音信息。

本申请实施例的语音识别方法,在音频内存获取并存储麦克风采集的原始语音信号以及扬声器播放的参考语音信号后,在低功耗状态下,第一内核根据原始语音信号和参考语音信号确定是否触发第一级唤醒状态,并在第一级唤醒状态下,第一内核运行唤醒模型,以在唤醒模型根据原始语音信号识别出唤醒时,触发第二级唤醒状态,并启用第二内核,第二内核在第二级唤醒状态下,运行语音识别模型,以对原始语音信号进行语音识别。由此,在获取到用户输入的原始语音信号后,通过逐级启用不同的部件以对原始语音信号进行语音识别,实现了在保持高性能语音识别的同时,达到了降低能耗的目的。

在一种可能的场景下,由于用户可能身处不同的场景当中,例如用户处于街区,现场比较嘈杂,电子设备接收到的语音中的噪声比较多,第一内核在第一级唤醒状态下,运行唤醒模型,以使得唤醒模型根据原始语音信号识别唤醒时,可能存在误唤醒的情况。在实际使用过程中,用户与电子设备进行交互的场景可能比较复杂,特别是远场景唤醒时,为了避免存在误唤醒的情况,可以将唤醒模型分为第一级唤醒模型和第二级唤醒模型,以对识别出的唤醒词进行确认,从而避免误唤醒的情况。下面结合图8进行详细介绍,图8为本申请实施例八提供的语音识别方法的流程示意图。

其中,语音识别装置还可以包括第一核外内存,第一内核还可以具有核内内存。

如图8所示,上述步骤703还可以包括以下步骤:

步骤801,在第一级唤醒状态下,第一内核运行核内内存所存储的第一级唤醒模型,以识别原始语音信号。

本申请中,在第一级唤醒状态下,第一内核运行核内内存存储第一级唤醒模型,对唤醒词进行识别,以识别原始语音信号。

步骤802,若第一级唤醒模型对原始语音信号识别出唤醒词,则第一内核启用第一核外内存。

本申请中,在第一级唤醒状态下,第一内核运行核内内存存储第一级唤醒模型,若第一级唤醒模型识别出唤醒词,则启用第一核外内存,加载并运行第一核外内存中所存储的第二级唤醒模型,以确定是否为误唤醒。

步骤803,第一内核加载并运行第一核外内存中所存储的第二级唤醒模型识别原始语音信号,以确定是否为误唤醒。

在一种可能的情况下,第二级唤醒模型对原始语音信号进行识别后,仍然识别为唤醒时,则确定此次唤醒成功,不是误唤醒。

本申请中,在第二级唤醒模型排除误唤醒时,第一内核确定识别出唤醒,则触发第二级唤醒状态,并启用第二内核,以使第二内核加载并运行第二核外内存中存储的语音识别模型。

其中,语音识别模型为深度学习神经网络结构,第二内核加载并运行第二核外内存中存储的所述深度学习神经网络,以对原始语音信号进行特征提取,得到语音特征;其中,语音特征用于云端服务器进行语音识别。

第二内核在采用深度学习神经网络对原始语音信号进行特征提取,得到语音特征后,还可以对语音特征进行压缩处理,从而减少了对将语音特征提供至云端服务器的时间,也减少了对语音特征进行语音识别时的计算量。

在另一种可能的情况下,第二级唤醒模型对原始语音信号进行识别后,识别为未唤醒,则不触发第二级唤醒状态,继续采用第一级唤醒模型对音频内存获取到的原始语音信号进行识别。

在实际使用场景中,由于空间反射或者电路不匹配等原因,可能导致第一内核从音频内存中获取到的原始语音信号中可能存在回声的情况。本申请中,为了提高原始语音信号的语音质量,第一内核可以在第一级唤醒状态下和第二级唤醒状态下,运行第一核外内存存储的回声消除程序,以对原始语音信号进行回声消除。

作为一种可能的实现方式,在对原始语音信号进行回声消除时,可以采用声学回声消除算法是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的。

在实际场景下,音频内存获取麦克风采集的原始语音信号时,还可能接收到其他声源发出的、经过其他途径传递而到达的语音信号,从而导致音频内存获取到的原始语音信号中存在混响。

由于混响会导致语音识别模型的性能显著下降,为了减少混响对语音识别的影响,可以对原始语音信号进行去混响处理。

在一种可能的情况下,可以在第一级唤醒状态下和第二级唤醒状态下,第一内核运行核内内存存储的解混响程序,以对原始语音信号进行去混响处理。由此,通过对原始语音信号进行去混响处理,能够提高原始语音信号的清晰度,还有利于提高语音识别模型的识别性能。

由此,相较于现有的语音识别装置不存在核内内存,导致在用户与电子设备之间进行语音交互时出现功耗过高的情况,本申请中通过在核内内存存储第一级唤醒模型,在第一核外内存存储第二级唤醒模型,在根据唤醒模型识别原始语音信号是否为唤醒时,通过双核交互,不仅提高了唤醒模型确定原始语音信号是否为唤醒时的计算效率,减少计算时间,还实现了更低功耗。

作为本申请的一种可能的情况,语音识别装置还可以包括音频单元,每当从音频内存中读取到设定时长的原始语音信号和对应的参考语音信号时,音频单元触发语音中断,并将读取到的原始语音信号和参考语音信号提供至第一内核。

在上述实施例的基础上,由于用户可能身处不同的场景当中,例如用户处于街区,现场比较嘈杂,电子设备接收到的语音中的噪声比较多,因此,可以在低功耗状态下,识别环境的声音强度,以确定是否触发第一级唤醒状态。下面结合图9进行详细介绍,图9为本申请实施例九提供的语音识别方法的流程示意图。

如图9所示,该语音识别方法,还可以包括以下步骤:

步骤901,在低功耗状态下,第一内核根据所述原始语音信号和所述参考语音信号,识别环境的声音强度。

可选地,在低功耗状态下,第一内核获取到原始语音信号和参考语音信号后,可以根据参考语音信号识别环境的声音强度。例如,参考语音信号的幅度越大,说明环境的声音强度越大,同理,参考语音信号的幅度越小,说明环境的声音强度越小。

在一种可能的情况下,第一内核可以在低功耗状态下,根据原始语音信号和参考语音信号,识别环境的声音强度,以确定当前环境是嘈杂环境还是安静环境。

步骤902,若确定声音强度大于阈值且持续第一时长,则第一内核触发第一级唤醒状态。

在一种可能的情况下,在低功耗状态下,第一内核根据原始语音信号和参考语音信号,识别环境的声音强度,确定声音强度大于阈值且持续第一时长时,触发第一级唤醒状态。

第一内核在根据参考语音信号的幅度确定环境的声音强度大于阈值且持续第一时长时,触发第一级唤醒状态。其中,阈值,可以为通过程序预先设定的值。第一时长,也可以为通过程序预先设定的时长,例如,第一时长可以为1分钟、50秒等等。

需要说明的是,第一内核触发第一级唤醒状态时,退出了低功耗状态,但是音频内存可能继续获取到麦克风采集的原始语音信号,以及扬声器播放的参考语音信号。

在一种可能的情况下,在第一级唤醒状态下,第一内核还可以根据原始语音信号和参考语音信号,识别环境的声音强度,确定环境的声音强度小于或等于阈值,且持续第二时长时,恢复低功耗状态。其中,第二时长,也可以为通过程序预先设定的时长,例如,第二时长也可以为1分钟、50秒等等。

在另一种可能的情况下,第一内核触发第二唤醒状态后,在第二唤醒状态下,第一内核还可以根据原始语音信号和参考语音信号,识别环境的声音强度;确定声音强度小于或等于阈值,且持续第二时长时,恢复低功耗状态。

在又一种可能的情况下,第一内核可以在触发第一级唤醒状态和第二级唤醒状态后,在第一级唤醒状态和第二级唤醒状态下,根据原始语音信号和参考语音信号,识别环境的声音强度,确定环境的声音强度小于或等于阈值,且持续第二时长时,恢复低功耗状态。

由此,通过第一内核确定语音识别装置处于低功耗状态下时,第一级唤醒状态和第二级唤醒状态均处于关闭状态,从而实现了低功耗控制的目的。

如图10所示,图10为本申请实施例提供的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。

存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理。

存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips