HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

设备的控制方法、装置、存储介质及电子装置与流程

2021-01-28 17:01:19|311|起点商标网
设备的控制方法、装置、存储介质及电子装置与流程

本发明涉及通信领域,具体而言,涉及一种设备的控制方法、装置、存储介质及电子装置。



背景技术:

智能家居目前的主要入口是智能音箱,而语音识别以及基于识别的语音执行对应的操作(例如,执行唤醒操作,下面以唤醒为例进行说明)则是智能音箱的关键技术。其中,语音唤醒和识别技术是当今人机交互领域的一项关键技术。虽然识别算法至关重要,但是好的训练数据更是重中之重。训练数据覆盖的范围越广,越接近应用场景,训练出的模型越准确,唤醒和识别率越高。

在相关技术中,目前语音唤醒和识别采用的算法模型主要是基于kaldi、htk(hiddenmarkovmodeltoolkit,隐马尔科夫模型工具箱)等开源工具得到,这种算法的好处是通用性较强,适用范围较广,然而由于训练数据不足,例如:方言数据、口音数据、童音数据、不同语速等问题,在具体的应用场景,唤醒率和识别率较低。为此,通常采用两种途径进行优化:一是从算法层面,针对算法本身进行优化,但是技术难度大;二是从数据层面,收集大量的面向特定应用场景的带标注的音频数据,反复训练和调整模型参数,但是需要高昂的标注费用,且数据采集和标注耗时长。

由此可知,在相关技术中存在语音识别率低进而导致操作执行准确率低的问题。

针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种设备的控制方法、装置、存储介质及电子装置,以至少解决相关技术中存在的语音识别率低进而导致操作执行准确率低的问题。

根据本发明的一个实施例,提供了一种设备的控制方法,包括:获取输入的目标语音数据;使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令,其中,所述第一模型为使用多组第一训练数据通过机器学习训练出的,所述多组第一训练数据中的每组数据包括:语音数据和与语音数据对应的控制指令,在所述多组第一训练数据中包括有第一组数据和第二组数据,所述第二组数据中包括的第二语音数据为对所述第一组数据中包括的第一语音数据进行变声处理后得到的语音数据,且所述第二组数据中包括的控制指令与所述第一组数据中包括的控制指令相同;控制目标设备执行与所述目标控制指令对应的操作。

根据本发明的另一个实施例,提供了一种设备的控制装置,包括:获取模块,用于获取输入的目标语音数据;识别模块,用于使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令,其中,所述第一模型为使用多组第一训练数据通过机器学习训练出的,所述多组第一训练数据中的每组数据包括:语音数据和与语音数据对应的控制指令,在所述多组第一训练数据中包括有第一组数据和第二组数据,所述第二组数据中包括的第二语音数据为对所述第一组数据中包括的第一语音数据进行变声处理后得到的语音数据,且所述第二组数据中包括的控制指令与所述第一组数据中包括的控制指令相同;控制模块,用于控制目标设备执行与所述目标控制指令对应的操作。

根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明,利用训练好的模型识别输入的目标语音数据,确定与目标语音数据对应的目标控制指令,控制设备执行与目标控制指令对应的操作,从而实现语音识别和以及对应操作的执行,其中,在进行模型训练时所采用的训练数据中包括有对已有训练数据进行变声处理后所得到的训练数据,即,不需要额外采集数据,通过对已有数据的变声处理即可获得不同语速、不同音调、不同口音等的训练数据,增加了音频数据的覆盖范围,提高语音识别系统的适应性,提高语音识别和操作执行的准确率。因此,可以解决相关技术中存在的语音识别率低进而导致操作执行准确率低的问题,提高了语音识别率以及操作执行的准确率,提升了用户体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的一种设备的控制方法的移动终端的硬件结构框图;

图2是根据本发明实施例的设备的控制方法的流程图;

图3是根据本发明可选实施例的音频数据变声方法示意图;

图4是根据本发明具体实施例的语音唤醒和识别的处理流程图;

图5是根据本发明实施例的设备的控制装置的结构框图一;

图6是根据本发明实施例的设备的控制装置的结构框图二。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种设备的控制方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的设备的控制方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(networkinterfacecontroller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radiofrequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种设备的控制方法,图2是根据本发明实施例的设备的控制方法的流程图,如图2所示,该流程包括如下步骤:

步骤s202,获取输入的目标语音数据;

步骤s204,使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令,其中,所述第一模型为使用多组第一训练数据通过机器学习训练出的,所述多组第一训练数据中的每组数据包括:语音数据和与语音数据对应的控制指令,在所述多组第一训练数据中包括有第一组数据和第二组数据,所述第二组数据中包括的第二语音数据为对所述第一组数据中包括的第一语音数据进行变声处理后得到的语音数据,且所述第二组数据中包括的控制指令与所述第一组数据中包括的控制指令相同;

步骤s206,控制目标设备执行与所述目标控制指令对应的操作。

在上述实施例中,目标语音数据可以是用户发出的语音、通过播放设备播放的语音等,第一模型可以为声学模型,语音数据对应的控制指令可以为开启或关闭目标设备(例如,打开或关闭电视、音箱、空调等),调节目标设备的温度(例如,将热水器温度调节到42摄氏度、将空调温度调节到26摄氏度等),查询路线,导航,查询资料等的指令。其中,目标设备可以是电视、空调、热水器、机器人、智能家居用品、导航设备等具有语音交互功能的设备。

可选地,上述步骤的执行主体可以是后台处理器,或者其他的具备类似处理能力的设备,还可以是至少集成有声音获取设备以及数据处理设备的机器,其中,声音获取设备可以包括麦克风等声音采集模块,数据处理设备可以包括计算机等终端,但不限于此。

通过本发明,利用训练好的模型识别输入的目标语音数据,确定与目标语音数据对应的目标控制指令,控制设备执行与目标控制指令对应的操作,从而实现语音识别和以及对应操作的执行,其中,在进行模型训练时所采用的训练数据中包括有对已有训练数据进行变声处理后所得到的训练数据,即,不需要额外采集数据,通过对已有数据的变声处理即可获得不同语速、不同音调、不同口音等的训练数据,增加了音频数据的覆盖范围,提高语音识别系统的适应性,提高语音识别和操作执行的准确率。因此,可以解决相关技术中存在的语音识别率低进而导致操作执行准确率低的问题,提高了语音识别率以及操作执行的准确率,提升了用户体验。

在一个可选的实施例中,在使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令之前,所述方法还包括:将所述第一语音数据转换成满足目标条件的所述第二语音数据,其中,所述目标条件包括以下至少之一:预定语速、预定音调、预定口音;确定与所述第一语音数据对应的控制指令;构造包括所述第二语音数据以及与所述第一语音数据对应的控制指令的所述第二组数据。在本实施例中,可以根据目标条件将已有的训练数据转换成不同口音,不同语调、不同语速的音频数据,从而扩展了训练数据的覆盖范围,通过增加变声数据,可以提高训练后的模型的性能。

在一个可选的实施例中,将所述第一语音数据转换成满足目标条件的所述第二语音数据包括:使用第二模型对所述第一语音数据进行处理,以得到音素对齐后的第一处理数据,其中,所述第二模型为使用多组第二训练数据通过机器学习训练出的,所述多组第二训练数据中的每组数据包括:语音数据和音素对齐后的语音数据;根据口音发音字典,替换所述第一处理数据中的目标音素,以得到第二处理数据;利用滤波器对所述第二处理数据进行平滑处理,以得到第三处理数据;利用目标算法对所述第三处理数据进行语速和/或语调的调整,以得到满足所述目标条件的所述第二语音数据。在本实施例中,第二模型可以为hmm-dnn(hiddenmarkovmodel-deepneuralnetworks,隐马尔可夫模型-深度神经网络)语音识别系统,目标算法可以采用soundtouch的wsola(waveformsimilarityoverlap-add,音频变时不变调处理)算法。音频数据变声方法示意图可参见附图3,如图3所示,首先训练一个好的hmm-dnn语音识别系统,用于音素边界对齐,然后利用hmm-dnn识别系统,对输入的音频数据进行识别处理,得到音素对齐后的音频数据(对应于上述第一处理数据),再根据口音发音字典,替换第二步得到的音素对齐后的音频数据中对应的音素,得到第二处理数据,利用滤波器平滑音素替换后的音频数据(对应于上述第二处理数据),最后利用soundtouch的wsola算法对变声后的数据(对应于上述第三处理数据)进行语速和语调的调整得到第二语音数据。需要说明的是,若不需要口音数据,则可以将训练数据直接经过wsola算法进行变速和变调处理以得到第二语音数据。

在一个可选的实施例中,使用第一模型对所述目标语音数据进行识别包括:对所述目标语音数据的长度与预先存储的语音数据的长度进行比较;在确定比较结果为所述目标语音数据的长度与所述预先存储的语音数据的长度的差值小于预定阈值时,使用所述第一模型对所述目标语音数据进行识别。在本实施例中,当获取的语音数据的长度过长,即,大于预定阈值时,可以将该语音数据丢弃,以免不必要的计算负担。其中,预定阈值可以设置为20%(该取值仅是一种可选实施例,具体也可以根据目标设备的不同设置不同的预定阈值,例如,还可以设置为15%,10%等)。

在一个可选的实施例中,在使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令之前,所述方法还包括:获取多组所述第一训练数据;使用多组所述第一训练数据通过所述机器学习对第一初始模型进行训练,以得到所述第一模型。在本实施例中,第一初始模型可以为深度神经网络(deepneuralnetworks,简称为dnn)模型,使用多组第一训练数据训练dnn模型得到第一模型,利用经过训练得到的第一模型可以准确的识别目标语音数据,与确定目标语音数据对应的控制指令。

在一个可选的实施例中,在使用第二模型对所述第一语音数据进行处理,以得到音素对齐后的第一处理数据之前,所述方法还包括:获取多组所述第二训练数据;使用多组所述第二训练数据通过所述机器学习对第二初始模型进行训练,以得到所述第二模型。在本实施例中,第二初始模型可以为hmm-dnn模型,通过对hmm-dnn模型进行训练得到第二模型,再利用第二模型对第一语音数据进行处理,得到音素对齐的第一处理数据。

下面结合具体实施例对如何控制设备进行说明:

图4是根据本发明具体实施例的语音唤醒和识别的处理流程图,如图4所示,本发明具体实施例中的语音唤醒和识别的处理流程包括如下步骤:

步骤s402,语音增强,即信号增强。其中,拾取的连续语音流(对应于上述目标语音数据)通过一个增强模块完成语音的降噪增强。

步骤s404,端点检测(voiceactivitydetection,简称为vad)模块持续监听增强后的语音流,切分出人声。其目标是滤除环境噪声及静音部分,检测出人声的起止位置,进而获得有用的语音片段供后端识别模块进一步处理。其中,端点检测模块,采用了自学习的参数修改策略,即根据系统根据周围环境信噪比(signalnoiserate,简称为snr)的变化自动调整参数配置方案,因此,在端点检测部分即可尽可能准确滤除非语音部分,同时保留有效语音部分。另外,针对语音唤醒,如果端点检测模块检测到的语音片段(对应于上述目标语音数据)与激活词(对应于上述预先存储的语音数据)相比过短或过长,在该模块就强制丢弃,以免给后端的解码模块带来不必要的计算负担。

步骤s406,特征提取。提取语音的特征,例如,感知线性预测(perceptuallinearpredictive,简称为plp)特征、梅尔倒谱系数(melfrequencycepstrumcoefficient,简称为mfcc)输送给解码器。

步骤s408,对提取的语音特征进行解码。解码器联合声学模型进行音素边界的软对齐工作。

步骤s410,针对唤醒,利用解码器的输出结果,从多个角度计算得到不同种类的置信度,最后利用支持向量机(supportvectormachine,,简称为svm)模块完成最终的唤醒词判别任务。

需要说明的是,步骤s402-s410是主要的识别过程,可以由识别模块执行。

步骤s412,准备训练数据。

步骤s414,将训练数据通过变声工具转换成不同语速、不同音调、不同口音的训练数据,扩展数据丰富性。

步骤s416,提取特征,提取语音的特征,例如,plp特征、mfcc。

步骤s418,状态对齐,采用训练好的gmm-hmm(gaussianmixturemodel-hiddenmarkovmodel,高斯混合模型-隐马尔可夫模型)对训练数据进行音素边界对齐。

步骤s420,获取状态先验概率。

步骤s422,模型训练,采用上述音素边界对齐的数据训练一个神经网络,例如dnn,得到声学模型。其中,该步骤可以在步骤s416后执行,也可以在步骤s418后执行。

需要说明的是,步骤s412-步骤s422是主要的训练过程,可以由训练模块执行。执行步骤s420、步骤s422后执行步骤s408,实现将训练得到的数据与获取的语音数据进行对比,识别出获取到的语音数据中的控制指令。

在前述实施例中,针对已有数据进行变声处理得到不同语速、不同语调、不同口音的数据,使得音频覆盖范围更广,适应性更强,从而从训练数据层面上提高模型的识别性能,只需在现有算法模型的基础上进行训练,调整模型结构和参数,即可提高唤醒和识别的准确率,适用于短期内解决场景应用问题,或缺乏新算法开发能力和训练数据的情况。另外,模型可以在开源工具的基础上搭建,因此在保证系统性能的情况下,可以降低技术复杂度。还可以直接采用变声方法对现有数据进行处理,扩充数据的覆盖范围,不需要额外采集和标注数据,降低了成本。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种设备的控制装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的设备的控制装置的结构框图一,如图5所示,该装置包括:

获取模块52,用于获取输入的目标语音数据;

识别模块54,用于使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令,其中,所述第一模型为使用多组第一训练数据通过机器学习训练出的,所述多组第一训练数据中的每组数据包括:语音数据和与语音数据对应的控制指令,在所述多组第一训练数据中包括有第一组数据和第二组数据,所述第二组数据中包括的第二语音数据为对所述第一组数据中包括的第一语音数据进行变声处理后得到的语音数据,且所述第二组数据中包括的控制指令与所述第一组数据中包括的控制指令相同;

控制模块56,用于控制目标设备执行与所述目标控制指令对应的操作。

图6是根据本发明实施例的设备的控制装置的结构框图二,如图6所示,该装置除包括图5所示的所有模块外,还包括:

转换模块62,用于在使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令之前,将所述第一语音数据转换成满足目标条件的所述第二语音数据,其中,所述目标条件包括以下至少之一:预定语速、预定音调、预定口音;

确定模块64,用于确定与所述第一语音数据对应的控制指令;

构造模块66,用于构造包括所述第二语音数据以及与所述第一语音数据对应的控制指令的所述第二组数据。

在一个可选的实施例中,所述转换模块62包括:第一处理单元,用于使用第二模型对所述第一语音数据进行处理,以得到音素对齐后的第一处理数据,其中,所述第二模型为使用多组第二训练数据通过机器学习训练出的,所述多组第二训练数据中的每组数据包括:语音数据和音素对齐后的语音数据;替换单元,用于根据口音发音字典,替换所述第一处理数据中的目标音素,以得到第二处理数据;第二处理单元,用于利用滤波器对所述第二处理数据进行平滑处理,以得到第三处理数据;调整单元,用于利用目标算法对所述第三处理数据进行语速和/或语调的调整,以得到满足所述目标条件的所述第二语音数据。

在一个可选的实施例中,所述分析模块54包括:比较单元,用于对所述目标语音数据的长度与预先存储的语音数据的长度进行比较;分析单元,用于在确定比较结果为所述目标语音数据的长度与所述预先存储的语音数据的长度的差值小于预定阈值时,使用所述第一模型对所述目标语音数据进行识别。

在一个可选的实施例中,所述装置可以用于在使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令之前:获取多组所述第一训练数据;使用多组所述第一训练数据通过所述机器学习对第一初始模型进行训练,以得到所述第一模型。

在一个可选的实施例中,所述装置还可以用于在使用第二模型对所述第一语音数据进行处理,以得到音素对齐后的第一处理数据之前,获取多组所述第二训练数据;使用多组所述第二训练数据通过所述机器学习对第二初始模型进行训练,以得到所述第二模型。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:

s1,获取输入的目标语音数据;

s2,使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令,其中,所述第一模型为使用多组第一训练数据通过机器学习训练出的,所述多组第一训练数据中的每组数据包括:语音数据和与语音数据对应的控制指令,在所述多组第一训练数据中包括有第一组数据和第二组数据,所述第二组数据中包括的第二语音数据为对所述第一组数据中包括的第一语音数据进行变声处理后得到的语音数据,且所述第二组数据中包括的控制指令与所述第一组数据中包括的控制指令相同;

s3,控制目标设备执行与所述目标控制指令对应的操作。

可选地,在本实施例中,上述计算机可读存储介质可以包括但不限于:u盘、只读存储器(read-onlymemory,简称为rom)、随机存取存储器(randomaccessmemory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

s1,获取输入的目标语音数据;

s2,使用第一模型对所述目标语音数据进行识别,确定与所述目标语音数据对应的目标控制指令,其中,所述第一模型为使用多组第一训练数据通过机器学习训练出的,所述多组第一训练数据中的每组数据包括:语音数据和与语音数据对应的控制指令,在所述多组第一训练数据中包括有第一组数据和第二组数据,所述第二组数据中包括的第二语音数据为对所述第一组数据中包括的第一语音数据进行变声处理后得到的语音数据,且所述第二组数据中包括的控制指令与所述第一组数据中包括的控制指令相同;

s3,控制目标设备执行与所述目标控制指令对应的操作。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips