一种机器人指令识别方法、装置及电子设备和存储介质与流程
本申请涉及机器人技术领域,更具体地说,涉及一种机器人指令识别方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术:
机器人的动作指令一般依靠文本的形式或者语音的形式输入。从语音中提取动作指令需要考虑音素、声调等语音特征。在相关技术中,语音控制包括以下几种:一是将语音通过语音识别技术转换成文本然后再从中提取动作指令,这种方案思路简单直接但需要庞大的语音数据集支持,而庞大的数据集需要耗费更多的人工;二是设计一些特定的动作指令短语语音,当机器人检测到这些语音时就做出相应的动作,这种方案需要的数据集很少,但在现实情况中的交互性很差,只能识别特定少数的动作指令短语语音。除此之外,以上的语音识别方法由于受到音素、声调、环境等因素的影响,识别的准确率普遍不高。
因此,如何提高识别语音指令的准确率是本领域技术人员需要解决的技术问题。
技术实现要素:
本申请的目的在于提供一种机器人指令识别方法、装置及一种电子设备和一种计算机可读存储介质,提高了识别语音指令的准确率。
为实现上述目的,本申请提供了一种机器人指令识别方法,包括:
获取训练视频和所述训练视频对应的语音片段,并确定所述训练视频对应的动作类型;
从所述训练视频中提取视频特征,并从所述语音片段中提取语音特征;
基于所述视频特征、所述语音特征和所述动作类型训练神经网络,以便利用训练完成的神经网络进行指令识别。
其中,从所述训练视频中提取视频特征,包括:
将所述训练视频以预设采样间隔输入双流三维卷积神经网络中以便提取所述训练视频的视频特征。
其中,从所述语音片段中提取语音特征,包括:
将所述语音片段转换为mfcc特征,将所述mfcc特征输入长短期记忆神经网络中以便提取所述语音片段对应的语音特征。
其中,所述神经网络包括所述视频特征对应的第一全连接层、所述语音特征对应的第二全连接层和lstm+selfattention网络;
相应的,所述基于所述视频特征、所述语音特征和所述动作类型训练神经网络,包括:
将所述视频特征输入所述第一全连接层中得到第一特征向量,将所述语音特征输入所述第二全连接层中得到第二特征向量;
将所述第一特征向量和所述第二特征向量拼接为中间特征向量,利用所述中间特征向量和所述动作类型训练所述神经网络。
其中,所述利用训练完成的神经网络进行指令识别,包括:
获取目标视频和所述目标视频对应的目标语音片段;
从所述目标视频中提取目标视频特征,并从所述目标语音片段中提取目标语音特征;
将所述目标视频特征和所述目标语音特征输入训练完成的神经网络中以便识别所述目标语音片段对应的指令。
为实现上述目的,本申请提供了一种机器人指令识别装置,包括:
获取模块,用于获取训练视频和所述训练视频对应的语音片段,并确定所述训练视频对应的动作类型;
提取模块,用于从所述训练视频中提取视频特征,并从所述语音片段中提取语音特征;
训练模块,用于基于所述视频特征、所述语音特征和所述动作类型训练神经网络;
识别模块,用于利用训练完成的神经网络进行指令识别。
其中,所述神经网络包括所述视频特征对应的第一全连接层、所述语音特征对应的第二全连接层和lstm+selfattention网络;
相应的,所述训练模块包括:
输入单元,用于将所述视频特征输入所述第一全连接层中得到第一特征向量,将所述语音特征输入所述第二全连接层中得到第二特征向量;
训练单元,用于将所述第一特征向量和所述第二特征向量拼接为中间特征向量,利用所述中间特征向量和所述动作类型训练所述神经网络。
其中,所述识别模块包括:
获取单元,用于获取目标视频和所述目标视频对应的目标语音片段;
第三提取单元,用于从所述目标视频中提取目标视频特征,并从所述目标语音片段中提取目标语音特征;
识别单元,用于将所述目标视频特征和所述目标语音特征输入训练完成的神经网络中以便识别所述目标语音片段对应的指令。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述机器人指令识别方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述机器人指令识别方法的步骤。
通过以上方案可知,本申请提供的一种机器人指令识别方法,包括:获取训练视频和所述训练视频对应的语音片段,并确定所述训练视频对应的动作类型;从所述训练视频中提取视频特征,并从所述语音片段中提取语音特征;基于所述视频特征、所述语音特征和所述动作类型训练神经网络,以便利用训练完成的神经网络进行指令识别。
本申请提供的机器人指令识别方法,同时提取视频特征和语音特征,将两者进行拼接进行神经网络的训练,以利用训练完成的神经网络进行指令识别。本申请提供的机器人指令识别方法,所需的语音和视频数据量小,不需要中间转换为文本再提取指令,利用视频特征辅助语音特征,提高了语音识别的准确率。本申请还公开了一种机器人指令识别装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种机器人指令识别方法的流程图;
图2为根据一示例性实施例示出的一种机器人指令识别装置的结构图;
图3为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种机器人指令识别方法,提高了识别语音指令的准确率。
参见图1,根据一示例性实施例示出的一种机器人指令识别方法的流程图,如图1所示,包括:
s101:获取训练视频和所述训练视频对应的语音片段,并确定所述训练视频对应的动作类型;
在具体实施中,获取训练视频和其对应的语音片段,标注训练视频对应的动作类型。
s102:从所述训练视频中提取视频特征,并从所述语音片段中提取语音特征;
在本步骤中,同时提取训练视频中的视频特征和语音片段中的语音特征,以便后续步骤训练神经网络。作为一种可行的实施方式,从所述训练视频中提取视频特征,包括:将所述训练视频以预设采样间隔输入双流三维卷积神经网络中以便提取所述训练视频的视频特征。在具体实施中,提取视频特征的过程是利用一些已经预训练过的现有的模型,将一段连续的视频分帧输入模型中得到对应的视频特征。由于模型已经被预训练过,所以仅需要再进行少量的视频训练即可得到一个高准确率的模型。此处可以采用基于光流的双流3d卷积神经网络,也可以使用其他的卷积神经网络,将视频段输入到双流三维卷积神经网络中以便提取所述训练视频的视频特征。
作为一种可行的实施方式,从所述语音片段中提取语音特征,包括:将所述语音片段转换为mfcc特征,将所述mfcc特征输入长短期记忆神经网络中以便提取所述语音片段对应的语音特征。在具体实施中,将语音片段转换成mfcc特征(梅尔倒谱系数),此特征的优点是符合人耳听觉特性,更加鲁棒。然后将mfcc特征形式的语音数据输入至长短期记忆神经网络中以便提取所述语音片段对应的语音特征,可以加入注意力机制(attention)层以提高效果。
s103:基于所述视频特征、所述语音特征和所述动作类型训练神经网络,以便利用训练完成的神经网络进行指令识别。
在本步骤中,利用标注的动作类型和上一步骤提取的视频特征、语音特征训练神经网络,训练完成的神经网络进行用于指令识别。优选的,所述神经网络包括所述视频特征对应的第一全连接层、所述语音特征对应的第二全连接层和lstm+selfattention网络,所述基于所述视频特征、所述语音特征和所述动作类型训练神经网络的步骤包括:将所述视频特征输入所述第一全连接层中得到第一特征向量,将所述语音特征输入所述第二全连接层中得到第二特征向量;将所述第一特征向量和所述第二特征向量拼接为中间特征向量,利用所述中间特征向量和所述动作类型训练所述神经网络。
在具体实施中,由于音频特征和视频特征相差巨大,因此将视频特征和音频特征分别通过一个全连接层,以减少两者的差距。将经过全连接成的音频特征和视频特征进行拼接,然后输入三层的lstm+selfattention网络进行训练。
在预测阶段,直接将视频和音频输入到整体模型中识别出所对应的动作。即所述利用训练完成的神经网络进行指令识别的步骤包括:获取目标视频和所述目标视频对应的目标语音片段;从所述目标视频中提取目标视频特征,并从所述目标语音片段中提取目标语音特征;将所述目标视频特征和所述目标语音特征输入训练完成的神经网络中以便识别所述目标语音片段对应的指令。
本申请实施例提供的机器人指令识别方法,同时提取视频特征和语音特征,将两者进行拼接进行神经网络的训练,以利用训练完成的神经网络进行指令识别。本申请实施例提供的机器人指令识别方法,所需的语音和视频数据量小,不需要中间转换为文本再提取指令,利用视频特征辅助语音特征,提高了语音识别的准确率。
下面介绍本申请提供的一种应用实施例,具体可以包括以下步骤:
步骤1:将部分视频数据逐帧输入至双流3d神经网络中进行视频模型的训练
步骤2:将部分音频数据逐帧输入至lstm+attention语音模型中进行音频模型的训练
步骤3:将步骤1和步骤2得到的特征融合后输入到三层的lstm+selfattention网络进行训练,重复本步骤直到得到一个好的模型。
步骤4:完善整个模型(补充特征提取模块),将测试或者预测的数据输入至步骤3训练完成的模型中,得到结果,完成识别。
可见,本实施例所需的语音和视频数据量小,无需设计特定的动作指令短语,利用视频的特征辅助识别提高准确率。
下面对本申请实施例提供的一种机器人指令识别装置进行介绍,下文描述的一种机器人指令识别装置与上文描述的一种机器人指令识别方法可以相互参照。
参见图2,根据一示例性实施例示出的一种机器人指令识别装置的结构图,如图2所示,包括:
获取模块201,用于获取训练视频和所述训练视频对应的语音片段,并确定所述训练视频对应的动作类型;
提取模块202,用于从所述训练视频中提取视频特征,并从所述语音片段中提取语音特征;
训练模块203,用于基于所述视频特征、所述语音特征和所述动作类型训练神经网络;
识别模块204,用于利用训练完成的神经网络进行指令识别。
本申请实施例提供的机器人指令识别装置,同时提取视频特征和语音特征,将两者进行拼接进行神经网络的训练,以利用训练完成的神经网络进行指令识别。本申请实施例提供的机器人指令识别装置,所需的语音和视频数据量小,不需要中间转换为文本再提取指令,利用视频特征辅助语音特征,提高了语音识别的准确率。
在上述实施例的基础上,作为一种优选实施方式,所述提取模块202包括:
第一提取单元,用于将所述训练视频以预设采样间隔输入双流三维卷积神经网络中以便提取所述训练视频的视频特征;
第一提取单元,用于将所述语音片段转换为mfcc特征,将所述mfcc特征输入长短期记忆神经网络中以便提取所述语音片段对应的语音特征。
在上述实施例的基础上,作为一种优选实施方式,所述神经网络包括所述视频特征对应的第一全连接层、所述语音特征对应的第二全连接层和lstm+selfattention网络;
相应的,所述训练模块203包括:
输入单元,用于将所述视频特征输入所述第一全连接层中得到第一特征向量,将所述语音特征输入所述第二全连接层中得到第二特征向量;
训练单元,用于将所述第一特征向量和所述第二特征向量拼接为中间特征向量,利用所述中间特征向量和所述动作类型训练所述神经网络。
在上述实施例的基础上,作为一种优选实施方式,所述识别模块204包括:
获取单元,用于获取目标视频和所述目标视频对应的目标语音片段;
第三提取单元,用于从所述目标视频中提取目标视频特征,并从所述目标语音片段中提取目标语音特征;
识别单元,用于将所述目标视频特征和所述目标语音特征输入训练完成的神经网络中以便识别所述目标语音片段对应的指令。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种电子设备,参见图3,本申请实施例提供的一种电子设备300的结构图,如图3所示,可以包括处理器11和存储器12。该电子设备300还可以包括多媒体组件13,输入/输出(i/o)接口14,以及通信组件15中的一者或多者。
其中,处理器11用于控制该电子设备300的整体操作,以完成上述的机器人指令识别方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammableread-onlymemory,简称eprom),可编程只读存储器(programmableread-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口14为处理器11和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备300与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(nearfieldcommunication,简称nfc),2g、3g或4g,或它们中的一种或几种的组合,因此相应的该通信组件15可以包括:wi-fi模块,蓝牙模块,nfc模块。
在一示例性实施例中,电子设备300可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit,简称asic)、数字信号处理器(digitalsignalprocessor,简称dsp)、数字信号处理设备(digitalsignalprocessingdevice,简称dspd)、可编程逻辑器件(programmablelogicdevice,简称pld)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的机器人指令识别方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述机器人指令识别方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器12,上述程序指令可由电子设备300的处理器11执行以完成上述的机器人指令识别方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除