HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种脑-机协作数字孪生强化学习控制方法及系统与流程

2021-01-19 17:01:08|253|起点商标网
一种脑-机协作数字孪生强化学习控制方法及系统与流程

本发明属于脑-机接口和人工智能综合技术领域,涉及一种脑-机协作数字孪生强化学习控制方法及系统。



背景技术:

随着机器人技术的发展,对具有仿人高级感知和认知能力、能在高度复杂环境中执行非设定任务的智能机器人需求日趋紧迫。但是仅凭人工智能技术要实现具有人类的思维推理方式、自主发现并提取特征、在线增量式学习、综合处理各种信息能力的智能机器人,当前技术还达不到。利用人-机智能融合,充分发挥人和计算机两者不同智能的优势,是实现智能机器人的重要途径。随着人-机混合智能系统所面临任务和场景的复杂化,对人体意图感知和识别提出了更高的要求,因此在人-机混合智能的研究基础之上,基于“人在回路”的脑-机协作增强智能技术被提了出来,并迅速引起了高度关注。但是在精密操控领域(例如手术机器人、特种作业机器人等领域),与肢体操控方式相比,脑控方式在稳定性和安全性上还存在风险。因此,目前在精密操控领域依然以人的肢体操控指令为主。

经过研究发现在精密操控领域仍然存在如下两个问题:(1)缺乏操控者和机器人之间信息的双向交互,无法实现对操控者意图的精密感知;(2)由于人脑会出现注意力分散、精神疲劳和脑力负荷过大等问题,因此造成脑-机混合智能系统性能变差,甚至发生危险。针对脑-机协作问题,未形成人脑智能与机器智能有效融合。针对人脑精神状态导致的脑-机系统性能变差,目前仅考虑了操控指令的单向补偿问题,缺乏脑-机之间双环路的交互机制。综上,针对“人在回路”的脑-机协作操控方法,现阶段仍存在未建立一体化的脑-机协作模型,无法有效实现信息层、指令层的深度融合,脑-机协作操控的精度、稳定性和安全性有待提高。



技术实现要素:

本发明的目的在于提供一种脑-机协作数字孪生强化学习控制方法及系统,以克服现有技术的不足。

为达到上述目的,本发明采用如下技术方案:

一种脑-机协作数字孪生强化学习控制方法,包括以下步骤:

步骤1)、构建基于数字孪生环境的脑-机协作控制模型,在数字孪生环境中,操控者给定虚拟机器人方向指令,同时采集操控者给定虚拟机器人方向指令时的脑电信号,根据采集的脑电信号给定虚拟机器人相应的速度指令;

步骤2)、虚拟机器人根据得到的方向指令和速度指令完成该方向指令和速度指令指定动作,根据指定动作的完成质量,对脑-机协作控制模型进行奖励值,完成当前时刻脑-机协作控制模型的训练;

步骤3)、重复步骤1)-步骤2),完成不同时刻下脑-机协作控制模型的训练,当对脑-机协作控制模型的相邻两次奖励值的差的绝对值小于阈值k,则完成脑-机协作控制模型的训练,反之则继续重复步骤1)-步骤2),直到脑-机协作控制模型训练完毕;

步骤4)、利用完成训练的脑-机协作控制模型实现对实体机器人的脑-机协作精准控制,从而完成脑-机协作数字孪生强化操控。

进一步的,搭建虚拟机器人数字孪生环境平台,设定虚拟机器人的可调指令,可调指令包括方向指令和速度指令;其中方向指令为的方向控制指令,由操控者通过操控装置控制;速度指令为用于控制虚拟机器人的速度控制指令,根据操控者的大脑状态得到速度指令。

进一步的,在数字孪生环境中,操控者通过虚拟控制平台给定虚拟机器人方向指令,根据操控者的脑电信号给定虚拟机器人速度指令。

进一步的,操控者通过操控装置控制虚拟机器人,此时虚拟机器人获取方向指令,同时采集操控者给定虚拟机器人方向指令时的脑电信号,根据采集的脑电信号给定虚拟机器人相应的速度指令,建立脑电信号与速度指令之间的关联,得到脑-机协作控制初步模型。

进一步的,操控者在t时刻通过操控装置发送方向指令ct给虚拟机器人;同时,采集t时刻前600ms操控者的大脑表面脑电信号,计算所提取的600ms脑电信号的微分熵特征fd、功率谱密度特征fp以及三种频带能量关系特征fp3,并将这三种特征的矩阵沿着行向量进行组合,形成能够反映大脑当前状态的多维特征数据st,根据虚拟机器人实际的速度指令建立其与脑电信号之间的关联,得到脑-机协作控制初步模型。

进一步的,虚拟机器人接收到t时刻速度指令at之后,同时结合操控者的方向指令ct,开始执行相应的动作,直到接收到下一时刻的动作at+1和操控者的方向指令ct+1后,再执行下一次的动作,直到执行完一个回合的任务;当每一回合任务完成后,记录虚拟机器人任务执行的情况,并根据任务完成质量和完成时间两个标准计算奖励rt。

进一步的,根据大脑状态st、速度指令at和奖励rt组成的数据组,更新脑-机协作控制模型。

进一步的,操控者通过操控装置,发送方向指令c给虚拟机器人,同时检测操控者脑电信号,并将脑电信号转化为速度指令a发送给虚拟机器人,虚拟机器人结合方向指令c和速度指令a执行方向指令c和速度指令a规定的任务;脑-机协作操控过程中,操控者通过观察虚拟机器人的运行状态,不断调整方向指令c,同时采集操控者的脑电信号给定相应的速度指令a。

一种脑-机协作数字孪生强化学习控制系统,包括脑电采集模块、模型训练模块和控制模块;

脑电采集模块用于获取操控者给定虚拟机器人方向指令时操控者的脑电信号,根据采集的脑电信号给定虚拟机器人相应的速度指令,并将速度指令传输至模型训练模块;模型训练模块根据得到的方向指令和速度指令完成该方向指令和速度指令指定动作,根据指定动作的完成质量,对脑-机协作控制模型进行奖励值,完成当前时刻脑-机协作控制模型的训练,控制模块根据训练得到的脑-机协作控制模型实现对实体机器人的脑-机协作精准控制。

进一步的,模型训练模块根据操控者在t时刻通过操控装置发送方向指令ct给虚拟机器人;同时,采集t时刻前600ms操控者的大脑表面脑电信号,计算所提取的600ms脑电信号的微分熵特征fd、功率谱密度特征fp以及三种频带能量关系特征fp3,并将这三种特征的矩阵沿着行向量进行组合,形成能够反映大脑当前状态的多维特征数据st,根据虚拟机器人实际的速度指令建立其与脑电信号之间的关联,得到脑-机协作控制初步模型。

与现有技术相比,本发明具有以下有益的技术效果:

本发明一种脑-机协作数字孪生强化学习控制方法,通过构建脑-机协作控制模型,数字孪生环境中,操控者通给定虚拟机器人方向指令,同时采集操控者给定虚拟机器人方向指令时的脑电信号,根据采集的脑电信号给定虚拟机器人相应的速度指令,根据得到的方向指令和速度指令完成该方向指令和速度指令指定动作,根据指定动作的完成质量,对脑-机协作控制模型进行奖励值,完成当前时刻脑-机协作控制模型的训练,通过脑-机协作的数字孪生环境,以强化学习实现脑-机之间的双环路信息交互机制,模型从虚拟到真实场景具有良好的可迁移性,实现了大脑和机器之间信息层、指令层的交互,本发明通过脑电信号检测操控者大脑状态,并根据操控者的大脑状态对机器人的指令进行补偿调控,实现精准操控,此方法使操控者和机器人协作操控过程中实现对控制算法中模型参数的更新,随着两者之间交互次数的增加,性能会不断提高,具有跨个体和跨任务的能力。相较其他脑-机协作方法,提高了鲁棒性和泛化能力,实现了脑-机之间的互适应、互增长。

进一步的,将脑电信号作为环境对象,以控制算法作为智能体对象,所提出的双环路信息交互机制,操控者通过操控装置发送操控指令给机器人,同时通过视觉、听觉信息实时地对机器人的运行状态进行监督,调整操控指令,并对发生的错误进行纠正;经过一体化的脑-机协作模型处理后,发送调控指令给机器人,主、被动环路指令协同作用于机器人,使机器人能够安全、精准、高效的执行任务。

本发明一种脑-机协作数字孪生强化学习控制系统,实现了脑-机协作的互适应、互监督和互增长,从而使机器人能够精准、安全、高效的执行任务。

附图说明

图1为本发明实施例中具体控制流程图。

图2为本发明实施例中方法流程框图。

图3为本发明实施例中脑电信号采集模块的电极布置位置示意图。

图4为本发明实施例中一体化脑-机协作模型示意图。

具体实施方式

下面结合附图对本发明做进一步详细描述:

一种脑-机协作数字孪生强化学习控制方法,包括以下步骤:

步骤1)、构建基于数字孪生环境的脑-机协作控制模型,在数字孪生环境中对脑-机协作控制模型进行训练,在数字孪生环境中,操控者通过虚拟控制平台给定虚拟机器人方向指令,同时采集操控者给定虚拟机器人方向指令时的脑电信号,根据操控者给定虚拟机器人方向指令时的脑电信号给定虚拟机器人相应的速度指令;

虚拟环境的建立:建立基于数字孪生环境的脑-机协作控制模型,在数字孪生环境中进行脑-机协作控制模型的强化学习训练;搭建虚拟机器人数字孪生环境平台,设定虚拟机器人的可调指令,可调指令包括方向指令和速度指令;其中方向指令为的方向控制指令,由操控者通过操控装置控制;速度指令为用于控制虚拟机器人的速度控制指令,根据操控者的脑电信号得到速度指令。

操控装置用于输出控制指令,包括鼠标、手柄和方向控制器。

操控者通过操控装置控制虚拟机器人,此时虚拟机器人获取方向指令,同时采集操控者给定虚拟机器人方向指令时的脑电信号,根据采集的脑电信号给定虚拟机器人相应的速度指令,建立脑电信号与速度指令之间的关联,得到脑-机协作控制初步模型;

对于虚拟机器人的速度指令控制方面,利用脑-机接口技术,计算机根据操控者的脑电信号分析大脑状态,根据大脑状态来输出控制虚拟机器人的速度指令。

操控开始,操控者在t时刻通过操控装置发送方向指令ct给虚拟机器人;同时,采集t时刻前600ms操控者的大脑表面脑电信号。其脑电帽通道位置布置符合国际10/20标准,布置电极于fp1、fp2、fz、f3、f4、f7、f8、fc1、fc2、fc5、fc6、cz、c3、c4、t3、t4、cp1、cp2、cp5、cp6、pz、p3、p4、p7、p8、po3、po4、po7、po8、oz、o1、o2位置。共计32通道的脑电信号。

计算所提取的600ms脑电信号的微分熵特征fd、功率谱密度特征fp以及三种频带能量关系特征fp3(其中fp3为:θ节律波(4-8hz)与α节律波(8-16hz)的频带能量之和除以β节律波(16-32hz)的频带能量),并将这三种特征矩阵沿着行向量进行组合,形式为[fd,fp,fp3],形成能够反映大脑当前状态的多维特征数据st;

具体的,操控者通过操控装置,发送方向指令c给虚拟机器人,同时检测操控者脑电信号,并将脑电信号转化为速度指令a发送给虚拟机器人,虚拟机器人结合方向指令c和速度指令a执行方向指令c和速度指令a规定的任务;脑-机协作操控过程中,操控者通过观察虚拟机器人的运行状态,不断调整方向指令c,同时采集操控者的脑电信号给定相应的速度指令a。

步骤2)、虚拟机器人根据得到的方向指令和速度指令完成该方向指令和速度指令指定动作,根据指定动作的完成质量,对脑-机协作控制模型进行奖励值,完成当前时刻脑-机协作控制模型的训练;

虚拟机器人接收到t时刻速度指令at之后,同时结合操控者的方向指令ct,开始执行相应的动作,直到接收到下一时刻的动作at+1和操控者的方向指令ct+1后,再执行下一次的动作,直到执行完一个回合的任务;当每一回合任务完成后,记录虚拟机器人任务执行的情况,并根据任务完成质量和完成时间两个标准计算奖励rt。

具体的,脑-机协作控制模型采用5层全连接神经网络模型。根据大脑状态st、速度指令at和奖励rt组成的数据组(st、at、rt),更新5层全连接神经网络模型参数,具体更新过程:①当奖励rt值较高时,更新脑-机协作控制模型参数之后,使下一次输入大脑状态st的情况下,输出速度指令at的概率变大;②当奖励rt值较低时,更新脑-机协作控制模型参数之后,使下一次输入大脑状态st的情况下,输出速度指令at的概率变小。根据如上过程多次训练,保证每输入一个大脑状态s时,模型所输出一个对应的速度指令a,使获得的奖励r均能稳定在一个较高的水平。

步骤3)、重复步骤1)-步骤2),完成不同时刻下脑-机协作控制模型的训练,当对脑-机协作控制模型的相邻两次奖励值差的绝对值小于阈值k,则完成脑-机协作控制模型的训练,反之则继续重复步骤1)-步骤2),直到脑-机协作控制模型训练完毕;

设定模型训练阈值k,当相邻两次奖励r的差的绝对值小于阈值k,则模型训练完毕,反之则继续训练,直到模型训练完毕。

步骤4)、利用完成训练的脑-机协作控制模型实现对实体机器人的脑-机协作精准控制,从而完成脑-机协作数字孪生强化操控。

具体的,将训练好的脑-机协作控制模型移植到实体机器人的控制器上,在操控过程中,通过数字孪生方法使真实环境与虚拟环境同步,实时修正实体机器人控制器参数。

实施例:

将训练好的模型移植到实体机器人的控制器上,实现对实体机器人的脑-机协作精准控制。同时在操控过程中,利用数字孪生技术使真实环境与虚拟环境完全同步,实时修正实体机器人控制器参数。

步骤1:搭建真实物理环境操控机器人,相较于虚拟训练平台,除被控对象为实体机器人之外,其他操作对象相同;

步骤2:操控开始,操控者在t时刻通过操控装置发送方向指令ct给实体机器人;同时,采集t时刻前600ms的大脑表面脑电信号;其脑电帽通道位置布置符合国际10/20标准,布置电极于fp1、fp2、fz、f3、f4、f7、f8、fc1、fc2、fc5、fc6、cz、c3、c4、t3、t4、cp1、cp2、cp5、cp6、pz、p3、p4、p7、p8、po3、po4、po7、po8、oz、o1、o2位置。共计32通道的脑电信号;

步骤3:计算所提取的600ms脑电信号的微分熵特征fd、功率谱密度特征fp以及三种频带能量关系特征fp3(其中fp3为:θ节律波(4-8hz)与α节律波(8-16hz)的频带能量之和除以β节律波(16-32hz)的频带能量),并将这三种特征矩阵沿着行向量进行组合,形式为[fd,fp,fp3],形成能够反映大脑当前状态的多维特征数据st。

步骤4:在训练好的脑-机协作控制模型中输入st,输出为对应时刻的动作at,并将输出动作at利用无线通讯方式传输给实体机器人;

步骤5:实体机器人接收到计算机发送的t时刻动作at,同时结合操控者的方向指令ct,开始执行相应的动作,直到接收到下一时刻计算机发来的动作at+1和操控者发来的指令ct+1后,再执行下一次的动作;直到操控任务结束。

步骤6:实体机器人执行相应的动作的同时,利用传感器将真实环境参数和实体机器人状态参数传输给数字孪生环境,使虚拟环境和真实环境同步,实时修正实体机器人控制器参数。

脑-机协作控制模型训练:

(1-1)搭建机械臂数字孪生环境平台(如图1所示),虚拟机械臂末端可调指令设定为8项(方向:前、后、左、右、上、下;速度:加速、减速),其中方向指令c由操控者通过遥杆控制,速度指令a由控制器根据操控者大脑状态控制。操控者通过操作遥杆,发送方向指令c给虚拟机械臂,控制器通过检测操控者大脑状态调整速度指令a发送给虚拟机械臂。虚拟机械臂结合方向和速度两项指令,执行机械臂末端轨迹跟踪的任务。脑-机协作操控过程中,操控者通过观察虚拟机械臂运行状态,不断调整方向指令c;同时虚拟机械臂的运行状态也会影响操控者的大脑状态(,控制器通过检测大脑状态调整虚拟机械臂的速度指令a。从而通过脑-机协作,实现对虚拟机械臂的精准操控。

(1-2)操控开始,操控者在t时刻通过操控装置发送方向指令ct给虚拟机器人。同时,采集t时刻前600ms的大脑表面脑电信号。其脑电帽通道位置布置符合国际10/20标准,布置电极于fp1、fp2、fz、f3、f4、f7、f8、fc1、fc2、fc5、fc6、cz、c3、c4、t3、t4、cp1、cp2、cp5、cp6、pz、p3、p4、p7、p8、po3、po4、po7、po8、oz、o1、o2位置(如图3所示),采集该32通道的脑电信号。该实施实例中,脑电采集设备选用32通道的博瑞康neursenw32脑电采集设备,其参考电极依据设备采用afz、cpz通道双参考电极布置方案,采样频率为1000hz,经由局域网传输至计算机。

(1-3)计算所提取的600ms脑电信号的微分熵特征fd、功率谱密度特征fp以及三种频带能量关系特征fp3(其中fp3为:θ节律波(4-8hz)与α节律波(8-16hz)的频带能量之和除以β节律波(16-32hz)的频带能量),并将这三种特征矩阵沿着行向量进行组合,形式为[fd,fp,fp3],形成能够反映大脑当前状态的多维特征数据st。

(1-4)在控制器中建立5层全连接神经网络,网络输入为t时刻的大脑状态st,经过网络训练后,输出对应时刻的2维动作数据at,即速度增加+δv,或者速度降低-δv,并将动作at传给虚拟机械臂。

(1-5)虚拟机械臂接收到t时刻速度调控指令at后,同时结合操控者的方向指令ct,开始在虚拟环境中按照相应的速度和方向移动,直到接收到下一时刻的动作at+1和操控者的方向指令ct+1后,再执行下一次的动作。

(1-6)当前回合任务完成,或者在规定时间内任务失败,即此回合任务结束。虚拟环境会反馈虚拟机械臂完成任务质量,并根据质量评分。分两种情况:①任务失败记0分;②任务完成分数由两部分组成:基础分(50分)+轨迹质量、完成时间(0-50分)。接下来将分数进行归一化处理,转化成控制器能够识别的奖励rt(正/负奖励)。

(1-7)收集n(n=5)组由大脑状态st、虚拟机械臂动作at和奖励rt组成的数据组(st、at、rt),计算其平均值(st_a、at_a、rt_a),将其输入到控制器中,采用梯度下降法更新模型的参数。

(1-8)设定模型训练阈值k,分别求t+1、t时刻的奖励函数rt+1和rt的差,如果其绝对值小于k,则判断模型训练完成,否则返回步骤(1-3),进行下一次循环,直到模型训练完成。

(1-9)将训练好的模型参数输入到控制实体机械臂的计算机中。

脑-机协作数字孪生操控:

(2-1)搭建真实物理环境操控实体机械臂,相较于虚拟训练平台,除被控对象为实体机械臂之外,其他对象相同。

(2-2)操控开始,操控者在t时刻通过操控装置发送方向指令ct给实体机械臂。同时,采集t时刻前600ms的大脑表面脑电信号。其脑电帽通道位置布置符合国际10/20标准,布置电极于fp1、fp2、fz、f3、f4、f7、f8、fc1、fc2、fc5、fc6、cz、c3、c4、t3、t4、cp1、cp2、cp5、cp6、pz、p3、p4、p7、p8、po3、po4、po7、po8、oz、o1、o2位置(如图3所示),采集该32通道的脑电信号。该实施实例中,脑电采集设备选用32通道的博瑞康neursenw32脑电采集设备,其参考电极依据设备采用afz、cpz通道双参考电极布置方案,采样频率为1000hz,经由局域网传输至计算机。

(2-3)计算所提取的600ms脑电信号的微分熵特征fd、功率谱密度特征fp以及三种频带能量关系特征fp3(其中fp3为:θ节律波(4-8hz)与α节律波(8-16hz)的频带能量之和除以β节律波(16-32hz)的频带能量),并将这三种特征矩阵沿着行向量进行组合,形式为[fd,fp,fp3],形成能够反映大脑当前状态的多维特征数据st。

(2-4)在训练好的脑-机协作控制模型中输入st,输出为对应时刻的动作at,并将输出动作at利用局域网方式传输给实体机械臂。

(2-5)实体机械臂接收到计算机发送的t时刻动作at,同时结合操控者的方向指令ct,开始执行相应的动作,直到接收到下一时刻计算机发来的动作at+1和操控者发来的指令ct+1后,再执行下一次的动作。直到操控任务结束。

(2-6)实体机械臂执行相应的动作的同时,利用传感器将真实环境参数和实体机械臂状态参数传输给数字孪生环境,使虚拟环境和真实环境同步,实时修正实体机械臂控制器参数。

以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips