HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种基于强化学习的混合动力汽车能量管理方法与流程

2021-02-03 13:02:12|262|起点商标网
一种基于强化学习的混合动力汽车能量管理方法与流程

[0001]
本发明涉及混合动力汽车控制技术领域,尤其是涉及一种基于强化学习的混合动力汽车在线能量管理方法。


背景技术:

[0002]
为节约资源,减轻环境污染,实现节能减排,混合动力汽车成为当今汽车工业发展的重要方向之一,作为混合动力汽车的关键控制技术,能量管理策略直接影响了汽车的燃油经济性,成为了混合动力系统的研究重点。
[0003]
近年来,对混合动力汽车能量管理策略的研究,主要可分为两类。一类是基于规则的控制算法,如基于逻辑门限和模糊逻辑控制算法,基于规则的控制算法逻辑清晰、计算迅速,但优化效果有限。另一类是基于最优化理论的控制算法,有基于全局优化的动态规划算法和庞特里亚金极小值原理,也有基于实时优化的等效燃油消耗最小算法和模型预测控制算法等。全局优化算法优化虽然效果显著,但计算量较大,且需预知路况,难以写入混合动力控制器进行实车应用;实时优化算法能够在行车过程中进行实时计算,但优化效果仍有较大提升空间。
[0004]
中国专利202010090351.1公开了一种混合动力汽车能量管理方法和系统,采用马尔科夫模型预测混合动力汽车下一时刻的车速,根据车速确定需求功率、电池功率,再据此建立能量管理模型,对混合动力汽车的能量进行管理。但是,该方法是一种实时采集数据实时进行优化的能量管理策略,存在着众多能量管理策略所拥有的通病:计算量大,需要的迭代时间长,难以兼顾实时性和最优解,要么降低采样频率,要么减少迭代次数,优化效果显然会下降,难以在实车上进行应用。


技术实现要素:

[0005]
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的混合动力汽车能量管理方法,基于强化学习得到混合动力汽车在不同循环工况下的能量管理策略并写入混合动力汽车的微型控制器,在汽车行驶时只需查表就可以快速找到当前状态下的最优控制动作,速度快,能够满足目前甚至未来的混合动力汽车状态监测的采样频率。
[0006]
本发明的目的可以通过以下技术方案来实现:
[0007]
一种基于强化学习的混合动力汽车能量管理方法,包括以下步骤:
[0008]
s1:基于强化学习中的q-学习算法进行混合动力汽车在不同循环工况下的能量管理优化,得到混合动力汽车在不同循环工况下的能量管理策略;
[0009]
s2:将混合动力汽车在不同循环工况下的能量管理策略写入混合动力汽车的微型控制器;
[0010]
s3:确定混合动力汽车的当前循环工况,混合动力汽车的数据采集系统获取混合动力汽车的当前驾驶参数,并将当前驾驶参数传输至混合动力汽车的微型控制器,微型控
制器基于当前循环工况下的能量管理策略得到控制动作,并将控制动作传输至混合动力汽车的整车控制器;
[0011]
s4:混合动力汽车的整车控制器根据控制动作调整混合动力汽车的动力系统。
[0012]
进一步的,所述步骤s1包括以下步骤:
[0013]
s101:确定混合动力汽车的多种循环工况,得到循环工况表run[run1,run2,run3,

,run
f
](f>0);
[0014]
s102:选定一个循环工况并将它从循环工况表中移除,生成状态变量s,状态变量s由n(n>0)个不同的状态组成,状态变量s具体为混合动力汽车在循环工况下的驾驶参数;生成动作变量a,动作变量a由m(m>0)个不同的动作组成,动作变量a具体为混合动力汽车在循环工况下的控制动作;生成一个n行m列的q表,q表中的q值表示智能体在状态s
i
(n≥i>0)下执行动作a
j
(m≥j>0)的未来奖励期望q(s
i
,a
j
),所有的q值均设为0;
[0015]
s103:智能体位于初始状态,所述初始状态为混合动力汽车在循环工况下的初始驾驶参数;
[0016]
s104:智能体确定当前所在的状态s
i
,选择一个动作a
j
,执行动作a
j
后智能体转移至状态s
p
,根据奖励函数r(s
i
,a
j
)计算智能体从状态s
i
转移至状态s
p
的奖励值r,根据q值更新公式计算智能体在状态s
i
下执行动作a
j
的未来奖励期望q(s
i
,a
j
),更新并保存q表;
[0017]
s105:重复执行步骤s104,直至执行时间大于等于循环工况的时间长度t;
[0018]
s106:重复执行步骤s103,直至执行次数大于等于预设置的最大迭代次数m,最终得到的q表即混合动力汽车在循环工况下的能量管理策略;
[0019]
s107:重复执行步骤s102,直至循环工况表中的所有循环工况均被移除。
[0020]
更进一步的,所述步骤s102中,状态变量s具体为混合动力汽车在循环工况下的驾驶参数,驾驶参数包括车辆的需求功率p
req
、车辆的车速v和动力电池的荷电状态soc,动作变量a具体为混合动力汽车在循环工况下的控制动作,控制动作包括发动机的转矩t
e
和发动机的转速n
e

[0021]
更进一步的,所述步骤s104中,智能体基于ε-贪婪原则和经验选择模块选择动作,所述ε-贪婪原则具体为智能体以概率ε随机选择一个动作,以概率(1-ε)选择当前状态下对应最大q值的动作,所述经验选择模块具体为根据奖励函数的实际取值预设置奖励阈值r0,当执行动作后获取的奖励值r大于奖励阈值r0时,计算并更新q值。
[0022]
更进一步的,所述步骤s104中,奖励函数r(s
i
,a
j
)的具体公式为:
[0023]
r=β1f
oil
+β2(soc-soc
tar
)
[0024]
公式中,β1为油耗系数,f
oil
为燃油消耗量,soc为动力电池的荷电状态,soc
tar
为动力电池的目标荷电状态,β2为soc系数。
[0025]
更进一步的,所述步骤s104中,q值更新公式具体为:
[0026]
q(s
i
,a
j
)=(1-μ)q(s
i
,a
j
)+μ[r+γmax
a
q(s
p
,a)]
[0027]
公式中,μ为学习率(0≤μ≤1),r为智能体从状态s
i
转移至状态s
p
的奖励值r,γ为折扣因子(0≤γ≤1),max
a
q(s
p
,a)为在状态s
p
时所能观测到的最大q值。
[0028]
更进一步的,所述步骤s3包括以下步骤:
[0029]
s301:确定混合动力汽车的当前循环工况,混合动力汽车的数据采集系统获取混合动力汽车在当前循环工况下的实时驾驶参数,生成混合动力汽车的当前状态s0,将当前
状态s0传输至混合动力汽车的微型控制器;
[0030]
s302:微型控制器在当前循环工况对应的q表中找到与当前状态s0最接近的状态s
h

[0031]
s303:选择q表中在状态s
h
下对应最大q值的动作a
k
,并将动作a
k
作为控制动作传输至混合动力汽车的整车控制器。
[0032]
更进一步的,所述步骤s302中,最接近的状态s
h
为q表中与当前状态s0的欧几里得距离最小的状态。
[0033]
更进一步的,所述步骤s302中,基于最短距离搜索算法找到与当前状态s0最接近的状态s
h
,包括以下步骤:
[0034]
s3021:遍历q表中的全部状态,将不同状态中的车辆的需求功率p
req
按大小排序,与当前状态s0中的车辆的需求功率p
req 0
对比,得到与p
req 0
最接近的p
req a
和p
req a+1
(p
req a
≤p
req 0
≤p
req a+1
);将不同状态中的车辆的车速v按大小排序,与当前状态s0中的车辆的车速v0对比,得到与v0最接近的v
b
和v
b+1
(v
b
≤v0≤v
b+1
);将不同状态中的动力电池的荷电状态soc按大小排序,与当前状态s0中的动力电池的荷电状态soc对比,得到与soc0最接近的soc
c
和soc
c+1
(soc
c
≤soc0≤soc
c+1
);
[0035]
s3022:将p
req a
、p
req a+1
、v
b
、v
b+1
、soc
c
和soc
c+1
随机组合,得到8个较近状态:s
h1
={p
req a
,v
b
,soc
c
}、s
h2
={p
req a
,v
b
,soc
c+1
}、s
h3
={p
req a
,v
b+1
,soc
c
}、s
h4
={p
req a
,v
b+1
,soc
c+1
}、s
h5
={p
req a+1
,v
b
,soc
c
}、s
h6
={p
req a+1
,v
b
,soc
c+1
}、s
h7
={p
req a+1
,v
b+1
,soc
c
}、s
h8
={p
req a+1
,v
b+1
,soc
c+1
};
[0036]
s3023:分别计算当前状态s0与8个较近状态的欧几里得距离,找到与当前状态s0的欧几里得距离最小的较近状态,该较近状态即为q表中与当前状态s0最接近的状态s
h

[0037]
进一步的,所述步骤s4中,混合动力汽车的动力系统包括发动机和电机。
[0038]
与现有技术相比,本发明具有以下有益效果:
[0039]
(1)基于强化学习得到混合动力汽车在不同循环工况下的能量管理策略并写入混合动力汽车的微型控制器,在汽车行驶时只需查表就可以快速找到当前状态下的最优控制动作,速度快,能够满足目前甚至未来的混合动力汽车状态监测的采样频率。
[0040]
(2)本方法适用于各类构型的混合动力汽车,适用范围广,不受采样频率和迭代次数的限制,优化效果显著。
[0041]
(3)强化学习是马尔科夫方法的升级,引入了许多新的概念,算法框架更新颖,基于强化学习中的q-学习架构,智能体通过尝试和错误搜索过程学习如何建立从输入状态、优化控制动作和最大化奖励三者之间得映射关系,确定哪些行为动作有助于获得最大的回报,通过智能体在交互环境中不断学习,得到混合动力汽车在各个状态下的最优发动机转速及转矩分配策略。
[0042]
(4)在应用中,引入状态对比模块,对实车状态信号与微型控制器中q表的预设状态进行对比,通过最短距离搜索算法迅速识别当前状态下对应最大q值的动作,并通过整车控制器执行该最优转矩分配策略,实现混合动力汽车在线能量管理,缩短了计算时间,效率更高。
[0043]
(5)在学习策略中引入了经验选择模块,学习较好的经验,遗忘较差的经验,能够进一步提升强化学习的优化结果。
附图说明
[0044]
图1为本发明的流程图;
[0045]
图2为实施例中混合动力汽车整车模型的系统结构图;
[0046]
图3为实施例中强化学习算法的框架图;
[0047]
图4为实施例中混合动力汽车基于q-学习进行能量管理优化的流程图;
[0048]
图5为实施例中混合动力汽车在实际行驶时进行能量管理的流程图;
[0049]
附图标记:1、数据采集系统,2、微型控制器,3、整车控制器,4、发动机,5、电机,6、传动系统。
具体实施方式
[0050]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0051]
实施例1:
[0052]
一种基于强化学习的混合动力汽车能量管理方法,适用于不同构型的混合动力汽车,如图1所示,首先基于强化学习q-学习算法进行混合动力汽车在不同循环工况下的能量管理优化,再将优化得到的能量管理策略写入混合动力汽车的微型控制器,就可以离线进行混合动力汽车的能量管理。
[0053]
基于matlab/simulink等平台建立混合动力汽车整车模型,如图2所示,包括数据采集系统1、微型控制器2、整车控制器3、发动机4、电机5及包括车轮在内的传动系统6,还可以根据仿真需要,设计驾驶员模型、发动机模型、电池模型、电机模型、动力耦合装置模型、车辆基本部件模型等。
[0054]
一种基于强化学习的混合动力汽车能量管理方法,包括以下步骤:
[0055]
s1:基于强化学习中的q-学习算法进行混合动力汽车在不同循环工况下的能量管理优化,得到混合动力汽车在不同循环工况下的能量管理策略,算法架构如图3所示,算法流程如图4所示。
[0056]
s101:确定混合动力汽车的多种循环工况,如nedc工况、wltp工况、cltc工况等,得到循环工况表run[run1,run2,run3,

,run
f
](f>0)。
[0057]
s102:选定一个循环工况并将它从循环工况表中移除,以nedc工况为例进行说明。
[0058]
生成状态变量s,s={p
req
,v,soc},将状态变量s离散化得到30个不同的、等间距的状态{s1,s2,s3,

,s
30
},其中,车辆的需求功率p
req
、车辆的车速v和动力电池的荷电状态soc的最小值均为0,车辆的需求功率p
req
的最大值为最大需求功率,车辆的车速v的最大值为nedc工况下的最高车速,动力电池的荷电状态soc的最大值为1。
[0059]
生成动作变量a,a={t
e
,n
e
},将动作变量a离散化得到50个不同的、等间距的动作{a1,a2,a3,

,a
50
},其中,发动机的转矩t
e
和发动机的转速n
e
的最小值均为0,发动机的转矩t
e
的最大值为发动机最大输出扭矩,发动机的转速n
e
的最大值为发动机最高转速。
[0060]
如果在强化学习算法执行时所使用的计算机算力较大,可以将状态变量s和动作变量a离散化为更多个不同的、等间距的状态和动作,足够多的离散的、不同的、等间距的状态和动作可以无限逼近连续的状态和动作,只要计算机算力允许,可以无限逼近混合动力
汽车的采样频率,甚至是连续采样。
[0061]
生成一个n行m列的q表,q表中的q值表示智能体在状态s
i
(n≥i>0)下执行动作a
j
(m≥j>0)的未来奖励期望q(s
i
,a
j
),所有的q值均设为0;
[0062]
s103:智能体位于初始状态,初始状态为混合动力汽车在nedc工况开始时的车辆的需求功率p
req
、车辆的车速v和动力电池的荷电状态soc;
[0063]
s104:智能体确定当前所在的状态s
i
,基于ε-贪婪原则和经验选择模块选择动作,ε-贪婪原则具体为智能体以概率ε随机选择一个动作,以概率(1-ε)选择当前状态下对应最大q值的动作,经验选择模块具体为根据奖励函数的实际取值预设置奖励阈值r0,当执行动作后获取的奖励值r大于奖励阈值r0时,计算并更新q值。
[0064]
选定动作a
j
后,执行动作a
j
,智能体转移至状态s
p
,根据奖励函数r(s
i
,a
j
)计算智能体从状态s
i
转移至状态s
p
的奖励值r,根据q值更新公式计算智能体在状态s
i
下执行动作a
j
的未来奖励期望q(s
i
,a
j
),更新并保存q表。
[0065]
奖励函数r(s
i
,a
j
)的具体公式为:
[0066]
r=β1f
oil
+β2(soc-soc
tar
)
[0067]
公式中,β1为油耗系数,f
oil
为燃油消耗量,soc为动力电池的荷电状态,soc
tar
为动力电池的目标荷电状态,β2为soc系数,β1和β2与能量的分配有关,设为-1。
[0068]
q值更新公式具体为:
[0069]
q(s
i
,a
j
)=(1-μ)q(s
i
,a
j
)+μ[r+γmax
a
q(s
p
,a)]
[0070]
公式中,μ为学习率,与与学习效率、计算收敛性及迭代次数等有关,设为0.5,r为智能体从状态s
i
转移至状态s
p
的奖励值r,max
a
q(s
p
,a)为在状态s
p
时所能观测到的最大q值,γ为折扣因子,γ越大,则有更大的概率选择最大的q值,设为0.7。
[0071]
s105:重复执行步骤s104,直至执行时间大于等于nedc工况的时间长度t,t=1180s;
[0072]
s106:重复执行步骤s103,直至执行次数大于等于最大迭代次数m,m=1000,最终得到的q表即混合动力汽车在循环工况下的能量管理策略;
[0073]
s107:重复执行步骤s102,直至循环工况表中的所有循环工况均被移除。
[0074]
s2:将混合动力汽车在不同循环工况下的能量管理策略写入混合动力汽车的微型控制器。
[0075]
s3:确定混合动力汽车的当前循环工况,以nedc工况为例,混合动力汽车的数据采集系统获取混合动力汽车当前的驾驶参数,并将驾驶参数传输至混合动力汽车的微型控制器,微型控制器基于当前循环工况下的能量管理策略得到控制动作,并将控制动作传输至混合动力汽车的整车控制器,如图5所示,具体包括以下步骤:
[0076]
s301:确定混合动力汽车的当前循环工况,混合动力汽车的数据采集系统获取混合动力汽车在当前循环工况下的实时驾驶参数,生成混合动力汽车的当前状态s0,将当前状态s0传输至混合动力汽车的微型控制器;
[0077]
s302:微型控制器在当前循环工况对应的q表中找到与当前状态s0最接近的状态s
h
,最接近的状态s
h
为q表中与当前状态s0的欧几里得距离最小的状态。基于最短距离搜索算法找到与当前状态s0最接近的状态s
h
,包括以下步骤:
[0078]
s3021:遍历q表中的所有状态,将所有状态中的车辆的需求功率p
req
按大小排序,
与当前状态s0中的车辆的需求功率p
req 0
对比,得到与p
req 0
最接近的p
req a
和p
req a+1
(p
req a
≤p
req 0
≤p
req a+1
);将所有状态中的车辆的车速v按大小排序,与当前状态s0中的车辆的车速v0对比,得到与v0最接近的v
b
和v
b+1
(v
b
≤v0≤v
b+1
);将所有状态中的动力电池的荷电状态soc按大小排序,与当前状态s0中的动力电池的荷电状态soc对比,得到与soc0最接近的soc
c
和soc
c+1
(soc
c
≤soc0≤soc
c+1
);
[0079]
s3022:将p
req a
、p
req a+1
、v
b
、v
b+1
、soc
c
和soc
c+1
随机组合,得到8个较近状态,s
h1
={p
req a
,v
b
,soc
c
}、s
h2
={p
req a
,v
b
,soc
c+1
}、s
h3
={p
req a
,v
b+1
,soc
c
}、s
h4
={p
req a
,v
b+1
,soc
c+1
}、s
h5
={p
req a+1
,v
b
,soc
c
}、s
h6
={p
req a+1
,v
b
,soc
c+1
}、s
h7
={p
req a+1
,v
b+1
,soc
c
}、s
h8
={p
req a+1
,v
b+1
,soc
c+1
};
[0080]
s3023:分别计算当前状态s0与8个较近状态的欧几里得距离,找到与当前状态s0的欧几里得距离最小的较近状态,该状态即为q表中与当前状态s0最接近的状态s
h

[0081]
s303:选择q表中在状态s
h
下对应最大q值的动作a
k
,并将动作a
k
作为控制动作传输至混合动力汽车的整车控制器。
[0082]
s4:混合动力汽车的整车控制器根据控制动作调整混合动力汽车的动力系统,将发动机转速及转矩分配指令至发动机和电机,实现混合动力汽车在线能量管理,混合动力汽车的动力系统包括发动机和电机。
[0083]
针对混合动力汽车传统能量管理策略的经验依赖性及优化效果等不足,以及基于全局优化的能量管理策略在实车在线应用阶段的局限性,设计了一种基于强化学习的混合动力汽车能量管理方法。该方法基于强化学习中的q-学习架构,通过智能体在交互环境中不断学习,得到混合动力汽车在各个状态下的最优发动机转速及转矩分配策略,提取q表。不仅如此,本方法在应用于在线能量管理时,引入状态对比模块,对实车状态信号与微型控制器中q表的预设状态进行对比,通过最短距离搜索算法迅速识别当前状态下对应最大q值的动作,并通过整车控制器执行该最优转矩分配策略,实混合动力汽车在线能量管理。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips