文章目录
前言
背景
POSG
课程学习
Method
Knowledge Transfer across DyMA-CL
Model reload
Buffer reuse
Curriculum distillation
Dynamic Number Agent Network
Experiment
前言
这篇文章介绍了三种迁移方法,来通过课程学习加速。然后提出了一个新的架构DyAN,使得模型与agent数目无关。 一个有效的解决large-scale多智能体学习问题的方法是利用课程学习理论。将CL应用在RL上一个重要的方向是如何解决持续增长的复杂任务,这也是CL应用在RL上的目的。另一个CL的重要方向是自动设计课程。目前多智能体上应用CL的算法都很简单,比如Agarwal他们就是单纯的增加agent的数量,将之前的策略作为initialization。