知识总结:https://www.jianshu.com/p/a04a8c7bee98
A2C,A3C,PPO1,PPO2 :策略函数的优化(πθ(a|s))
Q-learing : 动作值函数的优化(Qθ(s,a))
DDPG,SAC :结合策略函数和动作值函数(πθ(a|s)+Qθ(s,a))
MPC(模型预测控制) : 纯动态规划
MBMF : 在一些深度强化学习的标准基准任务上,基于学习到的环境进行模型预测控制
ExIt / AlphaZero : 算法用这种算法训练深层神经网络来玩 Hex /专家迭代
MBVE : 用假数据增加真实经验/免模型方法的数据增强
World Models : 全部用假数据来训练智能体,所以被称为:“在梦里训练”/免模型方法的数据增强
I2A