强化学习算法分类总结

mac2024-11-09  8

知识总结:https://www.jianshu.com/p/a04a8c7bee98

A2C,A3C,PPO1,PPO2 :策略函数的优化(πθ(a|s))

Q-learing                              :  动作值函数的优化(Qθ(s,a))

DDPG,SAC                       :结合策略函数和动作值函数(πθ(a|s)+Qθ(s,a))

MPC(模型预测控制)            : 纯动态规划

MBMF                                 : 在一些深度强化学习的标准基准任务上,基于学习到的环境进行模型预测控制

ExIt  / AlphaZero                 : 算法用这种算法训练深层神经网络来玩 Hex /专家迭代

MBVE                                 : 用假数据增加真实经验/免模型方法的数据增强

World Models                     : 全部用假数据来训练智能体,所以被称为:“在梦里训练”/免模型方法的数据增强

I2A                                     

最新回复(0)