on-policy和off-policy区别

mac2024-10-08  40

Policy Optimization 通常是on-policy的,也就是每次更新策略采用最新策略产生的数据。

Q-Learning 通常是Off-Policy的,这就意味着训练的数据可以是训练期间任意时刻的数据。

最新回复(0)