6miu盘搜

on-policy和off-policy区别

mac2024-10-08 53

Policy Optimization 通常是on-policy的，也就是每次更新策略采用最新策略产生的数据。

Q-Learning 通常是Off-Policy的，这就意味着训练的数据可以是训练期间任意时刻的数据。

最新回复(0)