單項選擇題

強化學習中近端策略優(yōu)化(ProximalPolicyOptimization-PPO)的目的是:()。

A.減少學習過程中的方差
B.加速模型的收斂速度
C.優(yōu)化策略的穩(wěn)定性
D.提高策略的探索能力

微信掃碼免費搜題