單項選擇題

強化學習中近端策略優(yōu)化（ProximalPolicyOptimization-PPO）的目的是：（）。

A.減少學習過程中的方差
B.加速模型的收斂速度
C.優(yōu)化策略的穩(wěn)定性
D.提高策略的探索能力

你可能感興趣的試題

單項選擇題

層次聚類方法中，凝聚的層次聚類是從什么開始（）？

A.將每個數(shù)據(jù)點視為一個單獨的簇
B.將所有數(shù)據(jù)點視為一個簇
C.隨機選擇數(shù)據(jù)點作為簇
D.根據(jù)數(shù)據(jù)的分布選擇簇

單項選擇題

下列不屬于Keras 的核心模塊的是（）。

A.有激活函數(shù)
B.損失函數(shù)
C.濾波器
D.正則化器