首頁(yè)
題庫(kù)
網(wǎng)課
在線???/a>
桌面端
登錄
搜標(biāo)題
搜題干
搜選項(xiàng)
0
/ 200字
搜索
判斷題
強(qiáng)化學(xué)習(xí)中的Actor-Critic架構(gòu)結(jié)合了基于值和基于策略的方法,其中Actor負(fù)責(zé)選擇動(dòng)作,Critic負(fù)責(zé)評(píng)估動(dòng)作的價(jià)值。
答案:
正確
點(diǎn)擊查看答案解析
手機(jī)看題
你可能感興趣的試題
判斷題
強(qiáng)化學(xué)習(xí)中的策略梯度方法直接對(duì)策略進(jìn)行參數(shù)化,并通過(guò)梯度上升來(lái)優(yōu)化期望回報(bào)。
答案:
正確
點(diǎn)擊查看答案解析
手機(jī)看題
判斷題
強(qiáng)化學(xué)習(xí)中的價(jià)值迭代和策略迭代是等價(jià)的,可以互相替代。
答案:
錯(cuò)誤
點(diǎn)擊查看答案解析
手機(jī)看題
微信掃碼免費(fèi)搜題