A.BERT 考慮了單詞之間的順序關(guān)系。
B.ERT 是一個靜態(tài)的詞嵌入模型。
C.BERT 不能用于下游任務(wù)。
D.BERT 不依賴于預(yù)訓(xùn)練階段。
您可能感興趣的試卷
你可能感興趣的試題
A.減少學(xué)習(xí)過程中的方差
B.加速模型的收斂速度
C.優(yōu)化策略的穩(wěn)定性
D.提高策略的探索能力
A.將每個數(shù)據(jù)點視為一個單獨的簇
B.將所有數(shù)據(jù)點視為一個簇
C.隨機選擇數(shù)據(jù)點作為簇
D.根據(jù)數(shù)據(jù)的分布選擇簇
A.有激活函數(shù)
B.損失函數(shù)
C.濾波器
D.正則化器
A.卷積層
B.池化層
C.全連接層
D.激活層
A.降低模型的偏差。
B.減少模型的方差。
C.增加模型的復(fù)雜度。
D.提高模型的泛化能力。
最新試題
相對化學(xué)沉淀等傳統(tǒng)工藝而言,萃取工藝的主要優(yōu)點是()。
在深度學(xué)習(xí)模型訓(xùn)練中,"早停法"(EarlyStopping)策略的應(yīng)用目的是什么()?
反向傳播算法和梯度下降算法在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的關(guān)系是什么()?
在深度學(xué)習(xí)模型訓(xùn)練中,哪些技術(shù)可以用于加速模型收斂和提高穩(wěn)定性()?
反向傳播算法的基本原理是基于什么()?
反向傳播算法和梯度下降算法在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的主要區(qū)別是什么()?
度量泛化能力的好壞,最直觀的表現(xiàn)就是模型的()。
在神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)ReLU 的特點是什么()?
在強化學(xué)習(xí)中,什么是“動態(tài)規(guī)劃”(DynamicProgramming)()?
反向傳播算法的主要目的是什么()?