A.key本身分布不均衡
B.計算方式有誤
C.過多的數(shù)據(jù)在一個task里面
D.shuffle并行度不夠
您可能感興趣的試卷
你可能感興趣的試題
A.在容錯機制中,如果一個節(jié)點死機了,而且運算窄依賴,則只要把丟失的父RDD分區(qū)重算即可,依賴于其他節(jié)點
B.寬依賴開銷更大
C.Checkpoint可以節(jié)約大量的系統(tǒng)資源
D.RDD的容錯機制是基于Spark Streaming的容錯機制
A.文件流
B.kafka
C.套接字流
D.RDD隊列流
A.保存計算的RDD分區(qū)數(shù)據(jù)
B.向Driver反向注冊
C.接受Driver端發(fā)送來的任務(wù)Task,作用在RDD上進行執(zhí)行
D.做資源調(diào)度任務(wù)
A.一個topic分為好幾個partition,每一個partition是以文件夾的形式保持在broker節(jié)點上面的
B.每一個分區(qū)的命名是從序號0開始遞增
C.每一個partition目錄下多個segment文件,默認(rèn)是1G
D.每個分區(qū)里面的消息是有序的,數(shù)據(jù)是一樣的
A.快速:單一的Kafka代理可以處理成千上萬的客戶端,每秒處理數(shù)兆字節(jié)的讀寫操作
B.可伸縮:在一組機器上對數(shù)據(jù)進行分區(qū)和簡化,以支持更大的數(shù)據(jù)
C.持久:消息是持久性的,并在集群中進行復(fù)制,以防止數(shù)據(jù)丟失
D.設(shè)計:它提供了容錯保證和持久性
最新試題
mysql 數(shù)據(jù)庫,對于刪除操作以下說法正確的是()
Python 中的字典是一種有序的數(shù)據(jù)結(jié)構(gòu)。
Python 中的虛擬環(huán)境是什么?()
下面哪些選項是Python 中的控制流語句?()
數(shù)組在內(nèi)存中是連續(xù)的存儲空間,因此訪問數(shù)組中的任意元素時間復(fù)雜度都是O(1)。
下面哪些選項是Python 中常用的文件讀寫方式?()
Python 中的生成器(Generator)與普通函數(shù)的主要區(qū)別是什么?()
Python 中的列表可以包含不同類型的數(shù)據(jù)。
下列哪些屬于數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程的是()
以下大數(shù)據(jù)技術(shù)中,可用于分布式實時計算的組件有哪些?()