多項選擇題關(guān)于spark中數(shù)據(jù)傾斜引發(fā)原因正確的是()

A.key本身分布不均衡
B.計算方式有誤
C.過多的數(shù)據(jù)在一個task里面
D.shuffle并行度不夠


您可能感興趣的試卷

你可能感興趣的試題

1.多項選擇題關(guān)于spark容錯說法錯誤的有()

A.在容錯機制中,如果一個節(jié)點死機了,而且運算窄依賴,則只要把丟失的父RDD分區(qū)重算即可,依賴于其他節(jié)點
B.寬依賴開銷更大
C.Checkpoint可以節(jié)約大量的系統(tǒng)資源
D.RDD的容錯機制是基于Spark Streaming的容錯機制

2.多項選擇題SparkStreaming的基本輸入源有()

A.文件流
B.kafka
C.套接字流
D.RDD隊列流

3.多項選擇題以下是Spark中executor的作用是()

A.保存計算的RDD分區(qū)數(shù)據(jù)
B.向Driver反向注冊
C.接受Driver端發(fā)送來的任務(wù)Task,作用在RDD上進行執(zhí)行
D.做資源調(diào)度任務(wù)

4.多項選擇題關(guān)于partition中的數(shù)據(jù)是如何保持到硬盤上的,說法正確的是()

A.一個topic分為好幾個partition,每一個partition是以文件夾的形式保持在broker節(jié)點上面的
B.每一個分區(qū)的命名是從序號0開始遞增
C.每一個partition目錄下多個segment文件,默認(rèn)是1G
D.每個分區(qū)里面的消息是有序的,數(shù)據(jù)是一樣的

5.多項選擇題Kafka相對傳統(tǒng)技術(shù)有什么優(yōu)勢說法正確的是()

A.快速:單一的Kafka代理可以處理成千上萬的客戶端,每秒處理數(shù)兆字節(jié)的讀寫操作
B.可伸縮:在一組機器上對數(shù)據(jù)進行分區(qū)和簡化,以支持更大的數(shù)據(jù)
C.持久:消息是持久性的,并在集群中進行復(fù)制,以防止數(shù)據(jù)丟失
D.設(shè)計:它提供了容錯保證和持久性