A.不需要了解業(yè)務(wù),對業(yè)務(wù)進(jìn)行數(shù)據(jù)探查無法解決數(shù)據(jù)傾斜
B.每一個數(shù)據(jù)傾斜的作業(yè)都需要優(yōu)化
C.小文件合并不會解決數(shù)據(jù)傾斜的問題
D.可以適當(dāng)?shù)耐ㄟ^控制mapper和reducer來控制數(shù)據(jù)傾斜的問題
您可能感興趣的試卷
你可能感興趣的試題
A.由于沒有索引,需要掃描整個表,因此延遲較高
B.由于MapReduce本身具有較高的響應(yīng)延遲,因此在利用MapReduce執(zhí)行Hive查詢時,也會有較高的延遲響應(yīng)
C.關(guān)系型數(shù)據(jù)庫較于Hive底層的文件系統(tǒng)實現(xiàn),執(zhí)行延遲較低
D.Hive查詢延遲較于關(guān)系型數(shù)據(jù)庫,延遲響一直都是很高的
A.SequenceFile是二進(jìn)制文件格式,以list的形式序列化到文件中
B.SequenceFile存儲方式為列存儲
C.SequenceFile不可分割、壓縮
D.SequenceFile優(yōu)勢是文件和Hadoopapi中的MapFile是相互兼容的
A.Derby方式是內(nèi)嵌的方式,也是默認(rèn)的啟動方式,一般用于單元測試
B.local模式中,使用MySQL本地部署實現(xiàn)metastore
C.remote模式為遠(yuǎn)程MySQL
D.Derby方式在同一時間只能有多個進(jìn)程連接使用數(shù)據(jù)庫
A.KafkaSource
B.KafkaSpout
C.KafkaAvroSource
D.KafkaEventSource
A.pull-based
B.push-based
C.stream-based
D.event-based
最新試題
LSTM 模型的主要問題是訓(xùn)練不能并行化。
Python 中的生成器(Generator)與普通函數(shù)的主要區(qū)別是什么?()
下面哪些選項是Python 中常用的文件讀寫方式?()
centos7中默認(rèn)可以直接使用root 用戶登錄。
Kafka中,每個Consumer都屬于一個Consumer Group,每條消息只能被Consumer Group中的一個Consumer消費,但可以被多個Consumer Group 消費。
數(shù)據(jù)缺失類型可以分為三類,不包括以下哪類?()
Linux 系統(tǒng)中,在vi 編輯器下哪個末行命令可以實現(xiàn)保存修改并退出?()
下列哪些屬于數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程的是()
交叉熵,是用于度量同一個隨機變量的預(yù)測分布Q 與真實分布P 之間的差距,一般預(yù)測為真實值的概率越大,交叉熵越小。
在MRS服務(wù)中,Loader Client僅包含CLI一種交互方式。