400-888-5228

課程介紹:

本課程是世界上第一Spark企業(yè)級最佳實踐課程,課程包含:

Spark的架構(gòu)設計;

Spark編程模型;

Spark內(nèi)核框架源碼剖析;

Spark的廣播變量與累加器;

Shark的原理和使用;

Spark的機器學習;

Spark的圖計算GraphX;

Spark SQL;

Spark實時流處理;

Spark程序的測試;

Spark的優(yōu)化;

Spark on Yarn;

JobServer;

最后以一個商業(yè)級別的Spark案例為基礎(chǔ),實戰(zhàn)展示商業(yè)級別Spark項目的架構(gòu)設計、實現(xiàn)和優(yōu)化;

 

課程時長:

3天

課程對象:

1,云計算大數(shù)據(jù)從業(yè)者;

2,Hadoop使用者;

3,系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員;

4,牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運行、規(guī)劃、設計負責人;

5,政府機關(guān),金融保險、移動和互聯(lián)網(wǎng)等大數(shù)據(jù)來源單位的負責人;

6,高校、科研院所涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項目負責人;

7,數(shù)據(jù)倉庫管理人員、建模人員,分析和開發(fā)人員、系統(tǒng)管理人員、數(shù)據(jù)庫管理人員以及對數(shù)據(jù)倉庫感興趣的其他人員;

 

學員基礎(chǔ):

了解面向?qū)ο缶幊蹋?/p>

了解Linux的基本使用;

了解Scala語法

 

課程大綱:

第1堂課:Spark的架構(gòu)設計

1.1 Spark生態(tài)系統(tǒng)剖析

1.2 Spark的架構(gòu)設計剖析

1.3 RDD計算流程解析

1.4 Spark的出色容錯機制

 

第2堂課:Spark編程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5寬依賴與窄依賴

 

第3堂課:深入Spark內(nèi)核

3.1 Spark集群

3.2 任務調(diào)度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task內(nèi)部揭秘

 

第4堂課:Spark的廣播變量與累加器

4.1 廣播變量的機制

4.2 廣播變量使用最佳實踐

4.3 累加器的機制

4.4 累加器使用的最佳實踐

 

第5堂課:編寫Spark程序

5.1 程序數(shù)據(jù)的來源:File、HDFS、HBase、S3等

5.2 IDE環(huán)境構(gòu)建

5.3 Maven

5.4 sbt.

5.5 編寫并部署Spark程序的實例

 

第6堂課:SparkContext解析和數(shù)據(jù)加載以及存儲

6.1 源碼剖析SparkContext

6.2 Scala、Java、Python使用SparkContext

6.4 加載數(shù)據(jù)成為RDD

6.5 把數(shù)據(jù)物化

 

第7堂課:深入實戰(zhàn)RDD

7.1 DAG

7.2 深入實戰(zhàn)各種Scala RDD Function

7.3 Spark Java RDD Function

7.4 RDD的優(yōu)化問題

 

第8堂課:Shark的原理和使用

8.1 Shark與Hive

8.2 安裝和配置Shark

8.3 使用Shark處理數(shù)據(jù)

8.4 在Spark程序中使用Shark Queries

8.5 SharkServer

8.6 思考Shark架構(gòu)

 

第9堂課:Spark的機器學習

9.1 LinearRegression

9.2 K-Means

9.3 Collaborative Filtering

 

第10堂課:Spark的圖計算GraphX

10.1 Table Operators

10.2 Graph Operators

10.3 GraphX

 

第11堂課:Spark SQL

11.1 Parquet支持

11.2 DSL

11.3 SQL on RDD

 

第12堂課:Spark實時流處理

12.1 DStream

12.2 transformation

12.3 checkpoint

12.4 性能優(yōu)化

 

第13堂課:Spark程序的測試

13.1 編寫可測試的Spark程序

13.2 Spark測試框架解析

13.3 Spark測試代碼實戰(zhàn)

 

第14堂課:Spark的優(yōu)化

14.1 Logs

14.2 并發(fā)

14.3 內(nèi)存

14.4 垃圾回收

14.5 序列化

14.6 安全

 

第15堂課:Spark on Yarn

15.1 Spark on Yarn的架構(gòu)原理

15.2 Spark on Yarn的最佳實踐

 

第16堂課:JobServer

16.1 JobServer的架構(gòu)設計

16.2 JobServer提供的接口

16.3 JobServer最佳實踐

 

第17堂課:Spark項目案例實戰(zhàn)

17.1 Spark項目的最佳架構(gòu)模式

17.2 案例的介紹和架構(gòu)

17.3 案例的源碼實現(xiàn)

17.4 調(diào)優(yōu)