400-888-5228

課程概述

數(shù)據(jù)倉庫和數(shù)據(jù)湖定制培訓(xùn)課程為期4-5天,重點(diǎn)關(guān)注Snowflake和Databricks平臺的概述、架構(gòu)、實際操作與應(yīng)用實踐。此課程將逐步引領(lǐng)您了解和掌握當(dāng)前流行的數(shù)據(jù)湖與數(shù)據(jù)倉庫技術(shù)。

培訓(xùn)目標(biāo)

理解Snowflake和Databricks平臺的核心概念與功能對比

掌握Databricks的環(huán)境設(shè)置、數(shù)據(jù)使用、任務(wù)管理等實際操作

學(xué)習(xí)使用Delta Lake構(gòu)建批流一體數(shù)據(jù)倉庫

探索機(jī)器學(xué)習(xí)、營銷效果分析等實際案例的實現(xiàn)方法

適合人群

  • 數(shù)據(jù)分析師
  • 數(shù)據(jù)工程師
  • 業(yè)務(wù)分析師
  • 數(shù)據(jù)科學(xué)家
  • 數(shù)據(jù)倉庫與數(shù)據(jù)湖的架構(gòu)師
  • 想要擴(kuò)展數(shù)據(jù)管理和分析技能的IT專業(yè)人員

課程長度

5天

一、Snowflake和Databricks得概述

   1、Snowflake和Databricks介紹

   2、Snowflake與Databricks主要功能的比較

   3、Databricks和Snowflake選型

   4、Databricks與Snowflake之爭

   5、Snowflake和Databricks的前進(jìn)方向

二、Databricks平臺架構(gòu)

   1、Databricks構(gòu)建統(tǒng)一數(shù)據(jù)分析平臺

   2、Snowflake湖倉一體架構(gòu)

三、Databricks簡介

   1、Databricks和Apache Spark概述

   2、理解Databricks架構(gòu)

   3、Delta Lake數(shù)據(jù)湖基礎(chǔ)介紹

四、Databricks平臺環(huán)境演示:

    1、Databricks環(huán)境準(zhǔn)備

       設(shè)置環(huán)境

       設(shè)置和配置Databricks

       導(dǎo)航Databricks用戶界面

       創(chuàng)建Databricks工作區(qū)

       使用Databricks中的數(shù)據(jù)

    2、Databricks中數(shù)據(jù)使用

       連接Apache Spark數(shù)據(jù)源

       了解基本的列和數(shù)據(jù)類型

       管理文件系統(tǒng)到筆記本

       管理作業(yè)和集群

    3、管理任務(wù)和集群

       創(chuàng)建和配置集群

       使用筆記本創(chuàng)建作業(yè)

       運(yùn)行作業(yè)

       查看作業(yè)和作業(yè)詳細(xì)信息

    4、在Databricks中使用Delta Lake

       將數(shù)據(jù)加載到Delta Lake

       管理Delta Lake的數(shù)據(jù)

    5、Databricks安全

       管理Databricks安全性

       管理備份和恢復(fù)

    6、總結(jié)

       故障診斷和排除

       總結(jié)

五、實際案例:   

    1、使用Delta Lake構(gòu)建批流一體數(shù)據(jù)倉庫

    2、使用Databricks和MLflow進(jìn)行機(jī)器學(xué)習(xí)模型訓(xùn)練和部署的應(yīng)用實踐

    3、使用Databricks進(jìn)行營銷效果歸因分析的應(yīng)用實踐

    4、使用Databricks+Confluent進(jìn)行實時數(shù)據(jù)采集入湖和分析