400-888-5228

課程描述

Big Data on AWS 課程將向您介紹基于云的大數(shù)據(jù)解決方案,例如 Amazon (EMR)、Amazon Redshift、Amazon Kinesis 以及其余的 AWS 大數(shù)據(jù)平臺。在本課程中,我們將向您介紹如何使用 Amazon EMR 來利用諸如 Hive 和 Hue 等廣泛 Hadoop 工具體系處理數(shù)據(jù)。授課內(nèi)容還包括如何創(chuàng)建大數(shù)據(jù)環(huán)境、如何結合使用 Amazon DynamoDB、Amazon Redshift Amazon Quicksight、Amazon Athena 和 Amazon Kinesis 以及如何利用最佳實踐來設計大數(shù)據(jù)環(huán)境,從而實現(xiàn)安全性和經(jīng)濟性。

 

課程級別

中級

 

授課方式

本課程將結合以下方式授課:

講師指導培訓 (ILT)

動手實驗室

 

動手實踐活動

本課程允許通過各種實踐操作來試驗新的技術并將所學知識應用到您的工作環(huán)境中

目標人群

本課程適用于:

負責設計和實施大數(shù)據(jù)解決方案的人員,即解決方案架構師

數(shù)據(jù)科學家和數(shù)據(jù)分析師有興趣了解 AWS 上大數(shù)據(jù)解決方案背后的服務和架構模式

 

先決條件

我們建議參加學習本課程的人員符合以下先決條件:

基本熟悉大數(shù)據(jù)技術,包括 Apache Hadoop、MapReduce、HDFS 和 SQL/NoSQL 查詢

學員應完成 Big Data Technology Fundamentals 網(wǎng)絡培訓或具備同等經(jīng)驗

具有核心 AWS 服務和公有云實施工作經(jīng)驗

學員應完成 AWS Technical Essentials 課程或具備同等經(jīng)驗

了解數(shù)據(jù)倉庫、關系數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)庫設計基礎

 

課程目標

通過學習本課程,您將能夠:

適用大數(shù)據(jù)體系內(nèi)的 AWS 解決方案

在 Amazon EMR 環(huán)境中使用 Apache Hadoop

了解 Amazon EMR 群集的組件

啟動并配置 Amazon EMR 群集

利用 Amazon EMR 的常用編程框架,包括 Hive、Pig 和 Streaming

利用 Hue 提高 Amazon EMR 的易用性

在 Amazon EMR 上借助 Spark 使用內(nèi)存分析

選擇適當?shù)?AWS 數(shù)據(jù)存儲選項

確定使用 Amazon Kinesis 以近乎實時的速度處理大數(shù)據(jù)的優(yōu)勢

利用 Amazon Redshift 有效地存儲和分析數(shù)據(jù)

理解并管理大數(shù)據(jù)解決方案的費用和安全性

保護大數(shù)據(jù)解決方案

確定用于獲取、傳輸和壓縮數(shù)據(jù)的選項

利用 Amazon Athena 進行臨時查詢分析

借助 Amazon QuickSight 使用可視化軟件描述數(shù)據(jù)和查詢

利用 AWS Data Pipeline 編排大數(shù)據(jù)工作流

 

課程大綱

注意:課程大綱可能不盡相同,具體取決于授課的地區(qū)位置和/或語言。

第 1 天

  • 大數(shù)據(jù)概述
  • 大數(shù)據(jù)獲取和傳輸
  • 大數(shù)據(jù)流式處理和 Amazon Kinesis
  • 實驗室 1:使用 Amazon Kinesis 流式處理和分析 Apache 服務器日志數(shù)據(jù)
  • 大數(shù)據(jù)存儲解決方案
  • 大數(shù)據(jù)處理和分析
  • 實驗室 2:使用 Amazon Athena 查詢 Amazon S3 的日志數(shù)據(jù)

第 2 天

  • Apache Hadoop 和 Amazon EMR
  • 實驗室 3:在 Amazon DynamoDB 上存儲并查詢數(shù)據(jù)
  • 使用 Amazon EMR
  • Hadoop 編程框架
  • 實驗室 4:在 Amazon EMR 上利用 Hive 處理服務器日志
  • Amazon EMR 上的 Web 界面
  • 實驗室 5:在 Amazon EMR 上的 Hue 中運行 Pig 腳本
  • Amazon EMR 上的 Apache Spark
  • 實驗室 6:在 Amazon EMR 上使用 Spark 處理 NY Taxi 數(shù)據(jù)

第 3 天

  • Amazon Redshift 和大數(shù)據(jù)
  • 大數(shù)據(jù)的可視化及編制
  • 實驗室 7:使用 TIBCO Spotfire 可視化數(shù)據(jù)
  • 管理大數(shù)據(jù)費用
  • 保護您的 Amazon 部署
  • 大數(shù)據(jù)設計模式