400-888-5228

DeepSeek是一款由國內(nèi)人工智能公司研發(fā)的大型語言模型,擁有強大的自然語言處理能力,能夠理解并回答問題,還能輔助寫代碼、整理資料和解決復(fù)雜的數(shù)學(xué)問題。與OpenAI開發(fā)的ChatGPT相比,DeepSeek不僅率先實現(xiàn)了媲美OpenAI-o1模型的效果,還大幅降低了推理模型的成本。其新模型DeepSeek-R1以十分之一的成本達到了GPT-o1級別的表現(xiàn),驚艷全球!

在面對DeepSeek的學(xué)習(xí)與應(yīng)用時,很多人或許會感受到一種焦慮感,擔(dān)心“不懂 DeepSeek,就落后了”、“再不努力,你馬上就要被 DeepSeek 替代了”等。其實,這種焦慮是對未知世界的正常反應(yīng),但它也激勵我們?nèi)ゲ粩鄬W(xué)習(xí)、適應(yīng)并擁抱變革。通過持續(xù)的學(xué)習(xí)和實踐,我們才能夠更好地理解DeepSeek的潛力,提升自己的能力,并將其應(yīng)用到實際工作中,推動創(chuàng)新和效率的提升。

課程概述

在深度學(xué)習(xí)與大語言模型的時代,DeepSeek-R1 蒸餾與 V3 模型的技術(shù)應(yīng)用已經(jīng)成為提升AI性能的重要突破。本課程旨在帶領(lǐng)學(xué)員深入了解DeepSeek R1模型蒸餾 Qwen2 1.5B的全流程,從環(huán)境部署、數(shù)據(jù)集準(zhǔn)備、蒸餾過程到調(diào)用測試,幫助學(xué)員掌握大模型優(yōu)化與應(yīng)用的實戰(zhàn)技巧。同時,課程還將介紹DeepSeek V3模型的核心原理與架構(gòu),講解其在分布式并行化、注意力機制、混合專家模型(MOE)等方面的創(chuàng)新與應(yīng)用,確保學(xué)員能夠全面理解并掌握該領(lǐng)域的先進技術(shù)。通過實戰(zhàn)演練與技術(shù)報告解析,學(xué)員將在短短三天內(nèi)全面提升在AI模型開發(fā)和優(yōu)化的能力。

課程對象

  • AI研究員與開發(fā)者:希望深入了解大語言模型和AI蒸餾技術(shù)的從業(yè)者。
  • 數(shù)據(jù)科學(xué)家:需要優(yōu)化和改進AI模型性能,提升技術(shù)能力的專業(yè)人員。
  • AI產(chǎn)品經(jīng)理:希望在產(chǎn)品中應(yīng)用優(yōu)化過的大語言模型,并理解相關(guān)技術(shù)原理的管理人員。
  • 技術(shù)團隊:從事深度學(xué)習(xí)、機器學(xué)習(xí)和自然語言處理的團隊成員。

課程目標(biāo)

  • 能夠獨立搭建DeepSeek R1模型蒸餾環(huán)境,包括虛擬環(huán)境的創(chuàng)建、依賴和工具的安裝。
  • 熟悉數(shù)據(jù)集的準(zhǔn)備與清洗方法,能夠根據(jù)需求篩選和處理數(shù)據(jù)集。
  • 掌握使用Llama-Factory進行全量指令微調(diào),提升模型性能。
  • 理解并執(zhí)行模型蒸餾過程,分析蒸餾前后的模型性能。
  • 熟悉DeepSeek V3模型的核心原理,包括架構(gòu)設(shè)計、分布式計算與注意力機制。
  • 掌握DeepSeek V3 MOE混合專家模型的工作原理與應(yīng)用。

課程收益

  • 實戰(zhàn)技能:學(xué)員將通過動手實踐,掌握DeepSeek R1模型的蒸餾流程,并能獨立搭建訓(xùn)練環(huán)境與調(diào)優(yōu)模型。
  • 技術(shù)精進:掌握DeepSeek V3的核心原理,包括MOE模型、KV緩存機制等,提升AI模型優(yōu)化與應(yīng)用的能力。
  • 項目經(jīng)驗:通過案例分析與技術(shù)報告講解,學(xué)員將了解最新的AI技術(shù),并能將其應(yīng)用到企業(yè)項目中。
  • 能力提升:課程內(nèi)容涵蓋從模型優(yōu)化到部署的全流程,幫助學(xué)員成為AI領(lǐng)域的實踐專家。

課程亮點:

實戰(zhàn)派學(xué)習(xí):從DeepSee-R1入門介紹,到模型蒸餾項目實戰(zhàn)的講解,再到核心原理介紹,由淺入深便于理解世界頂級大模型背后的奧秘。

完整的訓(xùn)練腳本和數(shù)據(jù)集:課程會分享講解過程中所使用的訓(xùn)練腳本、代碼、數(shù)據(jù)集,并提供參考的部署環(huán)境,可通過課后練習(xí)復(fù)現(xiàn)加深印象。

技術(shù)報告創(chuàng)新點剖析:不用通篇閱讀官方技術(shù)報告的,通過課程講解即可了解到DeepSeek-R1/V3核心創(chuàng)新點。

本地部署與私有化方案:介紹本地部署所需要的軟硬件資源調(diào)配。

課程時長3天

課程大綱

第一天 DeepSeek-R1蒸餾Qwen1.5B實戰(zhàn)第二天 DeepSeek-V3模型核心原理與架構(gòu)介紹第三天 DeepSeek v3 MLA 機制與混合專家模型介紹
(一)模型蒸餾環(huán)境部署
1. 操作系統(tǒng)與配置說明
2. 創(chuàng)建虛擬環(huán)境
3. 創(chuàng)建 Jupyter Kernel
4. 安裝 wand
5. 創(chuàng)建主目錄與下載原始模型
6. 安裝 Llama - Factory
(二)模型蒸餾數(shù)據(jù)集準(zhǔn)備
1. 主流推理數(shù)據(jù)集介紹
2. 數(shù)據(jù)清洗過程
3. 數(shù)據(jù)集下載與準(zhǔn)備
(三)模型蒸餾過程
1. 上傳微調(diào)腳本
2. 執(zhí)行微調(diào)
(四)調(diào)用測試
1. 測試問題設(shè)置
2. 普通模型調(diào)用測試
3. 蒸餾模型調(diào)用測試
(一)DeepSeekv3 架構(gòu)圖解與基本參數(shù)配置
(1)整體架構(gòu)
(2)不同規(guī)模模型參數(shù)
(3)關(guān)鍵參數(shù)配置
(二)分布式并行化嵌入與映射
(1)ParallelEmbedding 層
(2)線性層相關(guān)實現(xiàn)
(3)行并行與列并行
(三)RMS Norm 層
(1)Layer Normalization 介紹
(2)LN 與 BN、RMSNorm 的差別
(3)RMSNorm 實現(xiàn)
(四)旋轉(zhuǎn)位置編碼 ROPE
(1)原理與優(yōu)勢
(2)具體流程
(3)相關(guān)代碼實現(xiàn)
(五)DeepSeek v3 的 KV 緩存機制
(1)工作原理
(2)類定義與初始化
(3)forward 方法
(一)DeepSeek v3 的 MOE 混合專家模型
(1)與常見前饋網(wǎng)絡(luò)對比
(2)SwiGLU 激活函數(shù)
(3)MoE 原理與優(yōu)勢
(4)MoE 訓(xùn)練流程
(5)專家選擇機制
(6)瓶頸問題與輔助損失
(7)MoE 推理過程
(8)相關(guān)類定義
(二)DeepSeek v3 的 KV 緩存機制
(1)自回歸算法與 KV 緩存
(2)注意力機制計算分析
(3)KV 緩存工作流程
(4)MLA 潛在注意力機制
(5)相關(guān)類定義與初始化

為什么選擇艾威

艾威培訓(xùn)成立于2003年,是業(yè)內(nèi)領(lǐng)先的培訓(xùn)機構(gòu),擁有豐富的企業(yè)培訓(xùn)經(jīng)驗。我們深度關(guān)注企業(yè)數(shù)字化轉(zhuǎn)型與技術(shù)創(chuàng)新,為企業(yè)和個人提供最前沿的AI技術(shù)培訓(xùn)課程。我們?yōu)閷W(xué)員提供全面的教學(xué)支持,并結(jié)合實際應(yīng)用場景,通過精心設(shè)計的課程幫助學(xué)員快速掌握DeepSeek和其他AI工具的實際應(yīng)用。選擇艾威培訓(xùn),您將獲得:

  • 多年的培訓(xùn)經(jīng)驗: 20年+的企業(yè)培訓(xùn)經(jīng)驗,專家團隊提供定制化培訓(xùn)。
  • 實戰(zhàn)驅(qū)動的教學(xué): 課程結(jié)合實際企業(yè)應(yīng)用場景,學(xué)員可以立刻應(yīng)用學(xué)到的知識,提升工作效率。
  • 高效學(xué)習(xí)支持: 課程提供在線答疑、社群互動等支持,讓學(xué)習(xí)不止于課堂。
培訓(xùn)咨詢

發(fā)表回復(fù)

您的電子郵箱地址不會被公開。 必填項已用*標(biāo)注

同類課程推薦同類課程推薦
IT技術(shù)培訓(xùn)課程分類