【培訓天數(shù)】
3天/24課時
【課程概述】
本課程聚焦于 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實踐操作,旨在讓學員掌握模型蒸餾的全流程,包括環(huán)境部署、數(shù)據(jù)集準備、蒸餾過程及調用測試,提升學員在大模型應用與優(yōu)化領域的實踐能力。課程還包含DeepSeek V3 模型核心原理、整體架構、分布式基礎概念、MLA嵌在注意力從自回歸掩碼看KV緩存機制,針對KV緩存的改進,DeepSeek MOE架構與創(chuàng)新介紹。
【課程目標】
能夠獨立搭建 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實驗環(huán)境,包括創(chuàng)建虛擬環(huán)境、安裝相關依賴和工具。
熟悉多種可用于模型蒸餾的數(shù)據(jù)集,掌握數(shù)據(jù)集的清洗和準備方法,能根據(jù)需求篩選和處理數(shù)據(jù)。
理解并熟練執(zhí)行模型蒸餾過程,運用 Llama - Factory 進行全量指令微調,優(yōu)化模型性能。
學會對蒸餾前后的模型進行調用測試,準確評估模型在實際問題解決中的表現(xiàn),分析模型的優(yōu)勢與不足。
【課程亮點】
實戰(zhàn)派學習
從DeepSee-R1入門介紹,到模型蒸餾項目實戰(zhàn)的講解,再到核心原理介紹,由淺入深便于理解世界高級大模型背后的奧秘。
完整的訓練腳本和數(shù)據(jù)集
課程會分享講解過程中所使用的訓練腳本、代碼、數(shù)據(jù)集,并提供參考的部署環(huán)境,可通過課后練習復現(xiàn)加深印象。
技術報告創(chuàng)新點剖析
不用通篇閱讀官方技術報告的,通過課程講解即可了解到DeepSeek-R1/V3核心創(chuàng)新點。
本地部署與私有化方案
介紹本地部署所需要的軟硬件資源調配。
第一天 DeepSeek-R1蒸餾Qwen1.5B實戰(zhàn)
(一)模型蒸餾環(huán)境部署
1. 操作系統(tǒng)與配置說明
2. 創(chuàng)建虛擬環(huán)境
3. 創(chuàng)建 Jupyter Kernel
4. 安裝 wand
5. 創(chuàng)建主目錄與下載原始模型
6. 安裝 Llama - Factory
(二)模型蒸餾數(shù)據(jù)集準備
1. 主流推理數(shù)據(jù)集介紹
2. 數(shù)據(jù)清洗過程
3. 數(shù)據(jù)集下載與準備
(三)模型蒸餾過程
1. 上傳微調腳本
2. 執(zhí)行微調
(四)調用測試
1. 測試問題設置
2. 普通模型調用測試
3. 蒸餾模型調用測試
第二天 DeepSeek-V3模型核心原理與架構介紹
(一)DeepSeekv3 架構圖解與基本參數(shù)配置
(1)整體架構
(2)不同規(guī)模模型參數(shù)
(3)關鍵參數(shù)配置
(二)分布式并行化嵌入與映射
(1)ParallelEmbedding 層
(2)線性層相關實現(xiàn)
(3)行并行與列并行
(三)RMS Norm 層
(1)Layer Normalization 介紹
(2)LN 與 BN、RMSNorm 的差別
(3)RMSNorm 實現(xiàn)
(四)旋轉位置編碼 ROPE
(1)原理與優(yōu)勢
(2)具體流程
(3)相關代碼實現(xiàn)
(五)DeepSeek v3 的 KV 緩存機制
(1)工作原理
(2)類定義與初始化
(3)forward 方法
第三天 DeepSeek v3 MLA 機制與混合專家模型介紹
(一)DeepSeek v3 的 MOE 混合專家模型
(1)與常見前饋網絡對比
(2)SwiGLU 激活函數(shù)
(3)MoE 原理與優(yōu)勢
(4)MoE 訓練流程
(5)專家選擇機制
(6)瓶頸問題與輔助損失
(7)MoE 推理過程
(8)相關類定義
(二)DeepSeek v3 的 KV 緩存機制
(1)自回歸算法與 KV 緩存
(2)注意力機制計算分析
(3)KV 緩存工作流程
(4)MLA 潛在注意力機制
(5)相關類定義與初始化
【環(huán)境展示】
環(huán)境展示
環(huán)境介紹
【教學模式】
1、隨到隨學
學員報名之后立馬就可以開始學習, 無需再等人數(shù)夠了再開班,每個學員都可以根據(jù)自己的時間安排制定自己的學習計劃,不會再因為時間不統(tǒng)一落下課。
2、多對一輔導
授課老師、助教老師、班主任、就業(yè)指導老師4對1的服務模式,學員可以實時在線在線與授課老師和助教老師1對1溝通問題,就業(yè)指導老師會在就業(yè)前對學員進行1對1就業(yè)指導。
3、免費重修機制
學員報名就業(yè)課程學制結束未成功就業(yè),不限次數(shù)免費重修。報名課程學不會,效果不理想,可申請免費換課。更有多種支付學費的方式可以提供。
4、名企推薦就業(yè)
我們已經和超過500家企業(yè)建立人才推薦合作,遍及全國20多個城市,參加我們就業(yè)實訓類培訓的學員都可以獲得免費推薦就業(yè)的機會,我們的課程的宗旨就是系統(tǒng)學習IT技術,為你的職場晉升助力。
92%滿意度
上海交大教育集團IT研究院
綜合
環(huán)境 : 4.6師資 : 4.6教學 : 4.6