選擇 GPU 時,顯存大小是關鍵參數。顯存不夠會導致 OOM(Out Of Memory)錯誤,顯存太大又浪費錢。這篇文章幫你找到剛剛好的配置。
一、模型顯存需求估算
簡單公式:顯存需求 ≈ 模型參數 × 4 bytes × (1 + 梯度 + 優化器狀態)
例如:7B 參數模型
全精度(FP32):7B × 4B = 28GB
加上梯度和優化器:約需 80-100GB 顯存
二、常見模型顯存需求
- LLaMA 7B:推理 16GB,訓練 80GB+
- LLaMA 13B:推理 24GB,訓練 160GB+(多卡)
- LLaMA 70B:推理 140GB+,訓練需多卡集群
- Stable Diffusion:推理 8GB,訓練 24GB+
三、顯存優化技巧
- 量化:FP16 減半顯存,INT8 再減半
- 梯度累積:用小 batch 模擬大 batch
- ZeRO:分布式訓練優化顯存
- 激活檢查點:用計算換顯存
四、推薦配置
- 入門學習:RTX 4090 24GB
- 中型模型:A100 40GB/80GB
- 大型模型:H100 80GB 多卡