VRAM 壓力模擬器

雙 RTX 3060 12GB(總 24GB)· 拉動滑桿觀察顯存如何被動態填滿

模型規模(權重大小)
16 GB
6 GB(9B Q8)22 GB(27B Q4)
對話輪次(Context 長度)
1
第 1 輪第 40 輪
模型權重(靜態) KV Cache(動態) 系統 + P2P 緩衝 瞬時峰值 Spike
GPU 1 · RTX 3060(12GB)
12GB
8GB
4GB
穩定
PCIe
P2P
GPU 2 · RTX 3060(12GB)
12GB
8GB
4GB
穩定
系統穩定。顯存仍有餘裕。
模型權重(靜態,不隨對話改變)16.0 GB
KV Cache(動態,隨對話輪次線性成長)0.3 GB
系統 + P2P 通訊緩衝(隱形固定開銷)1.5 GB
瞬時峰值 Spike(Attention 計算瞬間)+0.5 GB

總佔用估算(含峰值) 18.3 GB / 24 GB

「第 1 輪對話:KV Cache 尚小,顯存壓力低,系統穩定運行中。」