Signal65 最新報告指出,AI 推理的遊戲規則已徹底改變。決定勝負的關鍵不再是單純的晶片算力或 GPU 數量,而是「每一美元能輸出多少智慧」(Tokenomics)。儘管輝達 (NVDA.US) 的 GB200 NVL72 機架級系統單 GPU 成本約為競爭對手 AMD(AMD.US) MI355X 的兩倍,但在處理前沿混合專家模型(MoE)時,其每 Token 成本卻能實現高達 15 倍的節省優勢,鞏固了輝達在 AI 基礎設施領域的王者地位。
頂級投資人 Ben Pouladian 直言:「目前的關鍵不再是算力或 GPU 數量,而是每一美元能買到多少智慧輸出。」
報告指出,隨著全球頂級開源大型語言模型(LLM)幾乎全面轉向混合專家模型(MoE)架構(如 DeepSeek-R1),傳統的「稠密模型」推理模式正在被淘汰。MoE 模型透過在每個 Token 上只啟動最相關的「專家」,雖然能釋放更高水準的智慧,但其主要限制在於「通訊瓶頸」。
當不同專家分佈在多塊 GPU 上時,任何 GPU 之間的通訊延遲都會導致「空轉時間」(idle time),造成算力浪費,並直接推高服務提供者的成本。因此,能夠在系統層面實現尖峰效能的端到端平台設計,已成為實現低成本、高響應 AI 服務的關鍵槓桿。
輝達在從 Hopper 架構過渡到 Blackwell 架構時,推出 GB200 NVL72,不僅提升了單 GPU 性能,更重要的是對底層系統架構進行了重新設計:
- 機架級互聯: 從 8-GPU 的 HGX 伺服器轉向全液冷的機架級系統,將 72 塊 GPU 連接在同一個 NVLink 域內。
- 軟體編排: 結合強大的軟體調度能力,徹底改變了成本結構,有效緩解了 MoE 架構下的通訊瓶頸。
根據 CoreWeave 公佈的目錄價,GB200 NVL72 的單 GPU 價格大約比 H200 貴 1.7 倍,且比競爭平台貴約一倍。然而,輝達的創始人黃仁勳的至理名言「The more you buy, the more you save!」在推理經濟學中得到驗證。
Signal65 的基準測試數據顯示,GB200 NVL72 在處理前沿的 DeepSeek-R1 MoE 模型時,展現出「斷崖式」的性能和成本優勢。
具體而言,在擴展到前沿規模時,GB200 NVL72 的峰值吞吐量最高可達競爭對手 AMD MI355X 的 28 倍。此外,在要求高互動性的推理工作負荷中,GB200 的單位 Token 成本能實現顯著節省,最低可降至競爭對手方案的 15 分之 1。
即使考慮到單 GPU 價格的差異,AMD MI355X 的價格約為 GB200 NVL72 配置的一半,然而 GB200 NVL72 在系統級效能上帶來的顯著提升,使得實際交付的 Token 吞吐提升幅度遠大於基礎設施成本的提升幅度。
例如,在每用戶 60 tokens/sec 的互動目標下,GB200 NVL72 的單 GPU 效能仍約為 MI355X 的 11.5 倍。這就是「更貴的 GPU 反而更省錢」的反直覺結果,因為它能以更低成本產生有效的 Token。
平台級設計成最終決勝點
報告總結,前沿 AI 模型的未來是更大、更複雜的 MoE 架構。隨著複雜性與規模持續上升,單純依賴晶片層面的原始 FLOPs 已不足以決勝。平台級設計成為決定性因素,包括:
- NVLink 高速互連與通訊效率。
- 多節點擴展特性。
- 成熟的軟體堆疊與生態系統支援。
- 在並發和混合負載下維持高利用率的能力。
GB200 NVL72 的問世,證明了輝達的護城河已從單純的 GPU 晶片延伸到整個機架級的端到端平台。這種性能差異將直接轉化為可量化的商業結果:每部署一塊 GPU 能服務更多用戶、降低「有用 Token」的生成成本,並提高每機架的收入潛力,確保輝達繼續保持在 AI 競賽中的領先地位。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網