GameApps.hk 香港手機遊戲網

清華團隊突破 AI 算力限制 RTX 4090 竟能運行 671B 大模型

9小時 1721
icon
清華大學團隊再創 AI 突破! 據國內媒體報導,清華大學 KVCache.AI 團隊 與 趨境科技 聯手,為開源專案 KTransformers 帶來重大更新,成功將大模型推理門檻大幅降低,甚至能在 RTX 4090(24GB 顯存)上運行 DeepSeek-R1、V3 的 671B 滿血版。

清華團隊突破 AI 算力限制 RTX 4090 竟能運行 671B 大模型

KTransformers 計畫的核心技術在於 異質運算策略,透過以下關鍵技術降低顯存負擔:

  • 稀疏矩陣優化(MoE 架構):僅啟動部分專家模組,並將非共享的稀疏矩陣卸載至 CPU 內存,大幅壓縮VRAM佔用至 24GB。

  • 4bit 量化與算子優化:使用 Marlin GPU 算子,讓運算效率提升 3.87 倍,並透過 llamafile 多執行緒並行,將預處理速度提升至 286 tokens/s。

  • CUDA Graph 加速:減少 CPU/GPU 通訊延遲,單次解碼僅需 一次完整 CUDA Graph 調用,生成速度高達 14 tokens/s。

清華團隊突破 AI 算力限制 RTX 4090 竟能運行 671B 大模型

這項突破帶來的影響驚人!傳統 AI 訓練方案需要 8 張 A100 伺服器,成本超過百萬,雲端租用費用每小時高達 數千元。但 RTX 4090 單卡方案 讓這一切變得更親民:

  • 整機成本:僅 約 2 萬元

  • 功耗:僅 80W,大幅降低能耗

  • 適用對象:中小型 AI 團隊、個人開發者

這次突破不只是 技術的勝利,更是 開源精神與硬體潛能的極致發揮,讓 AI 研究更具可及性,顛覆了傳統算力瓶頸!


分享給朋友:

追蹤我們專頁

最新人氣下載

Loading...

遊戲APK下載搜尋

手機版 | 聯絡我們
© GameApps.HK 香港手機遊戲網 2013-2025