為了提升服務質素,我們會使用 Cookie 或其他類似技術來改善使用者的閱讀體驗。 如想了解更多請到 這裡 >。
據悉,DeepSeek-R2 將採用進階的「混合專家模型」(MoE)架構,結合更智慧化的「門控網路層」(Gating Network),旨在進一步提升高負載推理任務的運行效率。
有分析認為,這款新模型的定價有望遠低於OpenAI旗下產品,或將衝擊目前AI行業的主流價格體系。
更驚人的是,有內部消息指出,DeepSeek-R2的運行成本將比GPT-4降低高達97%。據了解,該模型是在華為昇騰系列晶片上訓練完成,力求打造出從訓練到應用全產業鏈皆由本土技術構建的自主系統。
在規模方面,DeepSeek-R2的總參數量預計達到1.2萬億,相比前一代DeepSeek-R1的6710億參數,幾乎翻倍。
這款新模型是基於華為昇騰910B(Ascend 910B)晶片集群訓練,在FP16精度下具備512 PetaFLOPS 的強大運算力,晶片使用效率達82%。
根據華為實驗室的統計,這樣的效能大致可達到英偉達上一代A100訓練集群的約91%表現。至於實際表現是否如預期,仍有待官方最終數據證實,但目前看來,DeepSeek-R2無論在效能或自主性上都展現出強勁實力。