訓練、推理性價比創新高。
大語言模型(LLM),正在進入 Next Level。
周五凌晨,阿里通義團隊正式發布、開源了下一代基礎模型架構 Qwen3-Next。總參數 80B 的模型僅激活 3B ,性能就可媲美千問 3 旗艦版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,實現了模型計算效率的重大突破。
新模型立即在 Qwen.ai 上線,并上傳了 HuggingFace。
- 新模型網頁版:https://chat.qwen.ai/
- HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
- Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b
Qwen3-Next 針對大模型在上下文長度擴展(Context Length Scaling)和參數量擴展(Total Parameter Scaling)的未來趨勢而設計。通義團隊表示,其模型結構相較 4 月底推出的 Qwen3 的 MoE 模型新增了多種技術并進行了核心改進,包括混合注意力機制、高稀疏度 MoE 結構、一系列提升訓練穩定性的優化,以及提升推理效率的多 token 預測(MTP)機制等。
模型結構示意圖:
通義團隊介紹了新架構使用的一些機制。
- 混合架構:Gated DeltaNet + Gated Attention
線性注意力打破了標準注意力的二次復雜度,在處理長上下文時有著更高的效率。通義團隊發現,單純使用線性注意力或標準注意力均存在局限:前者在長序列建模上效率高但召回能力弱,后者計算開銷大、推理不友好。
通過系統實驗,人們發現 Gated DeltaNet 相比常用的滑動窗口注意力(Sliding Window Attention)和 Mamba2 有更強的上下文學習(in-context learning)能力,并在 3:1 的混合比例(即 75% 層使用 Gated DeltaNet,25% 層保留標準注意力)下能一致超過超越單一架構,實現性能與效率的雙重優化。
在保留的標準注意力中,通義進一步引入多項增強設計:
(1)沿用先前工作中的輸出門控機制,緩解注意力中的低秩問題;
(2)將單個注意力頭維度從 128 擴展至 256;
(3)僅對注意力頭前 25% 的位置維度添加旋轉位置編碼,提高長度外推效果。
- 極致稀疏 MoE:僅激活 3.7% 參數
Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架構,總參數量達 80B,每次推理僅激活約 3B 參數。實驗表明,在使用全局負載均衡后,當激活專家固定時,持續增加專家總參數可帶來訓練 loss 的穩定下降。
相比 Qwen3 MoE 的 128 個總專家和 8 個路由專家,Qwen3-Next 擴展到了 512 總專家,10 路由專家與 1 共享專家的組合,在不犧牲效果的前提下最大化資源利用率。
- 訓練穩定性友好設計
通義團隊發現, 注意力輸出門控機制能消除注意力池與極大激活等現象,保證模型各部分的數值穩定。Qwen3 采用了 QK-Norm,部分層的 norm weight 值會出現異常高的情況。為緩解這一現象,進一步提高模型的穩定性,通義在 Qwen3-Next 中采用了 Zero-Centered RMSNorm,并在此基礎上對 norm weight 施加 weight decay,以避免權重無界增長。
通義還在初始化時歸一化了 MoE router 的參數,確保每個 expert 在訓練早期都能被無偏地選中,減小初始化對實驗結果的擾動。
- Multi-Token Prediction
Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 機制,既得到了 Speculative Decoding 接受率較高的 MTP 模塊,又提升了主干本身的綜合性能。Qwen3-Next 還特別優化了 MTP 多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的 Speculative Decoding 接受率。
通義千問大模型負責人林俊旸在 X 上分享了新一代模型開發的細節。他表示團隊已經在混合模型和線性注意力機制上進行了大約一年的實驗。新的解決方案應該足夠穩定可靠,能夠應對超長上下文。
Gated DeltaNet 加混合是經過大量嘗試和錯誤才實現的,而 Gated Attention 的實現就像是免費的午餐,可以獲得額外好處。
得益于創新的混合模型架構,Qwen3-Next 在推理效率方面表現出顯著優勢。與 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在預填充(prefill)階段展現出卓越的吞吐能力:在 4k tokens 的上下文長度下,吞吐量接近前者的七倍;當上下文長度超過 32k 時,吞吐提升更是達到十倍以上。
在解碼(decode)階段,該模型同樣表現優異 —— 在 4k 上下文下實現近四倍的吞吐提升,而在超過 32k 的長上下文場景中,仍能保持十倍以上的吞吐優勢。
基于 Qwen3-Next 的模型結構,通義團隊訓練了 Qwen3-Next-80B-A3B-Base 模型,該模型擁有 800 億參數(僅激活 30 億參數),實現了與 Qwen3-32B dense 模型相近甚至略好的性能,同時訓練成本(GPU hours) 僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實現了極致的訓練和推理性價比。
通義團隊開源了 Qwen3-Next-80B-A3B 的指令(Insctruct)模型和推理(Thinking)兩款模型。新模型解決了混合注意力機制 + 高稀疏度 MoE 架構在強化學習訓練中長期存在的穩定性與效率難題,實現了 RL 訓練效率與最終效果的雙重提升。
在編程(LiveCodeBench v6)、人類偏好對齊 (Arena-Hard v2) 以及綜合性能力 (LiveBench) 評測中,Qwen3-Next-Instruct 表現甚至超過了千問的開源旗艦模型,并在包含通用知識(SuperGPQA)、數學推理(AIME25)等核心測評中全面超越了 SOTA 密集模型 Qwen3-32B;Qwen3-Next-Thinking 則全面超越了 Gemini2.5-Flash-Thinking,在數學推理 AIME25 評測中獲得了 87.8 分。而達到如此高水平的模型性能,僅需激活 Qwen3-Next 總參數 80B 中的 3B。
目前,Qwen3-Next 模型也已經在很多第三方平臺中上線。
使用新模型在 anycoder 中的 vibe coding 示例: