skip to content
技術筆記

【技術解析】Gemma 4:31B 稠密 vs 26B MoE 深度解析

Google Gemma 4 系列展現了引人注目的架構取捨:31B 稠密模型在同類開源權重模型中提供最高品質,而 26B MoE 變體則以僅八分之一的單 Token 計算成本,保留約 97% 的品質。

這篇文章在說什麼

Google 在 2026 年 4 月初發布了 Gemma 4 系列,一口氣帶來四種規格,其中最值得關注的是 31B 稠密模型26B-A4B MoE 變體。兩者共享同一套核心技術創新:5:1 混合滑動/全域注意力、比例旋轉位置編碼(p-RoPE)、K=V 權重共享與值歸一化——但在參數規模擴展方式上,走上了完全不同的兩條路。

31B 稠密模型堆疊 60 層 Transformer,每個 Token 都會激活所有 30.7B 參數。26B MoE 模型則以 30 層搭載 128 專家(Top-8 路由),每個 Token 只激活 3.8B 參數(約 15% 激活率),但所有 25.2B 參數都必須駐留在 VRAM 中。MoE 的節省的是計算量而非記憶體佔用——這個細節是很多人誤解的關鍵。


為什麼重要

Gemma 4 的發布是開源模型的一個重要節點。這不只是一次普通的版本更新,而是 Google 首次在開源領域同時拿出「品質冠軍」與「效率冠軍」兩張牌。

對部署方而言,這個選擇框架非常清晰:你要的是巔峰推理品質,還是吞吐量經濟效益?MoE 模型在所有測試硬體和上下文長度下,始終提供 3–3.5 倍的吞吐量優勢,代價是在長上下文檢索(MRCR 128K 保留率僅 66%)、競賽編程(Codeforces ELO 1,718 vs 2,150)和極難任務(HLE 保留率 45%)上出現明顯退化。

對開源生態而言,Apache 2.0 許可協議的採用是一個信號。Google 正在用「完全開放」與 Meta 爭奪開源開發者的信任,這場競爭最終受益的是整個生態。


技術細節

架構創新:p-RoPE 如何突破 256K 上下文

比例旋轉位置編碼(p-RoPE)在全域層中僅將旋轉嵌入應用於 25% 的頭維度(θ=1,000,000),其餘 75% 作為位置無關的語義通道。這項設計使得 Gemma 3 的 128K 上下文得以躍升至 256K 而不損失品質——過去擴展上下文長度往往伴隨著遠距離依賴捕捉能力下降的問題,p-RoPE 從根本上繞過了這個限制。

雙配置注意力則是另一項值得关注的結構創新:Gemma 4 首次在硬體層面上區分滑動層與全域層。稠密模型的 50 層滑動層使用 32 查詢頭 + 16 KV 頭 + 頭維度 256;10 層全域層則用 32 查詢頭 + 4 KV 頭 + 頭維度 512。這種差異化設計讓全域層能捕捉更長距離的依賴關係,而滑動層則以更低的計算成本處理局部上下文。

並行稠密+稀疏架構:Gemma 4 MoE 的獨特設計

大多數 MoE 架構(如 DeepSeek、Qwen)是用專家替換標準 FFN,而 Gemma 4 MoE 採用罕見的並行設計:每層同時運行一個精簡的 GeGLU FFN(中間層大小 2,112)與一個 128 專家 MoE 模組,兩者輸出相加後乘以 1/√2 縮放。這種「稠密能力常駐 + 稀疏專家專業」的並列設計,理論上讓 MoE 模型在保持專家路由靈活性的同時,確保了基礎稠密能力的穩定輸出。

KV 快取:MoE 在長上下文的隱性優勢

場景26B-A4B (Q4)31B (Q4)
僅權重~18 GB~20 GB
+ 128K 上下文20 GB30 GB
+ 256K 上下文23 GB40 GB

雖然總參數量差異不大,但 MoE 的 4 倍小的 KV 快取(層數更少、KV 頭更少)成為長上下文場景的決定性因素。26B 模型能在單張 24GB GPU 上容納 256K 全上下文;31B 則在約 45K 處就達到上限。

基準測試:品質差距微小的領域與退化明顯的領域

基準測試31B Dense26B MoEMoE 保留率
MMLU Pro85.2%82.6%97%
AIME 202689.2%88.3%99%
GPQA Diamond84.3%82.3%98%
LiveCodeBench v680.0%77.1%96%
Codeforces ELO2,1501,71880%
MRCR v2 128K (8針)66.4%44.1%66%
HLE (不含工具)19.5%8.7%45%

MoE 在標準推理與編碼基準測試中保留了 96–99% 的性能,極為出色。三個明顯退化領域:長上下文多針召回、競賽編程、以及需要深度多步推理的極難任務。


我的觀點

Gemma 4 的意義,不只是兩款模型本身,而是 Google 終於搞清楚了開源市場需要什麼:不是只有一款「SOTA 冠軍」,而是一套工具組,讓不同需求的開發者自己選擇。

對大多數實際應用場景(Agent 框架、聊天機器人、RAG),26B MoE 是更理性的選擇——3 倍吞吐量、RTX 4090 就能跑 256K 上下文、96% 以上的品質保留率,性價比極高。但工程師社群裡「選稠密」的直覺不是錯的:在競賽編程、尖端科學推理這些任務上,31B 的領先是實實在在的 20-30% 差距,不是調參能追回來的。

值得關注的是與 Qwen 3.5 系列的正面競爭。Gemma 4 MoE 的直接競爭對手是 Qwen 3.5-35B-A3B(類似的 ~3B 激活參數 MoE),兩者在不同基準上互有勝負。這預示著開源模型的競爭焦點,已從「誰能做出最大的模型」轉移到「誰能在固定計算預算下提供最好的品質-效率曲線」。


參考連結

Share
已複製!