【技術解析】Gemma 4：31B 稠密 vs 26B MoE 深度解析 • 技術筆記

這篇文章在說什麼

Google 在 2026 年 4 月初發布了 Gemma 4 系列，一口氣帶來四種規格，其中最值得關注的是 31B 稠密模型與 26B-A4B MoE 變體。兩者共享同一套核心技術創新：5:1 混合滑動/全域注意力、比例旋轉位置編碼（p-RoPE）、K=V 權重共享與值歸一化——但在參數規模擴展方式上，走上了完全不同的兩條路。

31B 稠密模型堆疊 60 層 Transformer，每個 Token 都會激活所有 30.7B 參數。26B MoE 模型則以 30 層搭載 128 專家（Top-8 路由），每個 Token 只激活 3.8B 參數（約 15% 激活率），但所有 25.2B 參數都必須駐留在 VRAM 中。MoE 的節省的是計算量而非記憶體佔用——這個細節是很多人誤解的關鍵。

為什麼重要

Gemma 4 的發布是開源模型的一個重要節點。這不只是一次普通的版本更新，而是 Google 首次在開源領域同時拿出「品質冠軍」與「效率冠軍」兩張牌。

對部署方而言，這個選擇框架非常清晰：你要的是巔峰推理品質，還是吞吐量經濟效益？MoE 模型在所有測試硬體和上下文長度下，始終提供 3–3.5 倍的吞吐量優勢，代價是在長上下文檢索（MRCR 128K 保留率僅 66%）、競賽編程（Codeforces ELO 1,718 vs 2,150）和極難任務（HLE 保留率 45%）上出現明顯退化。

對開源生態而言，Apache 2.0 許可協議的採用是一個信號。Google 正在用「完全開放」與 Meta 爭奪開源開發者的信任，這場競爭最終受益的是整個生態。

技術細節

架構創新：p-RoPE 如何突破 256K 上下文

比例旋轉位置編碼（p-RoPE）在全域層中僅將旋轉嵌入應用於 25% 的頭維度（θ=1,000,000），其餘 75% 作為位置無關的語義通道。這項設計使得 Gemma 3 的 128K 上下文得以躍升至 256K 而不損失品質——過去擴展上下文長度往往伴隨著遠距離依賴捕捉能力下降的問題，p-RoPE 從根本上繞過了這個限制。

雙配置注意力則是另一項值得关注的結構創新：Gemma 4 首次在硬體層面上區分滑動層與全域層。稠密模型的 50 層滑動層使用 32 查詢頭 + 16 KV 頭 + 頭維度 256；10 層全域層則用 32 查詢頭 + 4 KV 頭 + 頭維度 512。這種差異化設計讓全域層能捕捉更長距離的依賴關係，而滑動層則以更低的計算成本處理局部上下文。

大多數 MoE 架構（如 DeepSeek、Qwen）是用專家替換標準 FFN，而 Gemma 4 MoE 採用罕見的並行設計：每層同時運行一個精簡的 GeGLU FFN（中間層大小 2,112）與一個 128 專家 MoE 模組，兩者輸出相加後乘以 1/√2 縮放。這種「稠密能力常駐 + 稀疏專家專業」的並列設計，理論上讓 MoE 模型在保持專家路由靈活性的同時，確保了基礎稠密能力的穩定輸出。

KV 快取：MoE 在長上下文的隱性優勢

場景	26B-A4B (Q4)	31B (Q4)
僅權重	~18 GB	~20 GB
+ 128K 上下文	20 GB	30 GB
+ 256K 上下文	23 GB	40 GB

雖然總參數量差異不大，但 MoE 的 4 倍小的 KV 快取（層數更少、KV 頭更少）成為長上下文場景的決定性因素。26B 模型能在單張 24GB GPU 上容納 256K 全上下文；31B 則在約 45K 處就達到上限。

基準測試：品質差距微小的領域與退化明顯的領域

基準測試	31B Dense	26B MoE	MoE 保留率
MMLU Pro	85.2%	82.6%	97%
AIME 2026	89.2%	88.3%	99%
GPQA Diamond	84.3%	82.3%	98%
LiveCodeBench v6	80.0%	77.1%	96%
Codeforces ELO	2,150	1,718	80%
MRCR v2 128K (8針)	66.4%	44.1%	66%
HLE (不含工具)	19.5%	8.7%	45%

MoE 在標準推理與編碼基準測試中保留了 96–99% 的性能，極為出色。三個明顯退化領域：長上下文多針召回、競賽編程、以及需要深度多步推理的極難任務。

我的觀點

Gemma 4 的意義，不只是兩款模型本身，而是 Google 終於搞清楚了開源市場需要什麼：不是只有一款「SOTA 冠軍」，而是一套工具組，讓不同需求的開發者自己選擇。

對大多數實際應用場景（Agent 框架、聊天機器人、RAG），26B MoE 是更理性的選擇——3 倍吞吐量、RTX 4090 就能跑 256K 上下文、96% 以上的品質保留率，性價比極高。但工程師社群裡「選稠密」的直覺不是錯的：在競賽編程、尖端科學推理這些任務上，31B 的領先是實實在在的 20-30% 差距，不是調參能追回來的。

值得關注的是與 Qwen 3.5 系列的正面競爭。Gemma 4 MoE 的直接競爭對手是 Qwen 3.5-35B-A3B（類似的 ~3B 激活參數 MoE），兩者在不同基準上互有勝負。這預示著開源模型的競爭焦點，已從「誰能做出最大的模型」轉移到「誰能在固定計算預算下提供最好的品質-效率曲線」。

參考連結

已複製！