MoE 架构 2026:从稀疏门控到 DeepSeek-V3 与 Qwen3 的工程化集大成
当 671B 参数的 DeepSeek-V3 每个 token 只激活 37B、Qwen3-30B-A3B 只激活 3B 时,MoE 已成为 LLM 规模化的默认范式。本文系统梳理从 Sparsely-Gated MoE (2017) → GShard (2020) → Switch Transformer (2021) → Mixtral (2023) → DeepSeek-MoE/V2/V3 (2024) → Qwen3-MoE (2025) 的工程演化,详解 5 个关键突破、3 类工程权衡、2 个产业判断。