2026 开源大模型大爆发:从 DeepSeek-V3 到 Mistral Small 4,开源生态的范式跃迁
约 29 分钟8520 字1 次阅读
导言:从 Llama 2 的「追赶者」到 2026 的「并行者」
如果把 2023 年的开源大模型生态看作一场「追赶」——LLaMA-7B 刚开源时,开发者兴奋的是「我们终于能在本地跑得起一个能用的语言模型」——那么到了 2026 年的今天,这场追逐赛的规则已经被彻底改写。开源阵营不仅在质量上逼近闭源旗舰,更在架构创新、训练范式、推理时计算、多模态原生融合、超长上下文、端侧部署等所有关键维度上,与 GPT 系、Claude 系、Gemini 系形成了并行演进的态势。
过去 18 个月,至少有 6 个里程碑式的事件值得我们认真复盘:
- DeepSeek-V3(2024 年 12 月)—— 671B 总参数 / 37B 激活参数的 MoE 模型,仅用 2.788M H800 GPU 小时完成训练,性能对标当时闭源旗舰;
- Llama 4 Scout / Maverick(2025 年 4 月)—— Meta 的首个原生多模态 MoE,开源 10M token 上下文,实验版在 LMArena 拿到 ELO 1417;
- Qwen3(2025 年 4 月底)—— 阿里通义千问发布 235B-A22B 与 30B-A3B 两款 MoE,外加 6 款稠密模型,全面拥抱 Apache 2.0;
- gpt-oss-120b / 20b(2025 年 8 月)—— OpenAI 时隔 6 年再次开源,两款 MoE 模型,Apache 2.0 协议,MXFP4 量化后 120B 跑得进 80GB 显存的 H100;
- Mistral Small 4(2026 年 3 月 16 日)—— 把 Magistral(推理)、Pixtral(多模态)、Devstral(Agent 编码)三套原本独立的模型融合成单一通用模型,同样 Apache 2.0;
- 国产开源侧:DeepSeek、Qwen、Kimi、智谱 GLM、零一万物、Yi 在 Hugging Face 的下载量与社区贡献度持续走高。
这个格局意味着什么?意味着「闭源 vs 开源」正在从「是或否」的二元命题,变成「在哪一层、哪个垂直、哪个时延、哪个部署形态」的混合架构命题。本文尝试从架构、训练、推理、多模态、商业化五个维度,做一次尽量贴近 2026 年 6 月现状的深度复盘。
一、架构维度:MoE 不再是「省显存技巧」,而是「主力军」
1.1 从稀疏门控到「全栈 MoE 化」
2024 年之前,开源社区对 Mixture-of-Experts 的态度还偏保守——Mixtral 8x7B 让人看到了「激活参数比总参数小一个数量级」的甜头,但 MoE 在训练稳定性、推理路由、显存峰值上的工程化问题让很多人望而却步。2024 年下半年开始,MoE 几乎成了新发模型的默认架构:
- DeepSeek-V3:671B 总参数 / 37B 激活 / 256 路由专家 + 1 共享专家;用 Multi-head Latent Attention (MLA) 做 KV 压缩,用 DeepSeekMoE 架构做细粒度专家切分;首次在 MoE 训练中实现 auxiliary-loss-free 的负载均衡策略(不依赖传统辅助损失函数,避免专家负载坍缩)。
- Qwen3-235B-A22B:235B 总参数 / 22B 激活 / 128 专家(激活 8 个)。
- Qwen3-30B-A3B:30B 总参数 / 3B 激活 / 128 专家(激活 8 个)。
- Llama 4 Scout:17B 激活 / 16 专家,首次开源原生多模态 MoE,Int4 量化后单卡 H100 可跑。
- Llama 4 Maverick:17B 激活 / 128 专家。
- Llama 4 Behemoth(仍在训练):288B 激活 / 16 专家,作为 Scout/Maverick 的蒸馏教师。
- gpt-oss-120b:117B 总参数 / 5.1B 激活,MXFP4 量化 MoE——这是 OpenAI 第一次在开源模型上公开使用 MXFP4 路径训练并发布。
- gpt-oss-20b:21B 总参数 / 3.6B 激活,16GB 内存即可跑(消费级笔记本/Mac M 系列 GPU 直接部署)。
注意这些数字背后的两个关键趋势:
趋势一:激活参数比总参数越来越小。DeepSeek-V3 激活比 5.5%,gpt-oss-120b 激活比 4.4%,Qwen3-30B-A3B 激活比 10%。这意味着训练成本可以下放到中小机构,推理成本可以压到消费级硬件。
趋势二:MLA / 滑动窗口注意力 / 状态空间模型 / 混合架构 都在快速演进。DeepSeek-V3 的 MLA 把 KV 缓存压缩到原来的几十分之一,让 671B 模型的推理时显存占用接近稠密 37B 模型。
1.2 长上下文:从 128K 到 10M
Llama 4 Scout 的 10M token 上下文 是 2025 年开源侧最大的「核弹级」新闻——10M 大约等于 1500 万字的中文、20 本普通长篇小说。配合 Meta 自研的位置编码插值(positional interpolation)与推理时注意力 sink,10M 不是「理论支持」而是「工程上能跑」。
与此同时:
- Qwen3-32B / 14B / 8B 等稠密模型原生支持 128K。
- DeepSeek-V3 同样 128K。
- gpt-oss 系列的上下文支持是 128K(不算最激进,但稳)。
对应用侧的影响:2026 年开始,「整个代码仓库一次性喂给模型做全局重构」、「完整长篇小说一次性让模型做风格分析」、「企业级完整文档库做 RAG」都不再是 demo 级炫技,而是真能落地的工程能力。
1.3 训练范式:先 MoE 蒸馏,再用 RL「点石成金」
Llama 4 系列明确提到「distillation from Llama 4 Behemoth」——Behemoth 作为教师(288B 激活),把推理能力蒸馏到 Scout/Maverick(17B 激活)。这是一种「大模型教小模型」的新范式:
- 传统预训练:教师模型只用于数据生成(self-instruct、evol-instruct)。
- 2025-2026 新范式:教师模型同时承担「数据生成」+「logit 蒸馏」+「中间层特征对齐」三重角色。
配合 GRPO / DPO / RLVR / Process Reward Model 等后训练技术,开源模型在数学、代码、推理任务上的能力被显著拉升。Qwen3 官方博客明确提到,Qwen3-30B-A3B 在多个基准上超过了 32B 稠密的 QwQ-32B,而激活参数只有后者的约 1/10。
二、训练维度:成本与算力的「去中心化」
2.1 训练成本断崖式下降
DeepSeek-V3 公开的训练成本数据是开源侧第一次有厂商敢把账本摊开:
- 总训练算力:2.788M H800 GPU 小时
- 预训练 token 量:14.8 万亿
- 后训练:SFT + RL(具体规模未公开,但参考同期模型应在数千到数万 GPU 小时量级)
横向对比(按公开口径):
- Llama 3 405B(2024 年中):约 30.8M H100 小时;
- Llama 4 Behemoth(仍在训练,规模未公开);
- GPT-4(2023 年发布):训练成本估算约 5000 万-1 亿美元;
- Claude 3.5 Sonnet:未公开。
DeepSeek-V3 2.788M H800 小时是什么概念?按 AWS p5.48xlarge 单价 $98/小时 粗算,全训练租云成本约 2.7 亿美元;但 DeepSeek 自有算力 + 极致工程优化让他们的实际边际成本远低于此。这条数据让「训练一个对标 GPT-4 的开源模型」从「国家级工程」降级为「头部互联网公司级工程」。
2.2 数据策略:从「爬得多」到「洗得精」
开源社区在 2024-2026 年间形成了几个共同数据策略:
- 多阶段去重 + 质量过滤:Qwen3 官方提到数据 pipeline 包含 5 个层级的质量过滤。
- 合成数据占比上升:Llama 4 Behemoth 用合成数据训练 Scout/Maverick;DeepSeek-V3 在 14.8T 中明确包含大量合成 reasoning trace。
- 多语言平衡:Qwen3 中文占比显著高于 Llama 4;DeepSeek 同样中英并重。
2.3 训练稳定性:MoE 不再「动不动 loss spike」
DeepSeek-V3 官方明确写到:「Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks.」这在两年前是不可想象的——彼时训练一个 100B+ MoE 模型几乎一定会遇到几次 loss spike,需要回滚 checkpoint。DeepSeek 的 auxiliary-loss-free 负载均衡 + 细粒度路由 + 训练调度上的多重保险,让 MoE 训练变得「工程上可预测」。
三、推理维度:从「单次生成」到「思考预算」
3.1 Hybrid Thinking:让用户自己控制「想多久」
Qwen3 引入的 Hybrid Thinking Modes 是 2025 年开源侧最重要的推理范式创新:
- Thinking Mode:模型「先想后答」,输出完整的 chain-of-thought 后再给最终答案。
- Non-Thinking Mode:模型「不思考直接答」,用于简单问题的低延迟场景。
- 关键设计:两种模式用同一个模型、同一个权重——通过 chat template 中的
enable_thinking标志切换。
这意味着部署方可以根据请求的复杂度动态分配算力:客服咨询用 Non-Thinking(毫秒级响应),代码审查用 Thinking(秒级响应 + 高质量输出)。配套的「thinking budget control」让 Qwen3 能在严格 latency SLA 下用预算约束推理深度。
3.2 Reasoning 模型的「配比工程」
Llama 4 Behemoth 蒸馏到 Scout/Maverick;DeepSeek R1 / R2 系列专门做 reasoning;Qwen3 把 thinking 模式作为一等公民;OpenAI 的 gpt-oss 把 reasoning effort 暴露为三个可调档位(low/medium/high)。这些设计背后是同一个认知:
推理能力不是「开关」,而是「预算」。把推理从 0% 到 100% 切三档,远比「要或不要」灵活。
gpt-oss 模型卡上明确写道:「Configurable reasoning effort: Easily adjust the reasoning effort (low, medium, high) based on your specific use case and latency needs.」这是 OpenAI 把 o-series 的核心能力直接暴露给开发者的开源版本。
3.3 推理时的工具调用与全链 CoT
gpt-oss 在 Apache 2.0 下原生支持:
- Function calling
- Web browsing(在沙箱内)
- Python code execution(在沙箱内)
- Structured Outputs
- Full chain-of-thought(开发者可见,但不推荐直接展示给终端用户——CoT 可能包含未充分对齐的中间推理)
这一套组合拳让开源模型第一次在「Agent 原生能力」上和闭源旗舰站到了同一条起跑线。
四、多模态维度:从「拼接」到「原生融合」
4.1 Llama 4:Meta 第一次做真正的「原生多模态」
之前的开源多模态大多是「LLaVA 模式」——用一个 vision encoder 抽图像特征,接一个 projector 投到 LLM 的 embedding 空间,再让 LLM 接着推理。这种「胶水式」做法的问题是:模型对图像的理解完全依赖 projector 那一层薄的映射,深度视觉推理能力受限。
Llama 4 的设计是 early fusion——视觉 token 在预训练阶段就与文本 token 一起进入 transformer,让模型从零开始学习「视觉和语言是同一种 sequence」。Meta 的官方原话是「the first open-weight natively multimodal models with unprecedented context length support and our first built using a mixture-of-experts (MoE) architecture.」
4.2 Mistral Small 4:把三套模型「融合」成一套
Mistral 2026 年 3 月发布的 Mistral Small 4 走的是另一条路——整合:把该公司原本分散的 Magistral(reasoning)、Pixtral(multimodal)、Devstral(agentic coding)三套模型的能力融合到一个统一的 dense 模型里。官方原话:
「Mistral Small 4 is the first Mistral model to unify the capabilities of our flagship models, Magistral for reasoning, Pixtral for multimodal, and Devstral for agentic coding, into a single, versatile model.」
这意味着开发者不再需要根据任务类型「选模型」——同一个 Mistral Small 4 权重可以同时做数学推理、看图问答、Agent 编码,且支持可配置的 reasoning effort。
4.3 视频、音频与「全模态」前沿
截至 2026 年 6 月,开源阵营在视频生成(与 Sora 2 级别)、原生音频生成、音乐生成等模态上仍落后于闭源旗舰 6-12 个月。但 Mistral 的 Voxtral TTS、Mistral 3(多模态旗舰)、社区的 LTX-Video、CogVideoX、HunyuanVideo 等已经把「可用级别」的多模态生成拉到了消费级显卡(24GB-48GB)能跑的范畴。
五、商业化与生态维度:从「发布即结束」到「发布即开始」
5.1 Apache 2.0 成为「事实标准」
Qwen3 全系、Llama 4 全系、gpt-oss 全系、Mistral Small 4 全部采用 Apache 2.0 协议(Llama 4 仍带 Llama Community License,但已大幅放宽商用限制)。这与 2023 年 LLaMA-2 的「研究 + 商业需申请」形成鲜明对比。
Apache 2.0 的实际意义:
- 企业可商用无需审批;
- 可二次分发、修改、私有化部署;
- 专利授权条款清晰(Apache 2.0 内含专利授权,规避「专利伏击」风险)。
这意味着 2026 年起,「用开源模型搭建生产级 AI 产品」的法律门槛基本消失。
5.2 端侧部署:从「服务器」到「笔记本」到「手机」
gpt-oss-20b 的 16GB 内存需求意味着16GB 内存的 MacBook Pro、消费级 16GB 显存的工作站、高通骁龙 X Elite 2 笔记本 都能本地跑。Qwen3-0.6B / 1.7B / 4B 这些稠密小模型则可以跑在手机上。
2026 年的一个真实场景:一个完全离线的 MacBook Air,跑了 Qwen3-4B + 一些本地工具 + 一个轻量 RAG,可以在没有网络的情况下完成「读 PDF、写代码、回答客户邮件」三件套。这在 2023 年是科幻,在 2026 年是常态。
5.3 云厂商的「模型市场」分化
Hugging Face、Replicate、Fireworks、Together、Groq、DeepInfra、Cerebrium 等推理平台的「开源模型市场」已经成熟。开发者可以在 5 分钟内把 gpt-oss-120b 部署到 AWS、GCP、Azure 的任何区域,按 token 计费。这与一年前「需要自己搭 vLLM + 写 Dockerfile + 配 K8s」形成鲜明对比。
5.4 中国开源力量的「世界级」
- DeepSeek 在 Hugging Face 的总下载量已稳定在 Top 5,V3 / R1 / V2.5 系列的论文引用数跻身 LLM 学术 Top 10。
- Qwen3 235B-A22B 在多个国际基准(LMSYS Arena、BigCodeBench、LiveCodeBench)上稳定进入开源 Top 3。
- Kimi K2、智谱 GLM-4.5、零一万物 Yi-Lightning、智源 Aquila、百川 Baichuan 等也在各自细分场景有强竞争力。
中国开源生态的「学术论文质量 + 工程化深度 + 商业化生态」三位一体的成熟度,已经与 Meta、Mistral、OpenAI 站在同一阶梯。
六、挑战与开放问题
6.1 评估:基准饱和与「刷分竞赛」
我们之前在 2026 年 6 月 12 日的「LLM 评估的危机与重建」一文中已经详细讨论过——MMLU、GSM8K、HumanEval、GPQA、HLE 等主流基准的饱和度在 2025 年底就达到了 90%+,单纯的 benchmark 数字已经很难反映真实能力差异。开源侧需要:
- 过程性评估(看模型怎么推理的,不只看最终答案);
- 动态基准(题目随时间更新,避免背题);
- 领域专家评估(金融、法律、医疗等垂直场景的人类专家盲评);
- Agent 能力评估(看模型在多轮工具调用环境中的稳健性,而非单轮准确率)。
6.2 安全与对齐
gpt-oss 模型卡明确把 chain-of-thought 「not intended to be shown to end users」 写进 highlight——这反映了开源侧对**「暴露完整 CoT 的安全风险」**的清醒认识。开源生态在以下方向上仍需持续投入:
- RLHF / DPO / Constitutional AI 的训练数据与流程标准化;
- red-teaming 工具链的开源化(Llama Guard、Llama Firewall、Qwen Guard 等都是早期尝试);
- 输出过滤与内容审核 的模块化(让下游开发者能即插即用)。
6.3 推理时成本仍是「最后一公里」
虽然训练成本断崖式下降,推理时成本仍是开源生态的阿喀琉斯之踵:
- MoE 模型虽然激活参数小,但总参数必须全部加载到显存——gpt-oss-120b 即使激活 5.1B,也需要 80GB 显存(量化后);
- 长上下文(10M)推理的KV 缓存是 128K 模型的几十倍,prefill 时间线性增长;
- 多模态输入(视频、长音频)的预处理开销远高于文本。
社区正在通过 Speculative Decoding、Continuous Batching、PagedAttention、FlashAttention-3、Mamba/SSM 混合架构 等手段持续优化,但「让开源模型在低延迟场景下对标闭源旗舰」仍是 2026 年下半年到 2027 年的核心工程命题。
七、总结与展望
2026 年 6 月这个时点回头看,开源大模型生态已经走过了三个关键阶段:
- 2020-2023:可用阶段——LLaMA-1/2、Falcon、Mistral-7B 让开源模型「能跑、能用、够轻」;
- 2024-2025:追平阶段——Mixtral、DeepSeek-V2/V3、Llama 3/4、Qwen2.5/3 让开源模型在「主流基准」上追平闭源旗舰;
- 2026:原生阶段——gpt-oss、Mistral Small 4、Llama 4 等让开源模型在多模态原生融合、Agent 原生能力、端侧原生部署、推理预算可调等维度上与闭源旗舰并行演进。
展望未来 12-18 个月,开源大模型在以下几个方向上的突破值得期待:
- 原生视频 / 音频 / 3D 多模态与 Llama 4 级别的文本-视觉融合(不再是「拼接」而是「全模态原生」);
- 状态空间模型(SSM)/ 混合注意力架构在长上下文场景替代纯 Transformer(性能与效率的进一步 trade-off);
- 端侧大模型在手机、AR 眼镜、嵌入式设备上的常态化部署(2-4B 参数量级的「能干活」的小模型);
- 领域专家模型在医疗、法律、金融、代码等垂直场景的开源化(与基础模型形成「基座 + 领域专家」的双层架构);
- Agent 原生模型在 function calling、long-horizon planning、tool use 评估上的标准化(与之前讨论的 OpenAI 五 Agent 工作流模式相互呼应)。
最后一句话:开源大模型的「追赶叙事」已经结束,「并行叙事」才刚刚开始。开发者、企业、研究者的核心问题不再是「用开源还是用闭源」,而是「在哪个部署形态、哪个垂直场景、哪个延迟 / 成本 / 能力权衡下,用哪个具体模型」——这是一个关于工程决策的问题,而不再是关于阵营的问题。
参考资料
- DeepSeek-V3 Technical Report — https://arxiv.org/abs/2412.19437
- Qwen3: Think Deeper, Act Faster — https://qwenlm.github.io/blog/qwen3/
- The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation — https://ai.meta.com/blog/llama-4-multimodal-intelligence/
- Introducing gpt-oss (OpenAI Model Card) — https://huggingface.co/openai/gpt-oss-120b
- Introducing Mistral Small 4 — https://mistral.ai/news/mistral-small-4
- gpt-oss Paper — https://arxiv.org/abs/2508.10925
- OpenAI Open Models Hub — https://openai.com/open-models
- Hugging Face Open LLM Leaderboard — https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard