博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

  1. 文章
  2. 2026 开源大模型大爆发:从 DeepSeek-V3 到 Mistral Small 4,开源生态的范式跃迁

2026 开源大模型大爆发:从 DeepSeek-V3 到 Mistral Small 4,开源生态的范式跃迁

2026年6月15日·约 29 分钟·8520 字·1 次阅读
大模型研究
2026 开源大模型大爆发:从 DeepSeek-V3 到 Mistral Small 4,开源生态的范式跃迁

目录

  • 导言:从 Llama 2 的「追赶者」到 2026 的「并行者」
  • 一、架构维度:MoE 不再是「省显存技巧」,而是「主力军」
  • 1.1 从稀疏门控到「全栈 MoE 化」
  • 1.2 长上下文:从 128K 到 10M
  • 1.3 训练范式:先 MoE 蒸馏,再用 RL「点石成金」
  • 二、训练维度:成本与算力的「去中心化」
  • 2.1 训练成本断崖式下降
  • 2.2 数据策略:从「爬得多」到「洗得精」
  • 2.3 训练稳定性:MoE 不再「动不动 loss spike」
  • 三、推理维度:从「单次生成」到「思考预算」
  • 3.1 Hybrid Thinking:让用户自己控制「想多久」
  • 3.2 Reasoning 模型的「配比工程」
  • 3.3 推理时的工具调用与全链 CoT
  • 四、多模态维度:从「拼接」到「原生融合」
  • 4.1 Llama 4:Meta 第一次做真正的「原生多模态」
  • 4.2 Mistral Small 4:把三套模型「融合」成一套
  • 4.3 视频、音频与「全模态」前沿
  • 五、商业化与生态维度:从「发布即结束」到「发布即开始」
  • 5.1 Apache 2.0 成为「事实标准」
  • 5.2 端侧部署:从「服务器」到「笔记本」到「手机」
  • 5.3 云厂商的「模型市场」分化
  • 5.4 中国开源力量的「世界级」
  • 六、挑战与开放问题
  • 6.1 评估:基准饱和与「刷分竞赛」
  • 6.2 安全与对齐
  • 6.3 推理时成本仍是「最后一公里」
  • 七、总结与展望
  • 参考资料

导言:从 Llama 2 的「追赶者」到 2026 的「并行者」

如果把 2023 年的开源大模型生态看作一场「追赶」——LLaMA-7B 刚开源时,开发者兴奋的是「我们终于能在本地跑得起一个能用的语言模型」——那么到了 2026 年的今天,这场追逐赛的规则已经被彻底改写。开源阵营不仅在质量上逼近闭源旗舰,更在架构创新、训练范式、推理时计算、多模态原生融合、超长上下文、端侧部署等所有关键维度上,与 GPT 系、Claude 系、Gemini 系形成了并行演进的态势。

过去 18 个月,至少有 6 个里程碑式的事件值得我们认真复盘:

  1. DeepSeek-V3(2024 年 12 月)—— 671B 总参数 / 37B 激活参数的 MoE 模型,仅用 2.788M H800 GPU 小时完成训练,性能对标当时闭源旗舰;
  2. Llama 4 Scout / Maverick(2025 年 4 月)—— Meta 的首个原生多模态 MoE,开源 10M token 上下文,实验版在 LMArena 拿到 ELO 1417;
  3. Qwen3(2025 年 4 月底)—— 阿里通义千问发布 235B-A22B 与 30B-A3B 两款 MoE,外加 6 款稠密模型,全面拥抱 Apache 2.0;
  4. gpt-oss-120b / 20b(2025 年 8 月)—— OpenAI 时隔 6 年再次开源,两款 MoE 模型,Apache 2.0 协议,MXFP4 量化后 120B 跑得进 80GB 显存的 H100;
  5. Mistral Small 4(2026 年 3 月 16 日)—— 把 Magistral(推理)、Pixtral(多模态)、Devstral(Agent 编码)三套原本独立的模型融合成单一通用模型,同样 Apache 2.0;
  6. 国产开源侧:DeepSeek、Qwen、Kimi、智谱 GLM、零一万物、Yi 在 Hugging Face 的下载量与社区贡献度持续走高。

这个格局意味着什么?意味着「闭源 vs 开源」正在从「是或否」的二元命题,变成「在哪一层、哪个垂直、哪个时延、哪个部署形态」的混合架构命题。本文尝试从架构、训练、推理、多模态、商业化五个维度,做一次尽量贴近 2026 年 6 月现状的深度复盘。

一、架构维度:MoE 不再是「省显存技巧」,而是「主力军」

1.1 从稀疏门控到「全栈 MoE 化」

2024 年之前,开源社区对 Mixture-of-Experts 的态度还偏保守——Mixtral 8x7B 让人看到了「激活参数比总参数小一个数量级」的甜头,但 MoE 在训练稳定性、推理路由、显存峰值上的工程化问题让很多人望而却步。2024 年下半年开始,MoE 几乎成了新发模型的默认架构:

  • DeepSeek-V3:671B 总参数 / 37B 激活 / 256 路由专家 + 1 共享专家;用 Multi-head Latent Attention (MLA) 做 KV 压缩,用 DeepSeekMoE 架构做细粒度专家切分;首次在 MoE 训练中实现 auxiliary-loss-free 的负载均衡策略(不依赖传统辅助损失函数,避免专家负载坍缩)。
  • Qwen3-235B-A22B:235B 总参数 / 22B 激活 / 128 专家(激活 8 个)。
  • Qwen3-30B-A3B:30B 总参数 / 3B 激活 / 128 专家(激活 8 个)。
  • Llama 4 Scout:17B 激活 / 16 专家,首次开源原生多模态 MoE,Int4 量化后单卡 H100 可跑。
  • Llama 4 Maverick:17B 激活 / 128 专家。
  • Llama 4 Behemoth(仍在训练):288B 激活 / 16 专家,作为 Scout/Maverick 的蒸馏教师。
  • gpt-oss-120b:117B 总参数 / 5.1B 激活,MXFP4 量化 MoE——这是 OpenAI 第一次在开源模型上公开使用 MXFP4 路径训练并发布。
  • gpt-oss-20b:21B 总参数 / 3.6B 激活,16GB 内存即可跑(消费级笔记本/Mac M 系列 GPU 直接部署)。

注意这些数字背后的两个关键趋势:

趋势一:激活参数比总参数越来越小。DeepSeek-V3 激活比 5.5%,gpt-oss-120b 激活比 4.4%,Qwen3-30B-A3B 激活比 10%。这意味着训练成本可以下放到中小机构,推理成本可以压到消费级硬件。

趋势二:MLA / 滑动窗口注意力 / 状态空间模型 / 混合架构 都在快速演进。DeepSeek-V3 的 MLA 把 KV 缓存压缩到原来的几十分之一,让 671B 模型的推理时显存占用接近稠密 37B 模型。

1.2 长上下文:从 128K 到 10M

Llama 4 Scout 的 10M token 上下文 是 2025 年开源侧最大的「核弹级」新闻——10M 大约等于 1500 万字的中文、20 本普通长篇小说。配合 Meta 自研的位置编码插值(positional interpolation)与推理时注意力 sink,10M 不是「理论支持」而是「工程上能跑」。

与此同时:

  • Qwen3-32B / 14B / 8B 等稠密模型原生支持 128K。
  • DeepSeek-V3 同样 128K。
  • gpt-oss 系列的上下文支持是 128K(不算最激进,但稳)。

对应用侧的影响:2026 年开始,「整个代码仓库一次性喂给模型做全局重构」、「完整长篇小说一次性让模型做风格分析」、「企业级完整文档库做 RAG」都不再是 demo 级炫技,而是真能落地的工程能力。

1.3 训练范式:先 MoE 蒸馏,再用 RL「点石成金」

Llama 4 系列明确提到「distillation from Llama 4 Behemoth」——Behemoth 作为教师(288B 激活),把推理能力蒸馏到 Scout/Maverick(17B 激活)。这是一种「大模型教小模型」的新范式:

  • 传统预训练:教师模型只用于数据生成(self-instruct、evol-instruct)。
  • 2025-2026 新范式:教师模型同时承担「数据生成」+「logit 蒸馏」+「中间层特征对齐」三重角色。

配合 GRPO / DPO / RLVR / Process Reward Model 等后训练技术,开源模型在数学、代码、推理任务上的能力被显著拉升。Qwen3 官方博客明确提到,Qwen3-30B-A3B 在多个基准上超过了 32B 稠密的 QwQ-32B,而激活参数只有后者的约 1/10。

二、训练维度:成本与算力的「去中心化」

2.1 训练成本断崖式下降

DeepSeek-V3 公开的训练成本数据是开源侧第一次有厂商敢把账本摊开:

  • 总训练算力:2.788M H800 GPU 小时
  • 预训练 token 量:14.8 万亿
  • 后训练:SFT + RL(具体规模未公开,但参考同期模型应在数千到数万 GPU 小时量级)

横向对比(按公开口径):

  • Llama 3 405B(2024 年中):约 30.8M H100 小时;
  • Llama 4 Behemoth(仍在训练,规模未公开);
  • GPT-4(2023 年发布):训练成本估算约 5000 万-1 亿美元;
  • Claude 3.5 Sonnet:未公开。

DeepSeek-V3 2.788M H800 小时是什么概念?按 AWS p5.48xlarge 单价 $98/小时 粗算,全训练租云成本约 2.7 亿美元;但 DeepSeek 自有算力 + 极致工程优化让他们的实际边际成本远低于此。这条数据让「训练一个对标 GPT-4 的开源模型」从「国家级工程」降级为「头部互联网公司级工程」。

2.2 数据策略:从「爬得多」到「洗得精」

开源社区在 2024-2026 年间形成了几个共同数据策略:

  1. 多阶段去重 + 质量过滤:Qwen3 官方提到数据 pipeline 包含 5 个层级的质量过滤。
  2. 合成数据占比上升:Llama 4 Behemoth 用合成数据训练 Scout/Maverick;DeepSeek-V3 在 14.8T 中明确包含大量合成 reasoning trace。
  3. 多语言平衡:Qwen3 中文占比显著高于 Llama 4;DeepSeek 同样中英并重。

2.3 训练稳定性:MoE 不再「动不动 loss spike」

DeepSeek-V3 官方明确写到:「Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks.」这在两年前是不可想象的——彼时训练一个 100B+ MoE 模型几乎一定会遇到几次 loss spike,需要回滚 checkpoint。DeepSeek 的 auxiliary-loss-free 负载均衡 + 细粒度路由 + 训练调度上的多重保险,让 MoE 训练变得「工程上可预测」。

三、推理维度:从「单次生成」到「思考预算」

3.1 Hybrid Thinking:让用户自己控制「想多久」

Qwen3 引入的 Hybrid Thinking Modes 是 2025 年开源侧最重要的推理范式创新:

  • Thinking Mode:模型「先想后答」,输出完整的 chain-of-thought 后再给最终答案。
  • Non-Thinking Mode:模型「不思考直接答」,用于简单问题的低延迟场景。
  • 关键设计:两种模式用同一个模型、同一个权重——通过 chat template 中的 enable_thinking 标志切换。

这意味着部署方可以根据请求的复杂度动态分配算力:客服咨询用 Non-Thinking(毫秒级响应),代码审查用 Thinking(秒级响应 + 高质量输出)。配套的「thinking budget control」让 Qwen3 能在严格 latency SLA 下用预算约束推理深度。

3.2 Reasoning 模型的「配比工程」

Llama 4 Behemoth 蒸馏到 Scout/Maverick;DeepSeek R1 / R2 系列专门做 reasoning;Qwen3 把 thinking 模式作为一等公民;OpenAI 的 gpt-oss 把 reasoning effort 暴露为三个可调档位(low/medium/high)。这些设计背后是同一个认知:

推理能力不是「开关」,而是「预算」。把推理从 0% 到 100% 切三档,远比「要或不要」灵活。

gpt-oss 模型卡上明确写道:「Configurable reasoning effort: Easily adjust the reasoning effort (low, medium, high) based on your specific use case and latency needs.」这是 OpenAI 把 o-series 的核心能力直接暴露给开发者的开源版本。

3.3 推理时的工具调用与全链 CoT

gpt-oss 在 Apache 2.0 下原生支持:

  • Function calling
  • Web browsing(在沙箱内)
  • Python code execution(在沙箱内)
  • Structured Outputs
  • Full chain-of-thought(开发者可见,但不推荐直接展示给终端用户——CoT 可能包含未充分对齐的中间推理)

这一套组合拳让开源模型第一次在「Agent 原生能力」上和闭源旗舰站到了同一条起跑线。

四、多模态维度:从「拼接」到「原生融合」

4.1 Llama 4:Meta 第一次做真正的「原生多模态」

之前的开源多模态大多是「LLaVA 模式」——用一个 vision encoder 抽图像特征,接一个 projector 投到 LLM 的 embedding 空间,再让 LLM 接着推理。这种「胶水式」做法的问题是:模型对图像的理解完全依赖 projector 那一层薄的映射,深度视觉推理能力受限。

Llama 4 的设计是 early fusion——视觉 token 在预训练阶段就与文本 token 一起进入 transformer,让模型从零开始学习「视觉和语言是同一种 sequence」。Meta 的官方原话是「the first open-weight natively multimodal models with unprecedented context length support and our first built using a mixture-of-experts (MoE) architecture.」

4.2 Mistral Small 4:把三套模型「融合」成一套

Mistral 2026 年 3 月发布的 Mistral Small 4 走的是另一条路——整合:把该公司原本分散的 Magistral(reasoning)、Pixtral(multimodal)、Devstral(agentic coding)三套模型的能力融合到一个统一的 dense 模型里。官方原话:

「Mistral Small 4 is the first Mistral model to unify the capabilities of our flagship models, Magistral for reasoning, Pixtral for multimodal, and Devstral for agentic coding, into a single, versatile model.」

这意味着开发者不再需要根据任务类型「选模型」——同一个 Mistral Small 4 权重可以同时做数学推理、看图问答、Agent 编码,且支持可配置的 reasoning effort。

4.3 视频、音频与「全模态」前沿

截至 2026 年 6 月,开源阵营在视频生成(与 Sora 2 级别)、原生音频生成、音乐生成等模态上仍落后于闭源旗舰 6-12 个月。但 Mistral 的 Voxtral TTS、Mistral 3(多模态旗舰)、社区的 LTX-Video、CogVideoX、HunyuanVideo 等已经把「可用级别」的多模态生成拉到了消费级显卡(24GB-48GB)能跑的范畴。

五、商业化与生态维度:从「发布即结束」到「发布即开始」

5.1 Apache 2.0 成为「事实标准」

Qwen3 全系、Llama 4 全系、gpt-oss 全系、Mistral Small 4 全部采用 Apache 2.0 协议(Llama 4 仍带 Llama Community License,但已大幅放宽商用限制)。这与 2023 年 LLaMA-2 的「研究 + 商业需申请」形成鲜明对比。

Apache 2.0 的实际意义:

  • 企业可商用无需审批;
  • 可二次分发、修改、私有化部署;
  • 专利授权条款清晰(Apache 2.0 内含专利授权,规避「专利伏击」风险)。

这意味着 2026 年起,「用开源模型搭建生产级 AI 产品」的法律门槛基本消失。

5.2 端侧部署:从「服务器」到「笔记本」到「手机」

gpt-oss-20b 的 16GB 内存需求意味着16GB 内存的 MacBook Pro、消费级 16GB 显存的工作站、高通骁龙 X Elite 2 笔记本 都能本地跑。Qwen3-0.6B / 1.7B / 4B 这些稠密小模型则可以跑在手机上。

2026 年的一个真实场景:一个完全离线的 MacBook Air,跑了 Qwen3-4B + 一些本地工具 + 一个轻量 RAG,可以在没有网络的情况下完成「读 PDF、写代码、回答客户邮件」三件套。这在 2023 年是科幻,在 2026 年是常态。

5.3 云厂商的「模型市场」分化

Hugging Face、Replicate、Fireworks、Together、Groq、DeepInfra、Cerebrium 等推理平台的「开源模型市场」已经成熟。开发者可以在 5 分钟内把 gpt-oss-120b 部署到 AWS、GCP、Azure 的任何区域,按 token 计费。这与一年前「需要自己搭 vLLM + 写 Dockerfile + 配 K8s」形成鲜明对比。

5.4 中国开源力量的「世界级」

  • DeepSeek 在 Hugging Face 的总下载量已稳定在 Top 5,V3 / R1 / V2.5 系列的论文引用数跻身 LLM 学术 Top 10。
  • Qwen3 235B-A22B 在多个国际基准(LMSYS Arena、BigCodeBench、LiveCodeBench)上稳定进入开源 Top 3。
  • Kimi K2、智谱 GLM-4.5、零一万物 Yi-Lightning、智源 Aquila、百川 Baichuan 等也在各自细分场景有强竞争力。

中国开源生态的「学术论文质量 + 工程化深度 + 商业化生态」三位一体的成熟度,已经与 Meta、Mistral、OpenAI 站在同一阶梯。

六、挑战与开放问题

6.1 评估:基准饱和与「刷分竞赛」

我们之前在 2026 年 6 月 12 日的「LLM 评估的危机与重建」一文中已经详细讨论过——MMLU、GSM8K、HumanEval、GPQA、HLE 等主流基准的饱和度在 2025 年底就达到了 90%+,单纯的 benchmark 数字已经很难反映真实能力差异。开源侧需要:

  • 过程性评估(看模型怎么推理的,不只看最终答案);
  • 动态基准(题目随时间更新,避免背题);
  • 领域专家评估(金融、法律、医疗等垂直场景的人类专家盲评);
  • Agent 能力评估(看模型在多轮工具调用环境中的稳健性,而非单轮准确率)。

6.2 安全与对齐

gpt-oss 模型卡明确把 chain-of-thought 「not intended to be shown to end users」 写进 highlight——这反映了开源侧对**「暴露完整 CoT 的安全风险」**的清醒认识。开源生态在以下方向上仍需持续投入:

  • RLHF / DPO / Constitutional AI 的训练数据与流程标准化;
  • red-teaming 工具链的开源化(Llama Guard、Llama Firewall、Qwen Guard 等都是早期尝试);
  • 输出过滤与内容审核 的模块化(让下游开发者能即插即用)。

6.3 推理时成本仍是「最后一公里」

虽然训练成本断崖式下降,推理时成本仍是开源生态的阿喀琉斯之踵:

  • MoE 模型虽然激活参数小,但总参数必须全部加载到显存——gpt-oss-120b 即使激活 5.1B,也需要 80GB 显存(量化后);
  • 长上下文(10M)推理的KV 缓存是 128K 模型的几十倍,prefill 时间线性增长;
  • 多模态输入(视频、长音频)的预处理开销远高于文本。

社区正在通过 Speculative Decoding、Continuous Batching、PagedAttention、FlashAttention-3、Mamba/SSM 混合架构 等手段持续优化,但「让开源模型在低延迟场景下对标闭源旗舰」仍是 2026 年下半年到 2027 年的核心工程命题。

七、总结与展望

2026 年 6 月这个时点回头看,开源大模型生态已经走过了三个关键阶段:

  1. 2020-2023:可用阶段——LLaMA-1/2、Falcon、Mistral-7B 让开源模型「能跑、能用、够轻」;
  2. 2024-2025:追平阶段——Mixtral、DeepSeek-V2/V3、Llama 3/4、Qwen2.5/3 让开源模型在「主流基准」上追平闭源旗舰;
  3. 2026:原生阶段——gpt-oss、Mistral Small 4、Llama 4 等让开源模型在多模态原生融合、Agent 原生能力、端侧原生部署、推理预算可调等维度上与闭源旗舰并行演进。

展望未来 12-18 个月,开源大模型在以下几个方向上的突破值得期待:

  • 原生视频 / 音频 / 3D 多模态与 Llama 4 级别的文本-视觉融合(不再是「拼接」而是「全模态原生」);
  • 状态空间模型(SSM)/ 混合注意力架构在长上下文场景替代纯 Transformer(性能与效率的进一步 trade-off);
  • 端侧大模型在手机、AR 眼镜、嵌入式设备上的常态化部署(2-4B 参数量级的「能干活」的小模型);
  • 领域专家模型在医疗、法律、金融、代码等垂直场景的开源化(与基础模型形成「基座 + 领域专家」的双层架构);
  • Agent 原生模型在 function calling、long-horizon planning、tool use 评估上的标准化(与之前讨论的 OpenAI 五 Agent 工作流模式相互呼应)。

最后一句话:开源大模型的「追赶叙事」已经结束,「并行叙事」才刚刚开始。开发者、企业、研究者的核心问题不再是「用开源还是用闭源」,而是「在哪个部署形态、哪个垂直场景、哪个延迟 / 成本 / 能力权衡下,用哪个具体模型」——这是一个关于工程决策的问题,而不再是关于阵营的问题。

参考资料

  1. DeepSeek-V3 Technical Report — https://arxiv.org/abs/2412.19437
  2. Qwen3: Think Deeper, Act Faster — https://qwenlm.github.io/blog/qwen3/
  3. The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation — https://ai.meta.com/blog/llama-4-multimodal-intelligence/
  4. Introducing gpt-oss (OpenAI Model Card) — https://huggingface.co/openai/gpt-oss-120b
  5. Introducing Mistral Small 4 — https://mistral.ai/news/mistral-small-4
  6. gpt-oss Paper — https://arxiv.org/abs/2508.10925
  7. OpenAI Open Models Hub — https://openai.com/open-models
  8. Hugging Face Open LLM Leaderboard — https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

相关文章

  • Post-training 范式 2026:从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发6月15日
  • 2026 年 AI 能力度量的真实地基6月14日
  • MoE 架构 2026:从稀疏门控到 DeepSeek-V3 与 Qwen3 的工程化集大成6月14日

评论

加载评论中…

发表评论

返回文章列表