Diffusion LLM：当文本生成从"打字机"变成"并行编辑器"

本文 5 个核心事实点：5 个一手来源，全部经 curl 抓取验证。关键时间线：2025-02（LLaDA 论文） → 2025-05-20（Gemini Diffusion 发布） → 2025-06（Mercury 论文） → 2026-05-12（Mercury 2 发布） → 2026-06-10（DiffusionGemma 开源）

一、问题的起点：自回归为何成为大模型的"原罪"

自 2017 年 Transformer 提出以来，几乎所有主流大模型——GPT 系列、Claude 系列、Gemini、LLaMA、Qwen、DeepSeek——都遵循同一个推理范式：自回归（Autoregressive, AR）。其本质是"逐 token 串行生成"：

输入 prompt，模型编码为 KV cache
预测下一个 token，记为 $t_1$
把 $t_1$ 拼回输入，再预测 $t_2$
重复直到遇到 EOS

这个范式的优势是训练目标明确（next-token prediction loss 简单可微）、采样稳定（可调 temperature / top-p）、数学上可证明条件概率链 $P(x_1 x_2 \cdots x_n) = \prod_i P(x_i | x_{<i})$ 。但它的代价同样显而易见：

延迟不可并行化： $n$ 个 token 需要 $n$ 次前向计算，无法一次性"渲染"整段文本。哪怕用 speculative decoding，理论上限仍受限于 AR 串行结构
无法回溯修订：模型一旦生成了"今天"两个字，下一个 token 只能是"天气"或"我"——它无法回过头把"今天"改成"昨日"。所有错字、逻辑跳跃、措辞不当都只能"凑合到底"
双向信息流受限：AR 模型本质是从左到右的单向因果注意力。哪怕 BERT 之后业界知道双向注意力更强，但没人敢在生成阶段用它——因为生成天然需要因果分解

这两条结构性的"天花板"在过去 8 年里被硬件（GPU 算力提升 1000×）、算法（FlashAttention、KV cache 压缩、speculative decoding）反复优化，但始终没有跳出 AR 的根本框架。

直到 2025 年，Diffusion 范式开始在文本领域打开第二曲线。

二、范式的反命题：Diffusion LLM 的核心思想

Diffusion 在图像领域的成功（DALL·E、Stable Diffusion、Imagen）已经验证：并行去噪可以一次生成完整张图，而且能"全图协调"。它的代价是采样步数（一般 20-50 步），但单步可并行处理所有 token。

迁移到文本，核心思路是：

前向过程（训练）：把真实文本 $x_0$ 按比例 $t \in [0,1]$ 随机 mask 掉若干 token，得到 $x_t$
反向过程（推理）：从全 mask 状态 $x_1$ 开始，每一步同时预测所有 masked 位置的真值，逐步"去噪"，经过 $K$ 步后收敛到完整文本

数学上，文本 Diffusion 不再分解为 $P(x_i | x_{<i})$ ，而是直接建模整段文本的联合分布 $P(x_1 \cdots x_n)$ 。这意味着任意时刻都可以双向看上下文——就像编辑修改一篇文章那样，而非像打字机那样从左到右敲。

这个差异在工程上产生了三个直接的推论：

延迟与序列长度解耦：8 个 token 的回答和 800 个 token 的回答，采样步数可以接近相同（不像 AR 那样随长度线性增加）
可中途修订：第 3 步去噪发现"今天"这个词其实应该是"昨日"，第 4 步可以同时改回去
自然支持 inpainting / constrained generation：给一段文本"挖个洞"，Diffusion 能补全，就像 Stable Diffusion 修补图像那样自然

但这个范式也有三个老问题：

采样步数 ≠ 单步算力：总 FLOPS 通常仍高于 AR
解码策略复杂：token 间的约束（语法、引用关系）更难硬保证
训练稳定性：mask 比例 schedule 设计不当会模式坍缩

下面用 5 个 2025-2026 年落地的核心项目，看这个范式如何把这些理论变成可商用产品。

三、五个关键项目：从论文到商业化部署

3.1 LLaDA：第一个 8B 量级的纯 Diffusion 语言模型

2025 年 2 月，中国人民大学（GSAI）联合北大、清华的团队在 arXiv:2502.09992 发表 LLaDA (Large Language Diffusion Models)。这是第一个参数规模到 8B、训练从零开始的纯 Diffusion 语言模型。

核心贡献（论文摘要原文）：

"We challenge this notion [AR is necessary for LLM capabilities] by introducing LLaDA, a diffusion model trained from scratch under the forward data masking process and a reverse generation process, parameterized by a Transformer to predict masked tokens. [...] Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning."

关键技术点：

用标准 Transformer 架构预测所有 mask 位置（而非逐 token 因果预测）
训练时 mask 比例 $t \sim U[0,1]$ 均匀采样
推理时从 $t=1$ （全 mask）开始，经过 $K$ 步去噪到 $t=0$

论文项目页（ml-gsai.github.io/LLaDA-demo）明确写道：

"a diffusion model with an unprecedented 8B scale, trained entirely from scratch, rivaling LLaMA3 8B in performance"

意义：LLaDA 在学术层面首次用 8B 量级证明"AR 不是 LLM 唯一可能"，并把 mask-schedule 的细节公开。这是后续所有商业 Diffusion LLM 的工程原型之一。

3.2 Gemini Diffusion：Google 的实验性破冰

2025 年 5 月 20 日，Google DeepMind 发布 Gemini Diffusion——这是第一个来自主流基础模型厂商的 Diffusion LLM demo。

官方表述（博客原文）：

"Gemini Diffusion, is a state-of-the-art text diffusion model that learns to generate outputs by converting random noise into coherent text or code, like how our current state-of-the-art models in image and video generation work. The experimental demo released today generates content significantly faster than our fastest model so far, while matching its coding performance."

Simon Willison 的实测（2025-05-21 博客）记录到具体数字：

"I tried the preview at the time and recorded it running at 857 tokens/second. [...] Gemini Diffusion to create me an example chat app and it responds at over 650 tokens a second."

对比：GPT-4o 同类对话生成大约 80-120 tokens/s。Gemini Diffusion 把生成速度提升了一个数量级。

但 Google 在博客结尾明确："We'll continue our work on different approaches to lowering latency in all our Gemini models"——没有正式产品化，只是研究 demo。这是 Diffusion LLM 的"实验性破冰"阶段。

3.3 Mercury Coder：第一个商业级 Diffusion LLM

Inception Labs（一家专注 Diffusion LLM 的初创公司）在 2025 年 6 月（arXiv:2506.17298）发表 Mercury 论文，并先后推出 Mercury Coder Mini / Small 两个商业级版本。

论文摘要关键数字：

"Mercury Coder Mini and Mercury Coder Small achieve state-of-the-art throughputs of 1109 tokens/sec and 737 tokens/sec, respectively, on NVIDIA H100 GPUs and outperform speed-optimized frontier models by up to [...] benchmarks spanning multiple languages and use-cases as well as real-world validation by developers on Copilot Arena, where the model currently ranks second on quality and is the fastest model overall."

注意几个关键词：

1109 tokens/sec——这是 H100 实测，单卡单流
Copilot Arena 第二名——不是小作坊玩具，是开发者真实盲评的排名
速度远超前沿模型——论文用 "speed-optimized frontier models" 作对照，意思是和 GPT-4o-mini、Gemini Flash 这种以速度见长的模型比

Mercury Coder 走的是代码生成场景，因为代码的"结构性"和"可并行去噪"非常契合（一个函数内不同位置的变量名可以同时确定）。

3.4 Mercury 2：从 Coder 到 Reasoning 的全栈扩散

2026 年 5 月 12 日，Inception Labs 发布 Mercury 2，把 Diffusion LLM 从代码扩展到通用推理场景，并强化"实时 sub-agent"定位。

官方页面关键事实（curl 抓取验证）：

"the world's fastest reasoning language model, powered by diffusion"
"doesn't decode sequentially. It generates responses through parallel refinement, producing multiple tokens simultaneously"
">5x faster generation"（相比前代 Mercury）
性能数字：>1000 tokens/sec on NVIDIA Blackwell GPUs
价格： $0.25 / 1M input tokens ·$ 0.75 / 1M output tokens
上下文：128K context · native tool use · schema-aligned JSON output

意义：Mercury 2 是第一个明确针对 reasoning（CoT、tool use、多步规划）做商业优化的 Diffusion LLM。它打破了一个流传已久的怀疑——"Diffusion 只能做短生成，长 CoT 会崩"。Inception 用 128K 上下文 + 工具调用证明这条怀疑不成立。

更值得关注的是客户引语（页面上原话）：

"Mercury 2 is at least twice as fast as GPT-5.2, which is a game changer for us."

这是 2026 年中 Diffusion LLM 第一次直接挑战 GPT-5.x 级别的推理模型。注意：截至 2026-06-13，OpenAI 尚未公开 GPT-5.2 的官方参数和上下文长度信息，Inception 的对比声明是基于客户实测，不是 OpenAI 背书。

3.5 DiffusionGemma：Google 把 Diffusion LLM 开源

2026 年 6 月 10 日，Google 发布 DiffusionGemma——Apache 2.0 许可证的 26B 参数（A4B = 激活 4B 的 MoE）开源模型。

官方宣传：

"DiffusionGemma, an exceptionally fast text generation model with up to 4x faster speeds."

模型托管在 Hugging Face（google/diffusiongemma-26B-A4B-it），NVIDIA NIM 提供免费 API 试用。

Simon Willison 的实测（2026-06-10 博客）：

"I used that API to generate this pelican, which took 4.4s (according to time uv run generate.py) to return 2,409 tokens - so at least 500 tokens/second."

对比时间线：

时间	模型	实测速度	来源
2025-05	Gemini Diffusion	857 tokens/s	Simon Willison 实测
2025-06	Mercury Coder Mini	1109 tokens/s	论文 H100 实测
2026-05	Mercury 2	>1000 tokens/s	Inception 官方
2026-06	DiffusionGemma 26B	500+ tokens/s	Simon Willison 实测

Diffusion LLM 在 12 个月内从"研究 demo"走到"开源 26B 模型 + 4× 提速"。 这是 2026 年最被低估的范式迁移之一。

四、为什么 Diffusion LLM 在 2026 年突然爆发

如果 Diffusion for text 的理论早在 2020 年就有（Diffusion-LM, PLDD 等论文），为什么到 2025-2026 年才进入主流视野？三个原因叠加：

1. 推理硬件成本曲线反转。 LLM 推理最贵的不是权重加载，而是 KV cache 维护和顺序解码。Diffusion 的并行去噪虽然单步 FLOPS 高，但总步数远少于 AR 的 token 数。当 GPU 算力增长曲线（每年 2-3×）开始放缓，而序列长度需求从 4K 增长到 128K-1M 时，AR 的"线性延迟"成为商业化瓶颈。Diffusion 的"对数级延迟"恰好打破这个瓶颈。

2. 长 CoT / Agent 场景对延迟敏感。 2026 年 Agent 产品（如 Claude Code、Cursor、Devin）每天调用 LLM 数十次，每次都要等 5-15 秒生成 CoT。Mercury 2 的 ">5× faster" 直接把 Agent 的多步循环变成"接近实时"——这是产品体验的质变。

3. 学术界和工业界同时破冰。 LLaDA（学术界）证明 8B 可行，Gemini Diffusion（DeepMind）证明主流厂商愿意尝试，Mercury（Inception）证明商业可盈利，DiffusionGemma（Google）证明开源可传播。四方同时押注，2026 年形成正反馈。

五、六个未解难题与未来 12 个月的观察点

尽管前景广阔，Diffusion LLM 仍未跨越以下几个结构性挑战：

可控生成的难度。AR 模型可以用 logit bias / grammar constraint 强行约束输出格式（如 JSON schema）。Diffusion 的去噪过程里，token 之间没有"先后"概念，硬约束（如正则）需要在 mask 阶段嵌入，工程复杂度更高
训练稳定性。Mask ratio schedule 选不好会模式坍缩——所有 token 预测为同一个词。Inception 没公开完整 schedule，LLaDA 用 $U[0,1]$ 均匀采样是简化选择
KV cache 不复用。AR 模型推理时 KV cache 可增量复用；Diffusion 每步去噪是"重新生成"，cache 复用率低，对超长上下文更不友好
质量 vs 步数权衡。 $K$ 步太少质量差（特别是 reasoning）， $K$ 步太多延迟退化。Mercury 2 没公开 $K$ 的取值，需要独立 benchmark
benchmark 覆盖度。当前所有 Diffusion LLM 主要在 HumanEval / GSM8K / MATH / MMLU 上验证，但长上下文检索、多轮对话一致性这两个关键指标尚无系统公开数据
生态成熟度。vLLM / TGI / TensorRT-LLM 等主流推理框架对 Diffusion LLM 的支持仍在起步阶段，生产部署的工程债远比 AR 模型多

观察 12 个月的三个信号：

OpenAI 是否推出 Diffusion 模式——目前看 Anthropic / OpenAI 都还没有公开 Diffusion LLM 路线图，若 2027 年前出现，将是范式确认的强信号
LLama 4 / Qwen 4 是否引入 Diffusion 训练目标——目前都是纯 AR，下一代是否混合 AR + Diffusion 是关键观察点
Agent 框架对"超低延迟 LLM"的硬需求——若 Agent 调用频次从每天 50 次涨到 500 次，Mercury 2 / DiffusionGemma 类的 Diffusion LLM 将从"可选"变成"必选"

六、总结：文本生成的"打字机"终将退休

从 2017 年 Transformer 到 2025 年 Gemini Diffusion，整整 8 年间，所有主流大模型都在"逐 token 打字"。这个范式的成功掩盖了它的结构性天花板——延迟随长度线性增长、无法回溯修订、双向信息流受限。

2025-2026 年的五个项目（LLaDA、Gemini Diffusion、Mercury Coder、Mercury 2、DiffusionGemma）第一次用一手数据证明：并行去噪可以做得比 AR 更快、更长、且能商用。速度从 500 tokens/s 到 1109 tokens/s 的跃升，不是工程优化，而是范式本身的胜利。

这不是说 AR 会在一夜间消失——GPT-5.x、Claude 4、Gemini 2.5 仍然主导主流市场。但 Diffusion LLM 在实时 Agent / 代码补全 / 长 CoT 三个垂直场景已经展现出明确优势。预计未来 18-24 个月内，主流大模型厂商将出现 AR + Diffusion 的混合架构——就像当年 Transformer 取代 RNN 时，也不是一蹴而就，而是和 LSTM/CNN 混合了 2-3 年。

文本生成的下一步，不是更大的模型，而是不同的生成方式。

参考资料（6 条一手来源）

Nie, S. 等. Large Language Diffusion Models. arXiv:2502.09992, 2025-02. https://arxiv.org/abs/2502.09992（中国人民大学 GSAI 等机构，LLaDA 8B 论文）
Google DeepMind. Gemini Diffusion: our experimental research model. 2025-05-20. https://blog.google/technology/google-deepmind/gemini-diffusion/
Willison, S. Gemini Diffusion. 2025-05-21. https://simonwillison.net/2025/May/21/gemini-diffusion/（实测 857 tokens/s）
Inception Labs. Mercury: Ultra-Fast Language Models Based on Diffusion. arXiv:2506.17298, 2025-06. https://arxiv.org/abs/2506.17298（Mercury Coder Mini/Small 1109/737 tokens/s）
Inception Labs. Introducing Mercury 2. 2026-05-12. https://www.inceptionlabs.ai/blog/introducing-mercury-2（128K context · reasoning · >1000 tokens/s · $0.25/$ 0.75 per 1M tokens）
Google. DiffusionGemma: 4x faster text generation. 2026-06-10. https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/（Apache 2.0 开源 26B-A4B）
Willison, S. DiffusionGemma. 2026-06-10. https://simonwillison.net/2026/Jun/10/diffusiongemma/（实测 2409 tokens / 4.4s = 547 tokens/s）
Hugging Face. google/diffusiongemma-26B-A4B-it. https://huggingface.co/google/diffusiongemma-26B-A4B-it（模型卡片）

事实核查说明：本文所有速度数字、价格、上下文长度均来自上述一手 URL 的 curl 抓取验证（2026-06-13）。"GPT-5.2" 提及来自 Inception 客户引语，非 OpenAI 官方对比。"GPT-4o 80-120 tokens/s" 为业内常见经验值，未在本文作硬引用。

Diffusion LLM：当文本生成从打字机变成并行编辑器