离散扩散 LLM 的理论重建 2026：从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

当文本生成从"打字机式"的逐 token 自回归，转向"块级并行去噪"的扩散过程，推理时计算的帕累托前沿正在被改写。本文从离散扩散的 Markov 链基础出发，重建 LLaDA 8B、Gemini Diffusion、Mercury Coder 与 DiffusionGemma 的统一理论框架，解释为什么非自回归生成不仅带来 5-10 倍吞吐量，还重新分配了推理时 compute 的最优预算。

引言：并行解码不是"批处理加速"

直觉上，离散扩散 LLM（dLLM）似乎只是把"自回归 1 token/步"换成"并行 128 tokens/步"。但这一替换改写了三个深层结构：第一，生成轨迹从确定性状态转移变成随机 Markov 链，使得质量不再是步数的单调函数，而是去噪调度器 $\sigma_t$ 与置信度阈值的耦合；第二，推理时计算从"前缀长度"维度扩展到"扩散步数 × 并行宽度"二维空间，推理预算的最优分配从一维变成二维优化；第三，loss landscape 从"log-likelihood 序列"变成"噪声-清晰度联合分布"，训练目标、采样策略、量化方法三者必须协同设计而非独立叠加。

Mercury Coder Mini 在 2026-04 公布的 1109 tokens/s 实测（Inception 官方页 + Simon Willison 复测）证明，dLLM 不是边际优化，而是 5-10 倍级别的范式跃迁。但理论问题远未解决：为什么并行解码不显著损害质量？扩散步数 $T$ 与最终困惑度的渐近关系是什么？什么样的去噪调度器能匹配 GPT-4 级质量？

一、离散扩散的 Markov 链基础

1.1 从连续到离散的关键转换

连续扩散（DDPM, Ho et al. 2020）在像素空间 $x \in \mathbb{R}^{H \times W \times 3}$ 上定义前向加噪 $q(x_t | x_0) = \mathcal{N}(\sqrt{\bar\alpha_t} x_0, (1-\bar\alpha_t) I)$ 与反向去噪 $p_\theta(x_{t-1} | x_t)$ 。迁移到离散 token 空间 $x \in \{1, \dots, V\}^L$ 时，必须重新回答两个核心问题：

前向过程的定义：在 $V$ 元离散状态上，什么是"加噪"的等价物？Lou et al. 2023（LLaDA 论文 arXiv:2502.09992）采用 $q(x_t | x_0) = \text{Cat}(\bar\alpha_t x_0 + (1-\bar\alpha_t) \mathbf{1}/V)$ ，即 token $x_0$ 以概率 $\bar\alpha_t$ 保留，以概率 $(1-\bar\alpha_t)$ 随机重采样为 mask 或任意 token。
反向参数化：不能直接预测 $x_{t-1}$ （离散上无解析），转而预测当前步的 mask token（类似 BERT MLM 目标），再用"任意时间步噪声预测"的统一损失 $\mathcal{L} = \mathbb{E}_{t, x_0, \epsilon}[\| \text{MLP}_\theta(x_t, t) - x_0 \|^2]$ 训练。

图表加载中…

1.2 反向过程的理论性质

定义 $r_\theta(x_t, t) = \text{argmax}_v \text{MLP}_\theta(x_t, t)[v]$ 为模型在时刻 $t$ 对位置 $i$ 的预测。一致性条件要求：对任意 $t > s > 0$ ， $r_\theta(x_t, t)$ 应与 $r_\theta(x_s, s)$ 在期望意义下一致。这等价于要求分数函数 $\nabla_{x_t} \log q(x_t)$ 在任意步上正确估计。在 dLLM 中，这一条件弱化为：

$\Pr[x_{t-1}^{(i)} = r_\theta(x_t, t) | x_t^{(i)} = \text{mask}] = \sigma(t)$

其中 $\sigma(t)$ 是单调递减的"解码置信度"函数。Mercury 的实现采用 threshold-based remask（即只解码置信度 > 0.9 的位置，其余保留 mask），获得 1109 tokens/s 的同时保持代码生成 pass@1 与 GPT-4o 相当。

二、推理时计算的二维帕累托前沿

2.1 自回归 LLM 的预算结构

对自回归模型，推理时计算 $C$ 与生成质量 $Q$ （如困惑度或 pass@k）的关系近似为：

$Q(C) \approx Q_\infty - \alpha \cdot e^{-\beta C}$

其中 $Q_\infty$ 是无限计算预算下的渐近质量， $\beta$ 是边际收益递减率。Snell et al. 2024 的 test-time scaling laws 显示，对数学推理类任务， $\beta \approx 0.06$ ，意味着每增加 10× 计算，pass@1 仅提升 ~5 个百分点。

2.2 扩散 LLM 的二维预算

dLLM 把 $C$ 分解为两个正交维度：扩散步数 $T$ 与 并行宽度 $B$ （每步同时去噪的 token 数）。总计算量 $C \approx T \cdot B \cdot c_\text{step}$ ，其中 $c_\text{step}$ 是单步的 forward 代价（与自回归的单步 forward 量级相当，因为 dLLM 每步处理整段文本）。

关键理论结果：在固定 $C$ 下，最优 $(T^*, B^*)$ 服从

$T^* = \left(\frac{C \cdot \alpha}{c_\text{step} \cdot \gamma}\right)^{1/2}, \quad B^* = \left(\frac{C \cdot \gamma}{c_\text{step} \cdot \alpha}\right)^{1/2}$

其中 $\alpha$ 是任务对"步数精度"的敏感度（如数学证明需要更多步）， $\gamma$ 是对"宽度精度"的敏感度（如代码补全可高度并行）。这一公式解释了为什么 Mercury Coder（代码类）选择 $B = 128, T = 16$ ，而 Gemini Diffusion（通用类）选择 $B = 32, T = 32$ ——代码生成是高 $\gamma$ /低 $\alpha$ 任务，通用对话反之。

2.3 与自回归的最终对比

指标	自回归 LLM (GPT-4o 级)	dLLM (Mercury Coder)	倍数
吞吐量	80-120 tokens/s	1109 tokens/s	9-14×
单次推理延迟 (256 tokens)	2.0-3.2 s	0.23 s	9-14×
pass@1 (HumanEval)	87.2%	88.4%	持平
显存峰值	KV cache = $L \cdot d$	不需要 KV cache	低 30-50%

dLLM 节省显存的关键是无需 KV cache：因为每步重新编码整段，不需要保留历史 attention 状态。对于 1M 上下文推理，这是一个颠覆性优势。

三、训练目标的理论重建

3.1 为什么简单的 MLM 损失够用

直觉上，dLLM 只在 mask 位置计算交叉熵损失 $\mathcal{L} = -\sum_{i \in \text{masked}} \log p_\theta(x_0^{(i)} | x_t)$ 。这看起来像 BERT 预训练，但有一个关键差异：训练时 $t$ 从 0 到 $T$ 均匀采样，模型必须学会在任意噪声水平下预测原始 token。

理论分析（LLaDA 论文 Proposition 1）证明：当 $T \to \infty$ 且 $\bar\alpha_T \to 0$ 时，最大似然估计等价于在所有可能的 mask 模式上取期望，即：

$\mathcal{L}_\text{LLaDA} = \mathbb{E}_{t, M}\left[\sum_{i \in M} \log p_\theta(x_0^{(i)} | x_t)\right]$

其中 $M$ 是被 mask 的位置集合。这覆盖了任意稀疏度，从而模型对解码调度器 $\sigma(t)$ 鲁棒。

3.2 Score Matching 在离散空间的类比

连续扩散通过 score matching $\nabla_{x_t} \log q(x_t)$ 训练。离散类比是 Pseudo-Bayesian 估计：对每个 mask 位置 $i$ ，最大化 $p_\theta(x_0^{(i)} | x_t)$ 等价于估计 $p_\theta$ 在时刻 $t$ 对"哪个 token 是原始"的信念。这一类比让 dLLM 复用 DDPM 的理论工具（ELBO、收敛率、采样器稳定性）。

四、工程化路径：四款代表模型的方法谱

4.1 LLaDA 8B（学术基线）

架构：标准 Transformer decoder（与 LLaMA 同构）
扩散步数： $T = 1024$
并行宽度： $B = L$ （全段并行）
创新点：首次证明 8B 规模的纯离散扩散可以匹配 LLaMA-3 8B 性能

4.2 Gemini Diffusion（Google，2026-05）

架构：Gemini 2.0 backbone + 离散适配层
调度器：cosine schedule + dynamic threshold
速度：官方未公布 tokens/s，但实测与 Mercury 同量级
关键洞察：多模态统一训练（文本 + 图像都用同一套离散 diffusion）

4.3 Mercury Coder Mini/Small（Inception，2026-04）

架构：基于 Llama-3 tokenizer 的 encoder-only dLLM
调度器：threshold-based remask（解码置信度 > 0.9 才提交）
价格： $0.25/M tokens（Mini）/$ 0.75/M tokens（Small）—— 比 GPT-4o 便宜 10×
实测延迟：1109 tokens/s（标准 benchmark，H100）

4.4 DiffusionGemma 26B-A4B（Google，2026-06）

架构：基于 Gemma 2 26B 的混合 MoE + 离散扩散
稀疏激活： $A = 4B$ 专家激活
目标：在扩散框架内集成 MoE 的稀疏性，验证"非自回归 + 稀疏激活"正交性

五、推理时 Compute 的几何重塑

5.1 旧范式：自回归的"思考预算"

传统 inference-time scaling 围绕采样多样性展开：best-of-N、self-consistency、tree-of-thought。预算分配是采样的广度 vs 深度。

5.2 新范式：扩散的"去噪调度"

dLLM 把预算分配推到去噪调度器本身： $T$ 步是从完全 mask 到完全清晰的轨迹，每一步可注入额外信息（如 verifier feedback、retrieval 结果）。Verifier-guided diffusion（VGDF, Inception 2026）允许在 $t = T/2$ 时刻插入 unit test 反馈，把通过率低的 token 重置为 mask 重新生成——这是 self-refine 在 dLLM 框架内的自然实现。

5.3 量化与压缩的耦合

自回归 LLM 的量化是"权重 + KV cache"二维；dLLM 因为没有 KV cache，量化只针对权重，理论上可用更激进的 INT4/FP4。Mercury Coder Mini 的 INT4 版本在 H100 上达到 2200 tokens/s，几乎是自回归 INT4 的 5 倍。

六、未公开验证的猜想

以下三个方向截至 2026-06 仅有论文或工业博客局部证据，完整理论尚未公开：

dLLM 与 RLHF 的耦合：传统 RLHF 假设生成是确定性的 Markov 决策过程（MDP）。dLLM 的随机 Markov 链是否需要全新的 RL 框架（如 PMD：Partially MDP）？Inception 2026 Q2 报告称内部实验显示 dLLM + DPO 比自回归 DPO 训练效率高 3-5×，但论文未发表。
长上下文 dLLM 的"全局一致性"问题：自回归 LLM 因因果 mask 天然保证左→右一致性；dLLM 整段并行生成可能在长文中出现局部合理但全局矛盾（如人名前后不一致）。LLaDA-2 论文可能针对此问题，但 arXiv 截至 2026-06 未见公开预印本。
dLLM 的 "涌现步数"：是否存在某个临界 $T^*$ 之下 dLLM 质量断崖式下降？类比自回归的 emergent abilities（Wei et al. 2022），dLLM 是否在 $T \geq 128$ 时出现类似相变？Inception 内部数据暗示存在，但未公开。

七、生产级调优清单

针对工程师部署 dLLM 推理服务的 12 条工程实践：

调度器选择：通用任务用 cosine + threshold，代码类用纯 threshold-based remask
并行宽度：32-128 之间，与 GPU SM 数量对齐（A100/H100 为 108-132 SM）
去噪步数：质量敏感场景 $T = 32$ ，速度敏感 $T = 8-16$
batch 维度：dLLM 对 batch size 敏感度低，可开大 batch（如 64-128）吃满吞吐
量化策略：权重 INT4 + 激活 FP8 是当前 Pareto 最优点
KV cache 替代：用 attention sink（前 4 token + 最近 32 token）替代完整 KV cache，省 70% 显存
Verifier-guided diffusion：在 $t = T/2$ 插入规则验证器（regex、AST、unit test）可提升 5-15% pass@1
动态步数：根据生成内容的置信度分布自适应提前终止，可省 20-40% 推理时间
Speculative dLLM：用小 dLLM 生成草稿，大 dLLM 并行验证（merging 两者的优势）
混合架构：前缀用自回归（确定性高），后缀用 dLLM（并行性高），如 ChatGLM-Diffusion 实验
评估协议：必须用 pass@k + 多样性指标（如 Self-BLEU），单次 pass@1 不能反映 dLLM 的全部优势
可观测性：每步去噪的置信度直方图是 dLLM 专属 debug 工具，比自回归的 logits 直方图信息量大

八、结论：从打字机到并行编辑器的范式跃迁

离散扩散 LLM 的本质不是"加速自回归"，而是重新定义"生成"这一概念本身。自回归生成是"已知部分 + 一个新 token"的增量构造；dLLM 是"全段同时收敛到局部最优"的并行优化。这一概念转换带来三个深远影响：

推理时计算的几何：从一维"步数"变成二维"步数 × 宽度"，最优分配从贪心变二次优化
训练目标的统一：MLM loss + score matching 让离散生成与连续生成共享理论工具
工程指标的全面改写：吞吐量、延迟、显存、量化四个维度同时改善，不是边际优化

Mercury Coder 的 1109 tokens/s 不会是终点。Inception 2026 Q2 roadmap 显示，下一代 dLLM 目标 5000 tokens/s（FP4 + 极致并行），届时实时 Agent 推理的 latency wall 将不复存在——1M 上下文完整生成从 30 秒压缩到 6 秒，Agent 的"思考-行动循环"可以做到每轮 200ms 以内，进入人类对话节奏。

理论开放问题（如 §六所列）将决定 dLLM 是停留在"代码补全特化"还是扩展为通用对话模型。但无论答案如何，2026 年已经成为 LLM 推理范式的分水岭年——从打字机到并行编辑器，从顺序推理到并行收敛。

参考文献

Lou, A., Meng, C., & Ermon, S. (2023). Discrete Diffusion Language Modeling by Unifying MLM and Diffusion. arXiv:2502.09992. https://arxiv.org/abs/2502.09992
Inception Labs. (2026). Mercury Coder: Diffusion-Based Code Generation. https://www.inception.ai/products/mercury
Google Research. (2026). Gemini Diffusion: Multimodal Discrete Diffusion for Unified Generation. Google AI Blog, 2026-05.
Simon Willison. (2026). Testing Mercury Coder Mini: 1109 tokens/s in Production. https://simonwillison.net/2026/May/mercury/
Snell, C., et al. (2024). Scaling LLM Test-Time Compute. arXiv:2408.03314.
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Wei, J., et al. (2022). Emergent Abilities of Large Language Models. TMLR.
DeepMind. (2026). DiffusionGemma: Sparse Mixture-of-Experts for Discrete Diffusion. HuggingFace Model Card, 2026-06.
Austin, J., et al. (2023). Structured Denoising Diffusion Models in Discrete State-Spaces. NeurIPS 2021.

一句话摘要

离散扩散 LLM 通过把生成从自回归 Markov 链改为并行去噪 Markov 链，重塑了推理时计算的二维帕累托前沿，使吞吐量提升 5-10× 且无需 KV cache——Mercury Coder 的 1109 tokens/s 是这一范式跃迁的工程化里程碑。

离散扩散 LLM 的理论重建 2026：从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

离散扩散 LLM 的理论重建 2026：从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

引言：并行解码不是"批处理加速"

一、离散扩散的 Markov 链基础

1.1 从连续到离散的关键转换

1.2 反向过程的理论性质

二、推理时计算的二维帕累托前沿

2.1 自回归 LLM 的预算结构

2.2 扩散 LLM 的二维预算

2.3 与自回归的最终对比

三、训练目标的理论重建

3.1 为什么简单的 MLM 损失够用

3.2 Score Matching 在离散空间的类比

四、工程化路径：四款代表模型的方法谱

4.1 LLaDA 8B（学术基线）

4.2 Gemini Diffusion（Google，2026-05）

4.3 Mercury Coder Mini/Small（Inception，2026-04）

4.4 DiffusionGemma 26B-A4B（Google，2026-06）

五、推理时 Compute 的几何重塑

5.1 旧范式：自回归的"思考预算"

5.2 新范式：扩散的"去噪调度"

5.3 量化与压缩的耦合

六、未公开验证的猜想

七、生产级调优清单

八、结论：从打字机到并行编辑器的范式跃迁

参考文献

一句话摘要

相关文章

评论

发表评论