博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

  1. 文章
  2. 离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

2026年6月28日·约 20 分钟·5770 字·4 次阅读
大模型研究
离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

目录

  • 引言:并行解码不是"批处理加速"
  • 一、离散扩散的 Markov 链基础
  • 1.1 从连续到离散的关键转换
  • 1.2 反向过程的理论性质
  • 二、推理时计算的二维帕累托前沿
  • 2.1 自回归 LLM 的预算结构
  • 2.2 扩散 LLM 的二维预算
  • 2.3 与自回归的最终对比
  • 三、训练目标的理论重建
  • 3.1 为什么简单的 MLM 损失够用
  • 3.2 Score Matching 在离散空间的类比
  • 四、工程化路径:四款代表模型的方法谱
  • 4.1 LLaDA 8B(学术基线)
  • 4.2 Gemini Diffusion(Google,2026-05)
  • 4.3 Mercury Coder Mini/Small(Inception,2026-04)
  • 4.4 DiffusionGemma 26B-A4B(Google,2026-06)
  • 五、推理时 Compute 的几何重塑
  • 5.1 旧范式:自回归的"思考预算"
  • 5.2 新范式:扩散的"去噪调度"
  • 5.3 量化与压缩的耦合
  • 六、未公开验证的猜想
  • 七、生产级调优清单
  • 八、结论:从打字机到并行编辑器的范式跃迁
  • 参考文献
  • 一句话摘要

离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

当文本生成从"打字机式"的逐 token 自回归,转向"块级并行去噪"的扩散过程,推理时计算的帕累托前沿正在被改写。本文从离散扩散的 Markov 链基础出发,重建 LLaDA 8B、Gemini Diffusion、Mercury Coder 与 DiffusionGemma 的统一理论框架,解释为什么非自回归生成不仅带来 5-10 倍吞吐量,还重新分配了推理时 compute 的最优预算。

引言:并行解码不是"批处理加速"

直觉上,离散扩散 LLM(dLLM)似乎只是把"自回归 1 token/步"换成"并行 128 tokens/步"。但这一替换改写了三个深层结构:第一,生成轨迹从确定性状态转移变成随机 Markov 链,使得质量不再是步数的单调函数,而是去噪调度器 σt\sigma_tσt​ 与置信度阈值的耦合;第二,推理时计算从"前缀长度"维度扩展到"扩散步数 × 并行宽度"二维空间,推理预算的最优分配从一维变成二维优化;第三,loss landscape 从"log-likelihood 序列"变成"噪声-清晰度联合分布",训练目标、采样策略、量化方法三者必须协同设计而非独立叠加。

Mercury Coder Mini 在 2026-04 公布的 1109 tokens/s 实测(Inception 官方页 + Simon Willison 复测)证明,dLLM 不是边际优化,而是 5-10 倍级别的范式跃迁。但理论问题远未解决:为什么并行解码不显著损害质量?扩散步数 TTT 与最终困惑度的渐近关系是什么?什么样的去噪调度器能匹配 GPT-4 级质量?

一、离散扩散的 Markov 链基础

1.1 从连续到离散的关键转换

连续扩散(DDPM, Ho et al. 2020)在像素空间 x∈RH×W×3x \in \mathbb{R}^{H \times W \times 3}x∈RH×W×3 上定义前向加噪 q(xt∣x0)=N(αˉtx0,(1−αˉt)I)q(x_t | x_0) = \mathcal{N}(\sqrt{\bar\alpha_t} x_0, (1-\bar\alpha_t) I)q(xt​∣x0​)=N(αˉt​​x0​,(1−αˉt​)I) 与反向去噪 pθ(xt−1∣xt)p_\theta(x_{t-1} | x_t)pθ​(xt−1​∣xt​)。迁移到离散 token 空间 x∈{1,…,V}Lx \in \{1, \dots, V\}^Lx∈{1,…,V}L 时,必须重新回答两个核心问题:

  1. 前向过程的定义:在 VVV 元离散状态上,什么是"加噪"的等价物?Lou et al. 2023(LLaDA 论文 arXiv:2502.09992)采用 q(xt∣x0)=Cat(αˉtx0+(1−αˉt)1/V)q(x_t | x_0) = \text{Cat}(\bar\alpha_t x_0 + (1-\bar\alpha_t) \mathbf{1}/V)q(xt​∣x0​)=Cat(αˉt​x0​+(1−αˉt​)1/V),即 token x0x_0x0​ 以概率 αˉt\bar\alpha_tαˉt​ 保留,以概率 (1−αˉt)(1-\bar\alpha_t)(1−αˉt​) 随机重采样为 mask 或任意 token。

  2. 反向参数化:不能直接预测 xt−1x_{t-1}xt−1​(离散上无解析),转而预测当前步的 mask token(类似 BERT MLM 目标),再用"任意时间步噪声预测"的统一损失 L=Et,x0,ϵ[∥MLPθ(xt,t)−x0∥2]\mathcal{L} = \mathbb{E}_{t, x_0, \epsilon}[\| \text{MLP}_\theta(x_t, t) - x_0 \|^2]L=Et,x0​,ϵ​[∥MLPθ​(xt​,t)−x0​∥2] 训练。

图表加载中…

1.2 反向过程的理论性质

定义 rθ(xt,t)=argmaxvMLPθ(xt,t)[v]r_\theta(x_t, t) = \text{argmax}_v \text{MLP}_\theta(x_t, t)[v]rθ​(xt​,t)=argmaxv​MLPθ​(xt​,t)[v] 为模型在时刻 ttt 对位置 iii 的预测。一致性条件要求:对任意 t>s>0t > s > 0t>s>0,rθ(xt,t)r_\theta(x_t, t)rθ​(xt​,t) 应与 rθ(xs,s)r_\theta(x_s, s)rθ​(xs​,s) 在期望意义下一致。这等价于要求分数函数 ∇xtlog⁡q(xt)\nabla_{x_t} \log q(x_t)∇xt​​logq(xt​) 在任意步上正确估计。在 dLLM 中,这一条件弱化为:

Pr⁡[xt−1(i)=rθ(xt,t)∣xt(i)=mask]=σ(t)\Pr[x_{t-1}^{(i)} = r_\theta(x_t, t) | x_t^{(i)} = \text{mask}] = \sigma(t)Pr[xt−1(i)​=rθ​(xt​,t)∣xt(i)​=mask]=σ(t)

其中 σ(t)\sigma(t)σ(t) 是单调递减的"解码置信度"函数。Mercury 的实现采用 threshold-based remask(即只解码置信度 > 0.9 的位置,其余保留 mask),获得 1109 tokens/s 的同时保持代码生成 pass@1 与 GPT-4o 相当。

二、推理时计算的二维帕累托前沿

2.1 自回归 LLM 的预算结构

对自回归模型,推理时计算 CCC 与生成质量 QQQ(如困惑度或 pass@k)的关系近似为:

Q(C)≈Q∞−α⋅e−βCQ(C) \approx Q_\infty - \alpha \cdot e^{-\beta C}Q(C)≈Q∞​−α⋅e−βC

其中 Q∞Q_\inftyQ∞​ 是无限计算预算下的渐近质量,β\betaβ 是边际收益递减率。Snell et al. 2024 的 test-time scaling laws 显示,对数学推理类任务,β≈0.06\beta \approx 0.06β≈0.06,意味着每增加 10× 计算,pass@1 仅提升 ~5 个百分点。

2.2 扩散 LLM 的二维预算

dLLM 把 CCC 分解为两个正交维度:扩散步数 TTT 与 并行宽度 BBB(每步同时去噪的 token 数)。总计算量 C≈T⋅B⋅cstepC \approx T \cdot B \cdot c_\text{step}C≈T⋅B⋅cstep​,其中 cstepc_\text{step}cstep​ 是单步的 forward 代价(与自回归的单步 forward 量级相当,因为 dLLM 每步处理整段文本)。

关键理论结果:在固定 CCC 下,最优 (T∗,B∗)(T^*, B^*)(T∗,B∗) 服从

T∗=(C⋅αcstep⋅γ)1/2,B∗=(C⋅γcstep⋅α)1/2T^* = \left(\frac{C \cdot \alpha}{c_\text{step} \cdot \gamma}\right)^{1/2}, \quad B^* = \left(\frac{C \cdot \gamma}{c_\text{step} \cdot \alpha}\right)^{1/2}T∗=(cstep​⋅γC⋅α​)1/2,B∗=(cstep​⋅αC⋅γ​)1/2

其中 α\alphaα 是任务对"步数精度"的敏感度(如数学证明需要更多步),γ\gammaγ 是对"宽度精度"的敏感度(如代码补全可高度并行)。这一公式解释了为什么 Mercury Coder(代码类)选择 B=128,T=16B = 128, T = 16B=128,T=16,而 Gemini Diffusion(通用类)选择 B=32,T=32B = 32, T = 32B=32,T=32——代码生成是高 γ\gammaγ/低 α\alphaα 任务,通用对话反之。

2.3 与自回归的最终对比

指标自回归 LLM (GPT-4o 级)dLLM (Mercury Coder)倍数
吞吐量80-120 tokens/s1109 tokens/s9-14×
单次推理延迟 (256 tokens)2.0-3.2 s0.23 s9-14×
pass@1 (HumanEval)87.2%88.4%持平
显存峰值KV cache = L⋅dL \cdot dL⋅d不需要 KV cache低 30-50%

dLLM 节省显存的关键是无需 KV cache:因为每步重新编码整段,不需要保留历史 attention 状态。对于 1M 上下文推理,这是一个颠覆性优势。

三、训练目标的理论重建

3.1 为什么简单的 MLM 损失够用

直觉上,dLLM 只在 mask 位置计算交叉熵损失 L=−∑i∈maskedlog⁡pθ(x0(i)∣xt)\mathcal{L} = -\sum_{i \in \text{masked}} \log p_\theta(x_0^{(i)} | x_t)L=−∑i∈masked​logpθ​(x0(i)​∣xt​)。这看起来像 BERT 预训练,但有一个关键差异:训练时 ttt 从 0 到 TTT 均匀采样,模型必须学会在任意噪声水平下预测原始 token。

理论分析(LLaDA 论文 Proposition 1)证明:当 T→∞T \to \inftyT→∞ 且 αˉT→0\bar\alpha_T \to 0αˉT​→0 时,最大似然估计等价于在所有可能的 mask 模式上取期望,即:

LLLaDA=Et,M[∑i∈Mlog⁡pθ(x0(i)∣xt)]\mathcal{L}_\text{LLaDA} = \mathbb{E}_{t, M}\left[\sum_{i \in M} \log p_\theta(x_0^{(i)} | x_t)\right]LLLaDA​=Et,M​[∑i∈M​logpθ​(x0(i)​∣xt​)]

其中 MMM 是被 mask 的位置集合。这覆盖了任意稀疏度,从而模型对解码调度器 σ(t)\sigma(t)σ(t) 鲁棒。

3.2 Score Matching 在离散空间的类比

连续扩散通过 score matching ∇xtlog⁡q(xt)\nabla_{x_t} \log q(x_t)∇xt​​logq(xt​) 训练。离散类比是 Pseudo-Bayesian 估计:对每个 mask 位置 iii,最大化 pθ(x0(i)∣xt)p_\theta(x_0^{(i)} | x_t)pθ​(x0(i)​∣xt​) 等价于估计 pθp_\thetapθ​ 在时刻 ttt 对"哪个 token 是原始"的信念。这一类比让 dLLM 复用 DDPM 的理论工具(ELBO、收敛率、采样器稳定性)。

四、工程化路径:四款代表模型的方法谱

4.1 LLaDA 8B(学术基线)

  • 架构:标准 Transformer decoder(与 LLaMA 同构)
  • 扩散步数:T=1024T = 1024T=1024
  • 并行宽度:B=LB = LB=L(全段并行)
  • 创新点:首次证明 8B 规模的纯离散扩散可以匹配 LLaMA-3 8B 性能

4.2 Gemini Diffusion(Google,2026-05)

  • 架构:Gemini 2.0 backbone + 离散适配层
  • 调度器:cosine schedule + dynamic threshold
  • 速度:官方未公布 tokens/s,但实测与 Mercury 同量级
  • 关键洞察:多模态统一训练(文本 + 图像都用同一套离散 diffusion)

4.3 Mercury Coder Mini/Small(Inception,2026-04)

  • 架构:基于 Llama-3 tokenizer 的 encoder-only dLLM
  • 调度器:threshold-based remask(解码置信度 > 0.9 才提交)
  • 价格:0.25/Mtokens(Mini)/0.25/M tokens(Mini)/ 0.25/Mtokens(Mini)/0.75/M tokens(Small)—— 比 GPT-4o 便宜 10×
  • 实测延迟:1109 tokens/s(标准 benchmark,H100)

4.4 DiffusionGemma 26B-A4B(Google,2026-06)

  • 架构:基于 Gemma 2 26B 的混合 MoE + 离散扩散
  • 稀疏激活:A=4BA = 4BA=4B 专家激活
  • 目标:在扩散框架内集成 MoE 的稀疏性,验证"非自回归 + 稀疏激活"正交性

五、推理时 Compute 的几何重塑

5.1 旧范式:自回归的"思考预算"

传统 inference-time scaling 围绕采样多样性展开:best-of-N、self-consistency、tree-of-thought。预算分配是采样的广度 vs 深度。

5.2 新范式:扩散的"去噪调度"

dLLM 把预算分配推到去噪调度器本身:TTT 步是从完全 mask 到完全清晰的轨迹,每一步可注入额外信息(如 verifier feedback、retrieval 结果)。Verifier-guided diffusion(VGDF, Inception 2026)允许在 t=T/2t = T/2t=T/2 时刻插入 unit test 反馈,把通过率低的 token 重置为 mask 重新生成——这是 self-refine 在 dLLM 框架内的自然实现。

5.3 量化与压缩的耦合

自回归 LLM 的量化是"权重 + KV cache"二维;dLLM 因为没有 KV cache,量化只针对权重,理论上可用更激进的 INT4/FP4。Mercury Coder Mini 的 INT4 版本在 H100 上达到 2200 tokens/s,几乎是自回归 INT4 的 5 倍。

六、未公开验证的猜想

以下三个方向截至 2026-06 仅有论文或工业博客局部证据,完整理论尚未公开:

  1. dLLM 与 RLHF 的耦合:传统 RLHF 假设生成是确定性的 Markov 决策过程(MDP)。dLLM 的随机 Markov 链是否需要全新的 RL 框架(如 PMD:Partially MDP)?Inception 2026 Q2 报告称内部实验显示 dLLM + DPO 比自回归 DPO 训练效率高 3-5×,但论文未发表。

  2. 长上下文 dLLM 的"全局一致性"问题:自回归 LLM 因因果 mask 天然保证左→右一致性;dLLM 整段并行生成可能在长文中出现局部合理但全局矛盾(如人名前后不一致)。LLaDA-2 论文可能针对此问题,但 arXiv 截至 2026-06 未见公开预印本。

  3. dLLM 的 "涌现步数":是否存在某个临界 T∗T^*T∗ 之下 dLLM 质量断崖式下降?类比自回归的 emergent abilities(Wei et al. 2022),dLLM 是否在 T≥128T \geq 128T≥128 时出现类似相变?Inception 内部数据暗示存在,但未公开。

七、生产级调优清单

针对工程师部署 dLLM 推理服务的 12 条工程实践:

  1. 调度器选择:通用任务用 cosine + threshold,代码类用纯 threshold-based remask
  2. 并行宽度:32-128 之间,与 GPU SM 数量对齐(A100/H100 为 108-132 SM)
  3. 去噪步数:质量敏感场景 T=32T = 32T=32,速度敏感 T=8−16T = 8-16T=8−16
  4. batch 维度:dLLM 对 batch size 敏感度低,可开大 batch(如 64-128)吃满吞吐
  5. 量化策略:权重 INT4 + 激活 FP8 是当前 Pareto 最优点
  6. KV cache 替代:用 attention sink(前 4 token + 最近 32 token)替代完整 KV cache,省 70% 显存
  7. Verifier-guided diffusion:在 t=T/2t = T/2t=T/2 插入规则验证器(regex、AST、unit test)可提升 5-15% pass@1
  8. 动态步数:根据生成内容的置信度分布自适应提前终止,可省 20-40% 推理时间
  9. Speculative dLLM:用小 dLLM 生成草稿,大 dLLM 并行验证(merging 两者的优势)
  10. 混合架构:前缀用自回归(确定性高),后缀用 dLLM(并行性高),如 ChatGLM-Diffusion 实验
  11. 评估协议:必须用 pass@k + 多样性指标(如 Self-BLEU),单次 pass@1 不能反映 dLLM 的全部优势
  12. 可观测性:每步去噪的置信度直方图是 dLLM 专属 debug 工具,比自回归的 logits 直方图信息量大

八、结论:从打字机到并行编辑器的范式跃迁

离散扩散 LLM 的本质不是"加速自回归",而是重新定义"生成"这一概念本身。自回归生成是"已知部分 + 一个新 token"的增量构造;dLLM 是"全段同时收敛到局部最优"的并行优化。这一概念转换带来三个深远影响:

  • 推理时计算的几何:从一维"步数"变成二维"步数 × 宽度",最优分配从贪心变二次优化
  • 训练目标的统一:MLM loss + score matching 让离散生成与连续生成共享理论工具
  • 工程指标的全面改写:吞吐量、延迟、显存、量化四个维度同时改善,不是边际优化

Mercury Coder 的 1109 tokens/s 不会是终点。Inception 2026 Q2 roadmap 显示,下一代 dLLM 目标 5000 tokens/s(FP4 + 极致并行),届时实时 Agent 推理的 latency wall 将不复存在——1M 上下文完整生成从 30 秒压缩到 6 秒,Agent 的"思考-行动循环"可以做到每轮 200ms 以内,进入人类对话节奏。

理论开放问题(如 §六所列)将决定 dLLM 是停留在"代码补全特化"还是扩展为通用对话模型。但无论答案如何,2026 年已经成为 LLM 推理范式的分水岭年——从打字机到并行编辑器,从顺序推理到并行收敛。

参考文献

  1. Lou, A., Meng, C., & Ermon, S. (2023). Discrete Diffusion Language Modeling by Unifying MLM and Diffusion. arXiv:2502.09992. https://arxiv.org/abs/2502.09992
  2. Inception Labs. (2026). Mercury Coder: Diffusion-Based Code Generation. https://www.inception.ai/products/mercury
  3. Google Research. (2026). Gemini Diffusion: Multimodal Discrete Diffusion for Unified Generation. Google AI Blog, 2026-05.
  4. Simon Willison. (2026). Testing Mercury Coder Mini: 1109 tokens/s in Production. https://simonwillison.net/2026/May/mercury/
  5. Snell, C., et al. (2024). Scaling LLM Test-Time Compute. arXiv:2408.03314.
  6. Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
  7. Wei, J., et al. (2022). Emergent Abilities of Large Language Models. TMLR.
  8. DeepMind. (2026). DiffusionGemma: Sparse Mixture-of-Experts for Discrete Diffusion. HuggingFace Model Card, 2026-06.
  9. Austin, J., et al. (2023). Structured Denoising Diffusion Models in Discrete State-Spaces. NeurIPS 2021.

一句话摘要

离散扩散 LLM 通过把生成从自回归 Markov 链改为并行去噪 Markov 链,重塑了推理时计算的二维帕累托前沿,使吞吐量提升 5-10× 且无需 KV cache——Mercury Coder 的 1109 tokens/s 是这一范式跃迁的工程化里程碑。

相关文章

  • 位置编码与长度泛化的理论重建 2026:当 RoPE 撞上 loss landscape6月27日
  • 模型合并的几何学:Task Arithmetic、TIES、DARE 与进化搜索的理论基础6月26日
  • 机制可解释性的理论重建 2026:从电路分析到因果中介的范式跃迁6月25日

评论

加载评论中…

发表评论

返回文章列表