模型合并的几何学：Task Arithmetic、TIES、DARE 与进化搜索的理论基础

当一个社区在 12 个月内合并出 200+ 个 SOTA 开源模型时，"模型合并"已经从工程技巧升格为可被严格分析的理论对象。本文试图从权重空间的几何、Taylor 展开的低阶截断、interference vs synergy 的算法分解、进化搜索对组合空间的覆盖四个层次，给 2026 年的模型合并研究画一张算法几何的地图。

一、从"模型即资产"到"模型即组合单元"

2022 年 Wortsman 等人用 "Model Soups"（模型汤）证明：对同一预训练任务，独立 fine-tune 得到的多个权重向量求平均，常常超过其中任何一个单独模型。这一发现颠覆了"权重 = 资产，必须完整保存"的传统观念，开启了"权重可被线性组合"的时代。

紧随其后，Ilharco 等人提出 Task Arithmetic（任务算术）：把任务微调视为"任务向量" $\tau_t = \theta_{\text{ft}} - \theta_{\text{base}}$ ，则 $\theta_{\text{base}} + \sum_t \alpha_t \tau_t$ 可以实现多任务的零样本组合。这里隐含的关键假设是：任务向量在损失景观中近似线性。

这一假设并不平凡。神经网络的损失函数 $\mathcal{L}(\theta)$ 在预训练点 $\theta_{\text{base}}$ 附近的 Hessian $\nabla^2 \mathcal{L}$ 拥有数十亿维的特征值，绝大多数非常大。Task Arithmetic 能工作的根本原因是：在 fine-tune 的"窄轨迹"内，沿任务方向 $\tau_t$ 的二阶项贡献小于一阶项贡献。这等价于说 fine-tune 处于 Hessian 的低秩、低曲率子空间。

二、Mode Connectivity 与 Loss Basin

2024 年"Mode Connectivity"的实证研究进一步支撑了上述假设：两个独立 fine-tune 的极小值 $\theta_1, \theta_2$ 之间存在"低损失路径"——沿这条路径上的所有权重都保持与端点相近的测试损失。如果损失景观是高度多峰的，这条路径几乎不可能存在。它的存在说明：fine-tune 后的极小值构成一个"损失盆地 (loss basin)"，盆地内的算术平均仍落在盆地内。

设盆地的直径为 $R$ 、深度为 $\Delta\mathcal{L}$ 。对盆地内任意两点 $\theta_1, \theta_2$ ，存在 $t\in[0,1]$ 的连续曲线 $\gamma(t)$ 使得 $\mathcal{L}(\gamma(t)) \le \mathcal{L}(\theta_1) + \epsilon$ 。在此意义下，线性组合 $\theta = \frac{1}{2}(\theta_1+\theta_2)$ 是该盆地内的一个有效样本。

但 Mode Connectivity 的实证也揭示了边界：当 fine-tune 的数据分布差异足够大（如 instruction tuning 与 code completion），盆地可能分裂为多个独立子盆地，此时线性算术会落入盆地间的"高原"，性能急剧下降。这就是为什么"训练阶段对齐"（同 base、同数据、同 recipe）的模型最容易合并，而跨任务、跨阶段的合并常常失败。

三、干扰与协同：TIES-Merging 的算法分解

当合并多个任务向量时，**interference（干扰）**是核心问题。设任务 $A, B$ 的向量 $\tau_A, \tau_B$ 在权重维度 $i$ 上符号相反：

\text{sign}(\tau_A^{(i)}) \ne \text{sign}(\tau_B^{(i)})

则简单求平均会导致该维度上"互相抵消"，任务 $A, B$ 在该维度上学到的特征都被削弱。Yadav 等人 2023 年提出的 TIES-Merging（Trim, Elect, Sign）正是为解决此问题设计的：

算法 1 TIES-Merging
输入：基础权重 θ_base, 任务向量 {τ_t}, 混合系数 {α_t}, 保留比例 k
1. for each τ_t:
2.   保留绝对值最大的 top-k% 维度，其余置零    # Trim
3. for each dim i:
4.   按符号聚合：S^(i) = {τ_t^(i) : τ_t^(i) ≠ 0}
5.   选择符号：sign^(i) = sign(Σ_{τ∈S} τ^(i))  # Elect
6.   仅保留与 sign^(i) 同号的 τ_t^(i)           # Sign agreement
7.   按 |τ_t^(i)| 求平均
8. θ_merged = θ_base + Σ_t α_t * (trimmed_τ_t)

Trim 步骤隐含一个 稀疏性假设：fine-tune 修改的权重是稀疏的（多数权重相对 base 不变）。这一假设在 LoRA 微调场景下几乎精确成立；在全参数微调下则需要用经验阈值逼近。Elect 步骤实质是 majority voting，它在维度级别上"选出胜出方向"，把所有反对者置零，从而消除符号相反的干扰。Sign agreement 是 Ele ct 的具体实现：在胜出方向上，仅保留与之同号的贡献，丢弃反号贡献。

TIES 的几何解读是：把高维权重空间投影到一个 任务向量的"一致子空间"，丢弃"分歧子空间"。这等价于一次软维度的 PCA 截断。

四、DARE：随机丢弃与复原的对称性

与 TIES 互补的是 Yu 等人 2023 年提出的 DARE（Drop And REscale）：对任务向量 $\tau_t$ 以概率 $p$ 随机丢弃维度，然后将剩余维度放大 $\frac{1}{1-p}$ 倍：

\tau_t' = \frac{\tau_t \odot M_t}{1-p}, \quad M_t \sim \text{Bernoulli}(1-p)^{\otimes d}

直觉上，DARE 在问：fine-tune 修改的权重中，有多少是冗余的？如果 fine-tune 的有效更新是稀疏的，那么随机丢弃一半再放大，并不显著影响模型行为——但大幅降低了后续合并时的干扰噪声。

DARE 与 TIES 都基于同一个底层假设：fine-tune 修改稀疏。它们的差异在于实现：TIES 用"按绝对值大小排序取 top-k"做硬选择，DARE 用"按随机掩码"做软选择。实测发现两者效果接近，DARE 实现更简单，TIES 在多任务合并时更稳定。

值得注意的是 DARE 的一个反直觉发现：对单个 fine-tune 模型，DARE 丢弃 90% 的更新（ $p=0.9$ ）后再复原，模型性能几乎不变。这暗示 fine-tune 的"有效信息密度"远低于其权重维度数。如果把 fine-tune 视为一次"信息压缩"，那压缩比约为 10:1。

五、进化搜索与组合空间的覆盖

当合并的模型数量超过 3 个，组合空间爆炸。设合并 $N$ 个模型，每个有 $K$ 种可能权重配置，则搜索空间为 $K^N$ —— $N=5, K=10$ 时已有 $10^5$ 。Akiba 等人 2024 年的 Evolutionary Optimization of Model Merging Recipes 用进化算法搜索最优的"合并配方"：每个个体编码 $N$ 个浮点权重 $\{\alpha_t\}$ 和分层结构，fitness 是在验证集上的合并后任务准确率。

算法 2 Evolutionary Merge Search
输入：模型集 {θ_t}, 任务验证集, 种群大小 P, 代数 G
1. 初始化 P 个个体，每个个体编码合并权重 α ∈ R^N
2. for g = 1..G:
3.   for each individual in population:
4.     θ_merged = Σ_t α_t * (θ_t - θ_base) + θ_base
5.     fitness = eval(θ_merged, validation_set)
6.   选择：top-quartile 保留
7.   交叉 + 变异（高斯扰动、维度级 swap）
8. 返回历史最优个体

进化搜索对算力的需求极高——每个 fitness 评估都需要一次完整前向传播。但它的优势在于 脱离梯度：合并过程不需要反向传播，因而可以处理异构模型（包括不同 tokenizer、不同 layer 数）。这为"跨架构合并"打开了大门。

2025 年出现的 FrankenMoE 是这一方向的极端例子：从多个 fine-tune 模型中抽取专家层，拼装成混合专家网络。拼装后的 MoE 性能可能超过任何源模型，但前提是源模型的"专家分布"足够互补。这要求源模型在 fine-tune 时使用差异显著的数据子集。

六、开放问题与失败模式

模型合并仍有几个根本未解的问题：

跨任务泛化的理论保证：为什么 Task Arithmetic 在未见过的任务上也能工作？是否存在可以预测的"组合泛化边界"？
跨架构合并的合法性：不同 layer 数、不同 attention head 维度的模型能否合并？线性算术在这些情况下没有定义，启发式拼接（如最近的 "passthrough" 合并）缺乏理论支撑。
合并的稳定性：进化搜索找到的最优合并是否稳定？小规模验证集的 fitness 是否能预测分布外任务的表现？
法律与血缘：合并后的模型权重归属于谁？当源模型使用不同的许可证时，合并体的许可证如何确定？

这些问题的回答，将决定"模型合并"是从工程技巧走向理论范式，还是停留在社区实践层面。

八、生产环境落地清单与典型应用模式

模型合并从论文走向生产，需要一组工程层面的具体动作。下面 12 条是从 2025 年以来主流合并工作流中沉淀的实践准则，按"前置检查 → 合并执行 → 验证与监控 → 长期治理"四个阶段组织。

前置检查：

统一基底：所有待合并的 fine-tune 必须从完全相同的 $\theta_{\text{base}}$ 出发（同一 commit hash、同一随机种子初始化、同一 tokenization 路径），否则 Task Arithmetic 的线性假设会因 mode-connectivity 缺失而崩溃。
训练阶段对齐：fine-tune 时的超参（learning rate、batch size、warmup、optimizer）应尽量一致，否则不同 fine-tune 会落入不同的 loss basin。
许可证审计：合并前先逐个查源模型的许可证——apache-2.0 + apache-2.0 可继续 apache-2.0；apache-2.0 + cc-by-nc-4.0 混合通常需要降级为研究用途。

合并执行： 4. 先小批量验证：第一次合并先用 2 个模型 + 1 个混合系数网格（ $\alpha \in [-0.5, 0, 0.5, 1.0]$ ），观察任务上的性能曲线，再扩展到多模型。 5. 保 k 值从 20% 起步：TIES-Merging 的 top-k 保留比例从 $k=0.2$ 起调，向上递增到 0.5 直至性能饱和。 6. DARE 丢弃率经验值：单 fine-tune 复原可用 $p=0.5$ ；多任务合并时建议 $p=0.3$ ，避免过度破坏有效信号。 7. 进化搜索种群规模：CMA-ES / 差分进化的初始种群 $\ge 4N$ （ $N$ 为模型数），代数 $\ge 30$ ，否则容易陷入局部最优。

验证与监控： 8. 保留多任务原能力：合并后必须测源任务上的性能不退化（典型允许损失 $\le 1.5\%$ ），而不是只看合并目标任务的提升。 9. 跑"零样本迁移"测试：在合并任务外的 held-out 任务集上观察性能，证明合并有正迁移而非仅过拟合。 10. 统计显著性：合并前后差距 $\ge 1\%$ 的提升需要至少 5 个随机种子验证，否则可能落在噪声区间。

长期治理： 11. 保留原始 fine-tune 权重：合并体再 fine-tune 会污染源模型血统，建议同时归档源 fine-tune 用于"回滚"。 12. 建立合并物语（provenance）：记录合并用的算法、系数、源模型 commit hash、验证日志——这是后续审计和合规检查的基础。

从应用角度看，模型合并目前在四个领域已稳定落地：① 多语言模型：用 Task Arithmetic 把英语 + 中文 + 日语微调合并，零样本扩展到未见过的低资源语言；② 代码 + 指令对齐：在 code completion 与 instruction following 之间插值，得到"既能写代码又能对话"的双能模型；③ 安全对齐：把 refusal 能力作为任务向量与基础模型相加，提升模型的安全拒绝率；④ 领域特化：医疗 + 法律微调合并，覆盖跨领域咨询场景。

七、参考文献

Wortsman, M., et al. (2022). Model Soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time. ICML 2022.
Ilharco, G., et al. (2022). Editing Models with Task Arithmetic. ICLR 2023.
Yadav, P., et al. (2023). TIES-Merging: Resolving Interference When Merging Models. NeurIPS 2023.
Yu, L., et al. (2023). Language Model Merging with Parameter-Efficient Soup (DARE). arXiv:2310.16786.
Akiba, T., et al. (2024). Evolutionary Optimization of Model Merging Recipes. arXiv:2403.13187.
FrankenMoE (2024). Expert-level weight extraction and re-assembly across fine-tuned MoEs. arXiv:2412.01866 (cited informally; preprint retrieved via arXiv search).
Entezari, R., et al. (2022). Role of Permutation Invariance in Linear Mode Connectivity. ICML 2022.

一句话摘要：模型合并的几何学把 fine-tune 视为损失盆地内的稀疏扰动——Task Arithmetic 是盆地中心的线性插值，TIES-Merging 与 DARE 分别用硬/软方式剪除符号干扰，进化搜索在组合空间上做无梯度寻优，三者共同构成 2026 年开源生态的"权重即乐高"理论基础。

图表加载中…

模型合并的几何学：Task Arithmetic、TIES、DARE 与进化搜索的理论基础