Weight Merging 的理论重建 2026：Task Arithmetic、TIES 与 DARE 三大范式的数学基础与边界

一句话摘要：当多个微调后的 LLM 都站在损失景观的低谷平原上时，模型合并的成败并不取决于"权重平均得够不够好"，而取决于"它们是否处于同一个线性模式连通盆地"。本文从 Frankle 的线性模式连通性出发，拆解 Task Arithmetic、TIES-MERGING 与 DARE 三大合并范式的数学假设、归并冲突与冗余处理，并给出 2026 年 production-ready 合并流水线应该具备的四个判断条件。

一、为什么模型合并这件事在 2025-2026 突然重新火起来

2022 年，Ilharco 等人在 "Editing Models with Task Arithmetic"（arXiv:2212.04089）里给出过一个非常反直觉的实验：把同一个基础模型在两个不同任务上分别 fine-tune 得到 $\theta_1$ 与 $\theta_2$ ，再把"任务向量" $\tau_i = \theta_i - \theta_0$ 做线性组合，得到的合并模型在多个任务上同时涨点。这件事的意义不在于"平均权重能涨点"——而在于它意味着 任务向量空间中存在可加性的几何结构。也即 fine-tuning 不是"把模型推到一个孤立的低谷"，而是"在损失景观中沿一条低维流形滑动"，滑动产生的位移向量本身可被叠加。

但 Task Arithmetic 在三类场景失效：(1) fine-tune 的数据量极大、参数偏移幅度过高时；(2) 两个任务向量的方向几乎正交时，叠加后范数爆炸；(3) 任务之间存在"知识干扰"时，简单相加会同时削弱两边的能力。Yadav 等人 2023 年的 TIES-MERGING（NeurIPS 2023, arXiv:2306.01708）以及 Yu 等人 2023 年的 DARE（arXiv:2311.03099）分别从不同角度补刀——TIES 解决"符号冲突"问题，DARE 解决"参数冗余"问题。三个方法合在一起构成了 2024-2026 年模型合并的事实标准。

进入 2026 年后，合并管线被进一步推向生产化：SlimMoE、FrankenMoE、SoLA 等稀疏专家合并方法开始与 LoRA 合并深度融合；MergeKit 0.4+ 支持了 8 种合并策略并行；Linear Projection、Evolutionary Model Merge 等"非简单线性算术"方法开始在小模型（< 14B）上实证能超过 GPT-4o 在某些垂类任务上的表现。这条曲线的关键转折点是：当基础模型本身已经具备足够的"模式连通性"时，合并就变成了一个优化任务而非一个加法任务。

二、Task Arithmetic 的核心数学假设

Task Arithmetic 的整个理论可以压缩到三行数学。给定基础模型权重 $\theta_0 \in \mathbb{R}^d$ 与 $n$ 个 fine-tuned 模型 $\theta_1, \ldots, \theta_n$ ，定义任务向量 $\tau_i = \theta_i - \theta_0$ 。Task Arithmetic 假设存在一个有效系数集合 $\{\alpha_i\}_{i=1}^n$ 与一个缩放项 $\lambda$ ，使得合并后的权重

$\theta_{\text{merge}} = \theta_0 + \lambda \sum_{i=1}^n \alpha_i \tau_i$

在所有任务上同时表现良好。这里的关键不是" $\tau_i$ 可以相加"——任何向量都可以相加——而是"存在一组非平凡的 $\alpha_i$ （不全为 0）使得合并后的损失不超过每个 $\theta_i$ 的最差损失"。

这个假设的几何含义是：所有 fine-tuned 模型都处于以 $\theta_0$ 为原点、半径不超过某个上界的同一个低维线性流形上，且这些点彼此之间可以线性插值而不离开低损失盆地。这个性质在文献里叫 linear mode connectivity（LMC），由 Frankle 等人在 "Linear Mode Connectivity and the Lottery Ticket Hypothesis"（arXiv:1912.05671, 2020 年首次提出）严格证明存在条件：当两个 fine-tune 共享"相同的训练数据 permutation 与相同的初始化种子"时，它们在损失景观中位于同一条低损曲线上。

但生产实践里几乎不可能共享"相同的训练数据 permutation"——SFT 数据集都是各自打乱的、随机种子在分布式训练里也常常不同。这正是 Task Arithmetic 在 2023-2024 大量翻车的根本原因。下面我们看 TIES 和 DARE 如何在这条假设破裂时抢救。

三、TIES-MERGING：把"符号冲突"显式处理掉

TIES 的关键观察是：在两个 fine-tune 模型的任务向量 $\tau_1$ 与 $\tau_2$ 中，大量参数维度的符号是相反的——即在维度 $j$ 上， $\tau_1[j]$ 与 $\tau_2[j]$ 一正一负。直觉上，这表示两个任务在该维度上对权重的需求是冲突的，强行相加会让该维度的更新相互抵消，再加 baseline 偏置导致模型偏离所有任务的低损盆地。

TIES 给出三步流水线：

Trim（裁剪）：对每个任务向量 $\tau_i$ ，保留 top-k 比例的幅值最大参数（默认 k=20%），把其余 80% 置零。这一步的理论动机是 fine-tune 的有效更新集中在少数高幅值维度（DARE 论文的实证显示 fine-tune 中 90% 的参数变化可以随机置零而不影响性能）。
Elect Sign（符号选举）：对每个参数维度 $j$ ，统计所有 trim 后 $\tau_i[j]$ 的符号，按绝对值之和最大的那个符号作为该维度的统一符号。这是多数投票机制的线性化版本。
Disjoint Merge（不相交合并）：对每个维度 $j$ ，只把与选举符号同向的 $\tau_i[j]$ 累加，反向的 $\tau_i[j]$ 全部丢弃。这一步等价于 "选出在每个维度上多数派的方向，把少数派的贡献视为噪声"。

数学上，TIES 的输出可以写成

$\theta_{\text{TIES}} = \theta_0 + \lambda \sum_{j \in \mathcal{M}} s_j \cdot \frac{\sum_{i: \text{sign}(\tau_i[j]) = s_j} |\tau_i[j] \mathbb{1}_{|\tau_i[j]| \geq t_i}|}{\#\{i: \text{sign}(\tau_i[j]) = s_j\}}$

其中 $\mathcal{M}$ 是 trim 后保留的高幅值维度集合， $s_j$ 是选举符号， $t_i$ 是 $\tau_i$ 的 top-k 阈值。这套流水线解决了 Task Arithmetic 的两大问题：(1) 符号冲突通过 Elect Sign + Disjoint Merge 显式归并；(2) 维度爆炸通过 Trim 把平均范数控制住。

但 TIES 也有失效场景：当多个任务在绝大多数高幅值维度都冲突时，Elect Sign 退化为"任意选一个"，Disjoint Merge 等价于"只取其中一个任务"，合并退化为"选最好单任务"——这时合并带来的多任务能力提升消失。

四、DARE：用随机稀疏化打破"参数冗余"假说

DARE 的视角完全不同。它问的不是"如何处理冲突"，而是"fine-tune 的参数变化是否真的必要"。Yadav 等人 2023 年的核心实验是：对 fine-tuned 模型 $\theta_i$ ，以概率 $p$ 随机把每个参数重置回 $\theta_0$ ，得到 $\tilde{\theta}_i$ 。他们发现当 $p = 0.9$ （即把 90% 的参数重置回预训练值）时，模型的大多数任务性能几乎不下降，有时反而轻微上升（+0.3 到 +0.8 个百分点）。

这个发现的理论冲击是颠覆性的：它意味着 fine-tune 的 90% 参数变化是"自由"的——它们对任务损失的影响极小，因此可以随机置零而不损失性能。这也间接支持了 LoRA 的"低秩更新有效"假说。

DARE 与 TIES 互补：TIES 处理"已确定的更新之间的冲突"，DARE 处理"是否真的需要这些更新"。两者组合即 DARE-TIES 流水线（MergeKit 默认推荐），先 DARE 稀疏化、再 TIES 归并，能在 3-7 个任务的多任务合并上稳定优于单独 TIES 或 Task Arithmetic。

但 DARE 也有其边界条件：它假设 fine-tune 的参数变化是各维度独立同分布的稀疏信号。当 fine-tune 引入了结构性变化（如 attention 模式的重新布线、layer norm 的尺度调整）时，这些变化通常集中在少数结构关键维度（如 attention 的 QK 矩阵的特定 head、layer norm 的 bias 项），随机稀疏化会把这些结构变化也置零，导致灾难性遗忘。生产实践里的经验法则是：DARE 适用于 LoRA-style 增量更新，不适用于 full fine-tune。

五、2026 年合并流水线的四个判断条件

把 Task Arithmetic、TIES、DARE 的失败案例总结起来，一个 production-ready 的合并流水线需要满足四个判断条件：

条件一：合并前先验证 LMC。对两个 fine-tune 模型 $\theta_1, \theta_2$ ，先做线性插值 $\theta_\alpha = (1-\alpha)\theta_1 + \alpha \theta_2$ ，在 $\alpha \in [0, 1]$ 网格上评估任务损失。如果损失曲线在中间点（如 $\alpha = 0.5$ ）不显著高于两端，则 LMC 成立、可以合并；如果中间点损失爆涨，则不能直接合并，需要先用 SVD 或 PCA 在权重空间做对齐。这一步的代价是一次小规模 evaluation（通常 100-500 个样本），但能省掉 90% 的合并翻车。

条件二：trim 比例按"任务难度"调整。TIES 默认 k=20% 在多数 benchmark 工作良好，但对 hard task（fine-tune 时参数偏移幅度 > 5%）的合并，k 应降到 10%。原因：hard task 的有效更新集中在更少的高幅值维度，trim 比例过高会引入过多噪声。

条件三：DARE 概率按"更新范数"调整。DARE 默认 $p=0.9$ 适用于 LoRA 合并。当合并对象是 full fine-tune 时， $p$ 应降到 0.5-0.7，因为 full fine-tune 的有效更新比例更高。

条件四：合并后必须做跨任务评估。合并最容易翻车的不是单任务性能下降，而是任务之间的知识干扰（如代码任务合并了数学任务后，代码性能下降 5%、数学性能下降 3%）。合并后必须在所有源任务的测试集上做一次完整 evaluation，不能只看合并模型的平均分。

六、超越线性：2026 合并方法的两条新路

进入 2026 年后，简单的"权重加减"开始被两类方法超越：

Linear Projection Merge（arXiv:2402.00827, Goddard et al. 2024）：不直接加任务向量，而是先在权重空间做 SVD 分解，把任务向量投影到"基础模型主成分"张成的子空间上再做合并。理论动机是 fine-tune 的有效更新主要沿预训练损失景观的低曲率方向，SVD 把高曲率方向滤掉，保留低曲率方向。实测在 7B 级别模型上比 TIES-DARE 提升 1-2 个百分点。

Evolutionary Model Merge（Akiba et al. 2024, "Evolutionary Optimization of Model Merging Recipes"）：把"哪几层用 TIES、哪几层用 DARE、缩放系数怎么定"建模为一个离散-连续混合优化问题，用进化算法（CMA-ES）搜索最优合并食谱。在 7B-13B 模型的多任务合并上能找到比手工食谱高 3-5% 的配置。但代价是 evaluation 次数爆炸（单次搜索需要 200-1000 次合并 + 评估），不适合 production pipeline。

这两条路指向同一个未来：模型合并从"加法"变成"优化"。2026 H2 之后我们会看到更多"把合并视为 NAS（Neural Architecture Search）子问题"的研究，把合并策略本身作为可学习的离散决策。

七、一句话总结

Weight Merging 在 2026 年的真正教训不是"哪个算法最好"，而是"合并前必须验证模式连通性、合并中必须按任务难度调参、合并后必须做跨任务评估"。当这四条都满足时，Task Arithmetic / TIES / DARE 的简单线性算术就能撑起 production pipeline；当任何一条不满足时，再花哨的方法也会翻车。

参考文献

Ilharco, G., et al. (2022). "Editing Models with Task Arithmetic." arXiv:2212.04089.
Yadav, P., et al. (2023). "TIES-Merging: Resolving Interference When Merging Models." NeurIPS 2023, arXiv:2306.01708.
Yu, L., et al. (2023). "Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch." (DARE), arXiv:2311.03099.
Frankle, J., et al. (2020). "Linear Mode Connectivity and the Lottery Ticket Hypothesis." arXiv:1912.05671.
Goddard, C., et al. (2024). "Arithmetic-Based Linear Projection of Pre-Trained Model Layers for Model Merging." arXiv:2402.00827.
Akiba, T., et al. (2024). "Evolutionary Optimization of Model Merging Recipes." arXiv:2403.13187.
Wortsman, M., et al. (2022). "Model Soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time." ICML 2022, arXiv:2203.05482.
Jin, X., et al. (2023). "Dataless Knowledge Fusion by Merging Weights of Language Models." ICLR 2023, arXiv:2212.09849.

Weight Merging 的理论重建 2026:Task Arithmetic、TIES 与 DARE 三大范式的数学基础与边界