Weight Merging 的理论重建 2026:Task Arithmetic、TIES 与 DARE 三大范式的数学基础与边界
约 10 分钟2836 字1 次阅读
Weight Merging 的理论重建 2026:Task Arithmetic、TIES 与 DARE 三大范式的数学基础与边界
一句话摘要:当多个微调后的 LLM 都站在损失景观的低谷平原上时,模型合并的成败并不取决于"权重平均得够不够好",而取决于"它们是否处于同一个线性模式连通盆地"。本文从 Frankle 的线性模式连通性出发,拆解 Task Arithmetic、TIES-MERGING 与 DARE 三大合并范式的数学假设、归并冲突与冗余处理,并给出 2026 年 production-ready 合并流水线应该具备的四个判断条件。
一、为什么模型合并这件事在 2025-2026 突然重新火起来
2022 年,Ilharco 等人在 "Editing Models with Task Arithmetic"(arXiv:2212.04089)里给出过一个非常反直觉的实验:把同一个基础模型在两个不同任务上分别 fine-tune 得到 与 ,再把"任务向量" 做线性组合,得到的合并模型在多个任务上同时涨点。这件事的意义不在于"平均权重能涨点"——而在于它意味着 任务向量空间中存在可加性的几何结构。也即 fine-tuning 不是"把模型推到一个孤立的低谷",而是"在损失景观中沿一条低维流形滑动",滑动产生的位移向量本身可被叠加。
但 Task Arithmetic 在三类场景失效:(1) fine-tune 的数据量极大、参数偏移幅度过高时;(2) 两个任务向量的方向几乎正交时,叠加后范数爆炸;(3) 任务之间存在"知识干扰"时,简单相加会同时削弱两边的能力。Yadav 等人 2023 年的 TIES-MERGING(NeurIPS 2023, arXiv:2306.01708)以及 Yu 等人 2023 年的 DARE(arXiv:2311.03099)分别从不同角度补刀——TIES 解决"符号冲突"问题,DARE 解决"参数冗余"问题。三个方法合在一起构成了 2024-2026 年模型合并的事实标准。
进入 2026 年后,合并管线被进一步推向生产化:SlimMoE、FrankenMoE、SoLA 等稀疏专家合并方法开始与 LoRA 合并深度融合;MergeKit 0.4+ 支持了 8 种合并策略并行;Linear Projection、Evolutionary Model Merge 等"非简单线性算术"方法开始在小模型(< 14B)上实证能超过 GPT-4o 在某些垂类任务上的表现。这条曲线的关键转折点是:当基础模型本身已经具备足够的"模式连通性"时,合并就变成了一个优化任务而非一个加法任务。
二、Task Arithmetic 的核心数学假设
Task Arithmetic 的整个理论可以压缩到三行数学。给定基础模型权重 与 个 fine-tuned 模型 ,定义任务向量 。Task Arithmetic 假设存在一个有效系数集合 与一个缩放项 ,使得合并后的权重
在所有任务上同时表现良好。这里的关键不是" 可以相加"——任何向量都可以相加——而是"存在一组非平凡的 (不全为 0)使得合并后的损失不超过每个 的最差损失"。
这个假设的几何含义是:所有 fine-tuned 模型都处于以 为原点、半径不超过某个上界的同一个低维线性流形上,且这些点彼此之间可以线性插值而不离开低损失盆地。这个性质在文献里叫 linear mode connectivity(LMC),由 Frankle 等人在 "Linear Mode Connectivity and the Lottery Ticket Hypothesis"(arXiv:1912.05671, 2020 年首次提出)严格证明存在条件:当两个 fine-tune 共享"相同的训练数据 permutation 与相同的初始化种子"时,它们在损失景观中位于同一条低损曲线上。
但生产实践里几乎不可能共享"相同的训练数据 permutation"——SFT 数据集都是各自打乱的、随机种子在分布式训练里也常常不同。这正是 Task Arithmetic 在 2023-2024 大量翻车的根本原因。下面我们看 TIES 和 DARE 如何在这条假设破裂时抢救。
三、TIES-MERGING:把"符号冲突"显式处理掉
TIES 的关键观察是:在两个 fine-tune 模型的任务向量 与 中,大量参数维度的符号是相反的——即在维度 上, 与 一正一负。直觉上,这表示两个任务在该维度上对权重的需求是冲突的,强行相加会让该维度的更新相互抵消,再加 baseline 偏置导致模型偏离所有任务的低损盆地。
TIES 给出三步流水线:
- Trim(裁剪):对每个任务向量 ,保留 top-k 比例的幅值最大参数(默认 k=20%),把其余 80% 置零。这一步的理论动机是 fine-tune 的有效更新集中在少数高幅值维度(DARE 论文的实证显示 fine-tune 中 90% 的参数变化可以随机置零而不影响性能)。
- Elect Sign(符号选举):对每个参数维度 ,统计所有 trim 后 的符号,按绝对值之和最大的那个符号作为该维度的统一符号。这是多数投票机制的线性化版本。
- Disjoint Merge(不相交合并):对每个维度 ,只把与选举符号同向的 累加,反向的 全部丢弃。这一步等价于 "选出在每个维度上多数派的方向,把少数派的贡献视为噪声"。
数学上,TIES 的输出可以写成
其中 是 trim 后保留的高幅值维度集合, 是选举符号, 是 的 top-k 阈值。这套流水线解决了 Task Arithmetic 的两大问题:(1) 符号冲突通过 Elect Sign + Disjoint Merge 显式归并;(2) 维度爆炸通过 Trim 把平均范数控制住。
但 TIES 也有失效场景:当多个任务在绝大多数高幅值维度都冲突时,Elect Sign 退化为"任意选一个",Disjoint Merge 等价于"只取其中一个任务",合并退化为"选最好单任务"——这时合并带来的多任务能力提升消失。
四、DARE:用随机稀疏化打破"参数冗余"假说
DARE 的视角完全不同。它问的不是"如何处理冲突",而是"fine-tune 的参数变化是否真的必要"。Yadav 等人 2023 年的核心实验是:对 fine-tuned 模型 ,以概率 随机把每个参数重置回 ,得到 。他们发现当 (即把 90% 的参数重置回预训练值)时,模型的大多数任务性能几乎不下降,有时反而轻微上升(+0.3 到 +0.8 个百分点)。
这个发现的理论冲击是颠覆性的:它意味着 fine-tune 的 90% 参数变化是"自由"的——它们对任务损失的影响极小,因此可以随机置零而不损失性能。这也间接支持了 LoRA 的"低秩更新有效"假说。
DARE 与 TIES 互补:TIES 处理"已确定的更新之间的冲突",DARE 处理"是否真的需要这些更新"。两者组合即 DARE-TIES 流水线(MergeKit 默认推荐),先 DARE 稀疏化、再 TIES 归并,能在 3-7 个任务的多任务合并上稳定优于单独 TIES 或 Task Arithmetic。
但 DARE 也有其边界条件:它假设 fine-tune 的参数变化是各维度独立同分布的稀疏信号。当 fine-tune 引入了结构性变化(如 attention 模式的重新布线、layer norm 的尺度调整)时,这些变化通常集中在少数结构关键维度(如 attention 的 QK 矩阵的特定 head、layer norm 的 bias 项),随机稀疏化会把这些结构变化也置零,导致灾难性遗忘。生产实践里的经验法则是:DARE 适用于 LoRA-style 增量更新,不适用于 full fine-tune。
五、2026 年合并流水线的四个判断条件
把 Task Arithmetic、TIES、DARE 的失败案例总结起来,一个 production-ready 的合并流水线需要满足四个判断条件:
条件一:合并前先验证 LMC。对两个 fine-tune 模型 ,先做线性插值 ,在 网格上评估任务损失。如果损失曲线在中间点(如 )不显著高于两端,则 LMC 成立、可以合并;如果中间点损失爆涨,则不能直接合并,需要先用 SVD 或 PCA 在权重空间做对齐。这一步的代价是一次小规模 evaluation(通常 100-500 个样本),但能省掉 90% 的合并翻车。
条件二:trim 比例按"任务难度"调整。TIES 默认 k=20% 在多数 benchmark 工作良好,但对 hard task(fine-tune 时参数偏移幅度 > 5%)的合并,k 应降到 10%。原因:hard task 的有效更新集中在更少的高幅值维度,trim 比例过高会引入过多噪声。
条件三:DARE 概率按"更新范数"调整。DARE 默认 适用于 LoRA 合并。当合并对象是 full fine-tune 时, 应降到 0.5-0.7,因为 full fine-tune 的有效更新比例更高。
条件四:合并后必须做跨任务评估。合并最容易翻车的不是单任务性能下降,而是任务之间的知识干扰(如代码任务合并了数学任务后,代码性能下降 5%、数学性能下降 3%)。合并后必须在所有源任务的测试集上做一次完整 evaluation,不能只看合并模型的平均分。
六、超越线性:2026 合并方法的两条新路
进入 2026 年后,简单的"权重加减"开始被两类方法超越:
Linear Projection Merge(arXiv:2402.00827, Goddard et al. 2024):不直接加任务向量,而是先在权重空间做 SVD 分解,把任务向量投影到"基础模型主成分"张成的子空间上再做合并。理论动机是 fine-tune 的有效更新主要沿预训练损失景观的低曲率方向,SVD 把高曲率方向滤掉,保留低曲率方向。实测在 7B 级别模型上比 TIES-DARE 提升 1-2 个百分点。
Evolutionary Model Merge(Akiba et al. 2024, "Evolutionary Optimization of Model Merging Recipes"):把"哪几层用 TIES、哪几层用 DARE、缩放系数怎么定"建模为一个离散-连续混合优化问题,用进化算法(CMA-ES)搜索最优合并食谱。在 7B-13B 模型的多任务合并上能找到比手工食谱高 3-5% 的配置。但代价是 evaluation 次数爆炸(单次搜索需要 200-1000 次合并 + 评估),不适合 production pipeline。
这两条路指向同一个未来:模型合并从"加法"变成"优化"。2026 H2 之后我们会看到更多"把合并视为 NAS(Neural Architecture Search)子问题"的研究,把合并策略本身作为可学习的离散决策。
七、一句话总结
Weight Merging 在 2026 年的真正教训不是"哪个算法最好",而是"合并前必须验证模式连通性、合并中必须按任务难度调参、合并后必须做跨任务评估"。当这四条都满足时,Task Arithmetic / TIES / DARE 的简单线性算术就能撑起 production pipeline;当任何一条不满足时,再花哨的方法也会翻车。
参考文献
- Ilharco, G., et al. (2022). "Editing Models with Task Arithmetic." arXiv:2212.04089.
- Yadav, P., et al. (2023). "TIES-Merging: Resolving Interference When Merging Models." NeurIPS 2023, arXiv:2306.01708.
- Yu, L., et al. (2023). "Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch." (DARE), arXiv:2311.03099.
- Frankle, J., et al. (2020). "Linear Mode Connectivity and the Lottery Ticket Hypothesis." arXiv:1912.05671.
- Goddard, C., et al. (2024). "Arithmetic-Based Linear Projection of Pre-Trained Model Layers for Model Merging." arXiv:2402.00827.
- Akiba, T., et al. (2024). "Evolutionary Optimization of Model Merging Recipes." arXiv:2403.13187.
- Wortsman, M., et al. (2022). "Model Soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time." ICML 2022, arXiv:2203.05482.
- Jin, X., et al. (2023). "Dataless Knowledge Fusion by Merging Weights of Language Models." ICLR 2023, arXiv:2212.09849.