模型合并的几何学:Task Arithmetic、TIES、DARE 与进化搜索的理论基础
约 15 分钟4496 字3 次阅读
模型合并的几何学:Task Arithmetic、TIES、DARE 与进化搜索的理论基础
当一个社区在 12 个月内合并出 200+ 个 SOTA 开源模型时,"模型合并"已经从工程技巧升格为可被严格分析的理论对象。本文试图从权重空间的几何、Taylor 展开的低阶截断、interference vs synergy 的算法分解、进化搜索对组合空间的覆盖四个层次,给 2026 年的模型合并研究画一张算法几何的地图。
一、从"模型即资产"到"模型即组合单元"
2022 年 Wortsman 等人用 "Model Soups"(模型汤)证明:对同一预训练任务,独立 fine-tune 得到的多个权重向量求平均,常常超过其中任何一个单独模型。这一发现颠覆了"权重 = 资产,必须完整保存"的传统观念,开启了"权重可被线性组合"的时代。
紧随其后,Ilharco 等人提出 Task Arithmetic(任务算术):把任务微调视为"任务向量" ,则 可以实现多任务的零样本组合。这里隐含的关键假设是:任务向量在损失景观中近似线性。
这一假设并不平凡。神经网络的损失函数 在预训练点 附近的 Hessian 拥有数十亿维的特征值,绝大多数非常大。Task Arithmetic 能工作的根本原因是:在 fine-tune 的"窄轨迹"内,沿任务方向 的二阶项贡献小于一阶项贡献。这等价于说 fine-tune 处于 Hessian 的低秩、低曲率子空间。
二、Mode Connectivity 与 Loss Basin
2024 年"Mode Connectivity"的实证研究进一步支撑了上述假设:两个独立 fine-tune 的极小值 之间存在"低损失路径"——沿这条路径上的所有权重都保持与端点相近的测试损失。如果损失景观是高度多峰的,这条路径几乎不可能存在。它的存在说明:fine-tune 后的极小值构成一个"损失盆地 (loss basin)",盆地内的算术平均仍落在盆地内。
设盆地的直径为 、深度为 。对盆地内任意两点 ,存在 的连续曲线 使得 。在此意义下,线性组合 是该盆地内的一个有效样本。
但 Mode Connectivity 的实证也揭示了边界:当 fine-tune 的数据分布差异足够大(如 instruction tuning 与 code completion),盆地可能分裂为多个独立子盆地,此时线性算术会落入盆地间的"高原",性能急剧下降。这就是为什么"训练阶段对齐"(同 base、同数据、同 recipe)的模型最容易合并,而跨任务、跨阶段的合并常常失败。
三、干扰与协同:TIES-Merging 的算法分解
当合并多个任务向量时,**interference(干扰)**是核心问题。设任务 的向量 在权重维度 上符号相反:
则简单求平均会导致该维度上"互相抵消",任务 在该维度上学到的特征都被削弱。Yadav 等人 2023 年提出的 TIES-Merging(Trim, Elect, Sign)正是为解决此问题设计的:
算法 1 TIES-Merging
输入:基础权重 θ_base, 任务向量 {τ_t}, 混合系数 {α_t}, 保留比例 k
1. for each τ_t:
2. 保留绝对值最大的 top-k% 维度,其余置零 # Trim
3. for each dim i:
4. 按符号聚合:S^(i) = {τ_t^(i) : τ_t^(i) ≠ 0}
5. 选择符号:sign^(i) = sign(Σ_{τ∈S} τ^(i)) # Elect
6. 仅保留与 sign^(i) 同号的 τ_t^(i) # Sign agreement
7. 按 |τ_t^(i)| 求平均
8. θ_merged = θ_base + Σ_t α_t * (trimmed_τ_t)
Trim 步骤隐含一个 稀疏性假设:fine-tune 修改的权重是稀疏的(多数权重相对 base 不变)。这一假设在 LoRA 微调场景下几乎精确成立;在全参数微调下则需要用经验阈值逼近。Elect 步骤实质是 majority voting,它在维度级别上"选出胜出方向",把所有反对者置零,从而消除符号相反的干扰。Sign agreement 是 Ele ct 的具体实现:在胜出方向上,仅保留与之同号的贡献,丢弃反号贡献。
TIES 的几何解读是:把高维权重空间投影到一个 任务向量的"一致子空间",丢弃"分歧子空间"。这等价于一次软维度的 PCA 截断。
四、DARE:随机丢弃与复原的对称性
与 TIES 互补的是 Yu 等人 2023 年提出的 DARE(Drop And REscale):对任务向量 以概率 随机丢弃维度,然后将剩余维度放大 倍:
直觉上,DARE 在问:fine-tune 修改的权重中,有多少是冗余的?如果 fine-tune 的有效更新是稀疏的,那么随机丢弃一半再放大,并不显著影响模型行为——但大幅降低了后续合并时的干扰噪声。
DARE 与 TIES 都基于同一个底层假设:fine-tune 修改稀疏。它们的差异在于实现:TIES 用"按绝对值大小排序取 top-k"做硬选择,DARE 用"按随机掩码"做软选择。实测发现两者效果接近,DARE 实现更简单,TIES 在多任务合并时更稳定。
值得注意的是 DARE 的一个反直觉发现:对单个 fine-tune 模型,DARE 丢弃 90% 的更新()后再复原,模型性能几乎不变。这暗示 fine-tune 的"有效信息密度"远低于其权重维度数。如果把 fine-tune 视为一次"信息压缩",那压缩比约为 10:1。
五、进化搜索与组合空间的覆盖
当合并的模型数量超过 3 个,组合空间爆炸。设合并 个模型,每个有 种可能权重配置,则搜索空间为 —— 时已有 。Akiba 等人 2024 年的 Evolutionary Optimization of Model Merging Recipes 用进化算法搜索最优的"合并配方":每个个体编码 个浮点权重 和分层结构,fitness 是在验证集上的合并后任务准确率。
算法 2 Evolutionary Merge Search
输入:模型集 {θ_t}, 任务验证集, 种群大小 P, 代数 G
1. 初始化 P 个个体,每个个体编码合并权重 α ∈ R^N
2. for g = 1..G:
3. for each individual in population:
4. θ_merged = Σ_t α_t * (θ_t - θ_base) + θ_base
5. fitness = eval(θ_merged, validation_set)
6. 选择:top-quartile 保留
7. 交叉 + 变异(高斯扰动、维度级 swap)
8. 返回历史最优个体
进化搜索对算力的需求极高——每个 fitness 评估都需要一次完整前向传播。但它的优势在于 脱离梯度:合并过程不需要反向传播,因而可以处理异构模型(包括不同 tokenizer、不同 layer 数)。这为"跨架构合并"打开了大门。
2025 年出现的 FrankenMoE 是这一方向的极端例子:从多个 fine-tune 模型中抽取专家层,拼装成混合专家网络。拼装后的 MoE 性能可能超过任何源模型,但前提是源模型的"专家分布"足够互补。这要求源模型在 fine-tune 时使用差异显著的数据子集。
六、开放问题与失败模式
模型合并仍有几个根本未解的问题:
- 跨任务泛化的理论保证:为什么 Task Arithmetic 在未见过的任务上也能工作?是否存在可以预测的"组合泛化边界"?
- 跨架构合并的合法性:不同 layer 数、不同 attention head 维度的模型能否合并?线性算术在这些情况下没有定义,启发式拼接(如最近的 "passthrough" 合并)缺乏理论支撑。
- 合并的稳定性:进化搜索找到的最优合并是否稳定?小规模验证集的 fitness 是否能预测分布外任务的表现?
- 法律与血缘:合并后的模型权重归属于谁?当源模型使用不同的许可证时,合并体的许可证如何确定?
这些问题的回答,将决定"模型合并"是从工程技巧走向理论范式,还是停留在社区实践层面。
八、生产环境落地清单与典型应用模式
模型合并从论文走向生产,需要一组工程层面的具体动作。下面 12 条是从 2025 年以来主流合并工作流中沉淀的实践准则,按"前置检查 → 合并执行 → 验证与监控 → 长期治理"四个阶段组织。
前置检查:
- 统一基底:所有待合并的 fine-tune 必须从完全相同的 出发(同一 commit hash、同一随机种子初始化、同一 tokenization 路径),否则 Task Arithmetic 的线性假设会因 mode-connectivity 缺失而崩溃。
- 训练阶段对齐:fine-tune 时的超参(learning rate、batch size、warmup、optimizer)应尽量一致,否则不同 fine-tune 会落入不同的 loss basin。
- 许可证审计:合并前先逐个查源模型的许可证——
apache-2.0+apache-2.0可继续apache-2.0;apache-2.0+cc-by-nc-4.0混合通常需要降级为研究用途。
合并执行: 4. 先小批量验证:第一次合并先用 2 个模型 + 1 个混合系数网格(),观察任务上的性能曲线,再扩展到多模型。 5. 保 k 值从 20% 起步:TIES-Merging 的 top-k 保留比例从 起调,向上递增到 0.5 直至性能饱和。 6. DARE 丢弃率经验值:单 fine-tune 复原可用 ;多任务合并时建议 ,避免过度破坏有效信号。 7. 进化搜索种群规模:CMA-ES / 差分进化的初始种群 ( 为模型数),代数 ,否则容易陷入局部最优。
验证与监控: 8. 保留多任务原能力:合并后必须测源任务上的性能不退化(典型允许损失 ),而不是只看合并目标任务的提升。 9. 跑"零样本迁移"测试:在合并任务外的 held-out 任务集上观察性能,证明合并有正迁移而非仅过拟合。 10. 统计显著性:合并前后差距 的提升需要至少 5 个随机种子验证,否则可能落在噪声区间。
长期治理: 11. 保留原始 fine-tune 权重:合并体再 fine-tune 会污染源模型血统,建议同时归档源 fine-tune 用于"回滚"。 12. 建立合并物语(provenance):记录合并用的算法、系数、源模型 commit hash、验证日志——这是后续审计和合规检查的基础。
从应用角度看,模型合并目前在四个领域已稳定落地:① 多语言模型:用 Task Arithmetic 把英语 + 中文 + 日语微调合并,零样本扩展到未见过的低资源语言;② 代码 + 指令对齐:在 code completion 与 instruction following 之间插值,得到"既能写代码又能对话"的双能模型;③ 安全对齐:把 refusal 能力作为任务向量与基础模型相加,提升模型的安全拒绝率;④ 领域特化:医疗 + 法律微调合并,覆盖跨领域咨询场景。
七、参考文献
- Wortsman, M., et al. (2022). Model Soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time. ICML 2022.
- Ilharco, G., et al. (2022). Editing Models with Task Arithmetic. ICLR 2023.
- Yadav, P., et al. (2023). TIES-Merging: Resolving Interference When Merging Models. NeurIPS 2023.
- Yu, L., et al. (2023). Language Model Merging with Parameter-Efficient Soup (DARE). arXiv:2310.16786.
- Akiba, T., et al. (2024). Evolutionary Optimization of Model Merging Recipes. arXiv:2403.13187.
- FrankenMoE (2024). Expert-level weight extraction and re-assembly across fine-tuned MoEs. arXiv:2412.01866 (cited informally; preprint retrieved via arXiv search).
- Entezari, R., et al. (2022). Role of Permutation Invariance in Linear Mode Connectivity. ICML 2022.
一句话摘要:模型合并的几何学把 fine-tune 视为损失盆地内的稀疏扰动——Task Arithmetic 是盆地中心的线性插值,TIES-Merging 与 DARE 分别用硬/软方式剪除符号干扰,进化搜索在组合空间上做无梯度寻优,三者共同构成 2026 年开源生态的"权重即乐高"理论基础。
图表加载中…