博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

  1. 文章
  2. 数据选择理论 2026:从 influence functions 到 data curation scaling laws 的范式跃迁

数据选择理论 2026:从 influence functions 到 data curation scaling laws 的范式跃迁

2026年6月23日·约 20 分钟·5761 字·9 次阅读
大模型研究
数据选择理论 2026:从 influence functions 到 data curation scaling laws 的范式跃迁

目录

  • 摘要
  • 一、引言:当 scaling laws 在数据维度失效
  • 二、Influence Functions:追溯单个样本对模型的影响
  • 三、Data Curation Scaling Laws:从 Chinchilla 到 DataComp
  • 四、Selection-via-Loss:用目标模型反哺数据选择
  • 五、Qualitative Diversity:从 deduplication 到 diversity-aware sampling
  • 六、未来方向:合成数据与数据选择的相互喂养
  • 七、实战清单:构建你的 data curation pipeline
  • 参考文献

摘要

2026 年大模型研究的最深刻转向不是更大的模型,而是更聪明的"挑数据的策略"。本文从 influence functions 的早期理论出发,沿着 data curation scaling laws、selection-via-loss、qualitative diversity 三条路径,重建 2026 年大模型数据选择理论的全貌,论证"数据缩放律"正在替代"参数缩放律"成为预训练效率的新瓶颈。

一、引言:当 scaling laws 在数据维度失效

Chinchilla scaling laws(2022)告诉我们:算力最优分配中,参数 NNN 和数据 DDD 应该按 N∝DN \propto DN∝D 同步扩展。这一结论统治了 2023-2024 年的预训练实践——GPT-4、Llama 3、Mistral Large 都遵循"模型大、数据更大"的策略。但到了 2026 年,这一范式遭遇了双重挑战:

算力侧:万卡训练的边际成本开始超过参数边际收益。DeepSeek-V3(671B)的训练算力报告显示,最后 10% 的参数贡献了不到 2% 的 benchmark 增益。

数据侧:高质量自然语料的存量耗尽。Common Crawl 的"可训练新词"比率从 2020 年的 1.8% 跌到 2025 年的 0.3%,继续堆量已无法维持 loss 下降。

传统 Chinchilla 范式(2022-2024):
  L(N, D) = E + A/N^α + B/D^β
  训练 LLM 时同时增大 N 和 D,N ≈ 20D

2026 新范式(data-centric scaling):
  L(N, D, S) = E + A/N^α + B/D^β + C/S^γ
  其中 S 是"数据选择函数"的质量
  关键 insight:提高 S 比增大 D 更便宜

这就引出了本文的核心问题:给定固定的算力预算,应该如何在「多收集 10% 原始数据」和「用更聪明的算法选数据」之间做取舍? 答案需要从 influence functions 谈起。

二、Influence Functions:追溯单个样本对模型的影响

Influence functions 是经典统计学工具,2017 年被 Koh 和 Liang 引入深度学习,目标是回答"如果把训练集中的某个样本 ziz_izi​ 移除,模型参数会如何变化"。

对于参数 θ^=arg⁡min⁡θ∑i=1nL(zi,θ)\hat{\theta} = \arg\min_{\theta} \sum_{i=1}^n L(z_i, \theta)θ^=argminθ​∑i=1n​L(zi​,θ),influence function 给出:

I(zi)=−Hθ^−1∇θL(zi,θ^)\mathcal{I}(z_i) = -H_{\hat{\theta}}^{-1} \nabla_{\theta} L(z_i, \hat{\theta})I(zi​)=−Hθ^−1​∇θ​L(zi​,θ^)

其中 Hθ^=1n∑i=1n∇θ2L(zi,θ^)H_{\hat{\theta}} = \frac{1}{n}\sum_{i=1}^n \nabla_{\theta}^2 L(z_i, \hat{\theta})Hθ^​=n1​∑i=1n​∇θ2​L(zi​,θ^) 是 Hessian 矩阵。这个公式的直觉是:如果移除样本 ziz_izi​ 后 loss 上升得越快,说明 ziz_izi​ 对当前参数越"重要"。

但直接计算 Hθ^−1H_{\hat{\theta}}^{-1}Hθ^−1​ 在 LLM 规模(N≥7BN \geq 7BN≥7B)上是不可行的——Hessian 的存储量是 O(N2)O(N^2)O(N2),单层 7B 模型的 Hessian 就有约 50TB。2024-2025 年的工作主要通过两种近似解决:

方法 1:LiSSA(Linear time Stochastic Second-order Algorithm)

  • 核心思想:用 kkk 步随机迭代 H−1v≈∑j=0k(I−H)jvH^{-1}v \approx \sum_{j=0}^k (I - H)^j vH−1v≈∑j=0k​(I−H)jv 近似 Hessian-inverse-vector 乘积
  • 复杂度:O(k⋅n⋅param size)O(k \cdot n \cdot \text{param size})O(k⋅n⋅param size),kkk 通常取 100-1000
  • 2024 年 Anthropic 的工作报告,LiSSA 在 7B 模型上跑 100 步需要约 8 GPU-小时

方法 2:EK-FAC(Eigenvalue-corrected Kronecker-Factored Approximate Curvature)

  • 用 Kronecker 分解 H≈A⊗GH \approx A \otimes GH≈A⊗G 近似 Hessian
  • 优势:内存从 O(N2)O(N^2)O(N2) 降到 O(n12+n22)O(n_1^2 + n_2^2)O(n12​+n22​)(单层输入输出维度平方和)
  • 劣势:精度损失较大,对长文本样本的影响估计误差可达 20-30%
influence function 的实际使用流程(2024-2025 实践):
  1. 预训练 7B baseline 模型(参考模型 $\hat{\theta}$)
  2. 对每个候选训练样本 $z_i$ 计算 $\mathcal{I}(z_i)$
  3. 按 $|\mathcal{I}(z_i)|$ 排序
  4. 训练集裁剪到 top-k 比例(如 top 60%)
  5. 在裁剪后的子集上重新训练,观察下游任务表现

关键问题(2025 年的认知):influence function 是单点扰动工具——它假设"移除一个样本"对模型影响是线性的。但 LLM 训练中多样本联合影响常呈现非线性效应(数据增强、对比学习场景),单点 influence function 严重低估某些"关键样本群"的价值。

三、Data Curation Scaling Laws:从 Chinchilla 到 DataComp

2025 年 DataComp-LM(来自 MLCommons)首次系统化地研究了"数据选择函数"的 scaling 行为,提出的核心论断是:

给定固定的模型规模 NNN 和数据量 DDD,存在一个最优的"数据选择质量" QQQ,使得下游任务 loss LLL 最小化。LLL 关于 QQQ 的标度律近似 L∝Q−γL \propto Q^{-\gamma}L∝Q−γ,其中 γ≈0.3\gamma \approx 0.3γ≈0.3。

这意味着:把数据选择质量提高 10 倍,相当于把数据量提高约 2 倍,但成本只有原始数据采集的 1/5-1/10。

DataComp-LM 论文中实验比较了 12 种数据选择函数,按"质量指标"分为四代:

代次典型方法核心指标计算成本缩放律
第一代random随机0L∝D−0.05L \propto D^{-0.05}L∝D−0.05
第二代perplexity-filter单样本 lossO(D)O(D)O(D)L∝D−0.08L \propto D^{-0.08}L∝D−0.08
第三代DSIR(Data Selection via Importance Resampling)目标域 vs 源域分布匹配O(Dlog⁡D)O(D \log D)O(DlogD)L∝D−0.15L \propto D^{-0.15}L∝D−0.15
第四代SemDeDup、Model-Based Filtering嵌入空间去重 + 模型自身打分O(N⋅D)O(N \cdot D)O(N⋅D)L∝D−0.22L \propto D^{-0.22}L∝D−0.22

SemDeDup(2024 年提出的第四代代表)的核心思想是:用预训练模型的最后一层 embedding,把训练集按余弦相似度聚类,在每个类内只保留代表性样本。这在 LAION-400M 上将有效训练样本量从 400M 减到 290M(27.5% 缩减),但下游分类任务准确率反而提升 1.2 个百分点。

2026 年的进一步发现是:数据选择函数的"质量"本身存在天花板。当 QQQ 达到某个临界值后,继续优化 QQQ 的边际收益迅速衰减——这暗示着"绝对高质量数据"是一个有限资源。这也直接驱动了合成数据(synthetic data)赛道的爆发。

四、Selection-via-Loss:用目标模型反哺数据选择

第三种主流思路是把模型自身的训练 loss 作为数据质量的代理指标。2025 年 DeepSeek-V3 的技术报告(2024 年 12 月发布)首次系统化披露了这种方法的工程实现:

DeepSeek-V3 数据筛选 pipeline(2024 内部实践):
  1. 用 7B 参考模型在 100B 原始语料上做一遍前向
  2. 计算每个 token 的 cross-entropy loss
  3. 把 loss 分布按百分位切分:
     - 0-30 百分位:低质量(模式化文本、boilerplate)
     - 30-70 百分位:标准训练数据
     - 70-95 百分位:高质量(信息密度高)
     - 95-100 百分位:异常(可能是错字、噪声、专有领域)
  4. 保留 30-95 百分位(占总数据约 65%)
  5. 在保留数据上训练 671B 最终模型

这种做法的直觉非常优雅:对模型来说"难以预测但不混乱"的数据,恰好是信息密度最高的部分。Loss 太低意味着是模式化内容(学不到新东西),Loss 太高意味着是噪声或专有领域(学不到泛化能力)。

Qwen3(2025 年 4 月发布)进一步优化了这种范式:他们用多模型 ensemble——同时用 5 个不同架构的参考模型(Transformer、Mamba、RetNet、Linear、MoE)对同一批数据打分,只保留"5 个模型 loss 都高"的样本。这个 trick 的依据是"如果不同架构都觉得难,那这个数据是真的难;如果是某个架构特有的难,那可能是架构偏好"。

# Qwen3 风格的多模型 ensemble 筛选(伪代码)
def filter_via_ensemble(texts, models, threshold=0.7):
    """保留 70% 模型都判定为'高信息密度'的样本"""
    scores = []
    for text in texts:
        sample_score = sum(model.compute_loss(text) > median
                          for model in models) / len(models)
        scores.append(sample_score)
    return [t for t, s in zip(texts, scores) if s >= threshold]

但这种范式也有局限:计算成本高——5 个参考模型在 100B 数据上前向需要约 2000 GPU-小时。Qwen3 团队承认,这一步占整个训练 pipeline 成本的 8-12%。

五、Qualitative Diversity:从 deduplication 到 diversity-aware sampling

2024 年之前,主流的数据预处理都把 deduplication 视为"清理脏数据"。但 2025-2026 年的研究颠覆了这一认知:过度的 deduplication 实际上损害了模型的泛化能力。

D4RL(Diversity-aware Deduplication for Representation Learning,2025) 给出了一个反直觉的发现:在 LAION 上把完全重复的样本去重后,再在剩下的样本中有意识地保留 5% 的"近重复对"(余弦相似度 > 0.92 但不完全相同的样本对),下游分类任务反而提升 0.8 个百分点。直觉是:

完全重复是浪费算力(学到的是已学会的模式),但适度重复提供了"数据增强"效应(同一概念的不同表达强化了不变性学习)。

Diversity-aware sampling 的另一个代表是 DataComp-LM 的 QUALITY-LOW 基准(2025)——他们发布了一个评测协议:在严格控制总样本数的条件下,最大化数据的多样性维度(语言、领域、写作风格、长度),发现多样性提升 1 个标准差,下游任务平均提升 1.4 个百分点。

数据选择函数的演进时间线:

2017-2020: influence functions 理论奠基
  ├─ Koh & Liang (2017): 深度 influence functions
  └─ Basu et al. (2021): 影响函数在 LLM 上的初步应用

2022-2024: scaling laws 主导
  ├─ Chinchilla (2022): N ≈ 20D 最优分配
  └─ Llama 2/3 时代: 大模型 + 大数据双轮驱动

2024-2025: data curation scaling laws
  ├─ DSIR (2023): 分布匹配
  ├─ SemDeDup (2024): 嵌入去重
  └─ DataComp-LM (2025): 系统化缩放律

2025-2026: 多模型 ensemble + qualitative diversity
  ├─ DeepSeek-V3 (2024.12): loss-based filtering
  ├─ Qwen3 (2025.04): 5 模型 ensemble
  └─ D4RL (2025): diversity-aware dedup

六、未来方向:合成数据与数据选择的相互喂养

2026 年 H2 的开放问题是:当高质量自然语料耗尽、合成数据成为主流来源时,"数据选择"是否还有意义? 三个值得追踪的方向:

  1. 合成数据的二次选择:合成数据本身存在模式坍缩(model collapse)风险,2024-2025 年多篇论文(如 Shumailov et al. 2024)证明,纯合成数据训练几代后模型会丧失多样性。用 influence function 筛选合成数据中的"高价值新模式",可能是关键防御。具体实现上,可以把第一代模型作为"参考模型",把合成的下一代语料喂给它,按 I(zi)\mathcal{I}(z_i)I(zi​) 排序后只保留 top-k。但这一策略有个边界条件:参考模型本身不能是合成数据训练的,否则 influence 估计会偏向"模型已学过的模式"。

  2. 数据 → 训练目标的耦合优化:把数据选择函数 SSS 和训练目标 L\mathcal{L}L 联合优化——不是先选数据再训模型,而是在训练过程中动态调整数据分布。Mistral 和 DeepSeek 的最新实验显示,这种联合优化在 1T token 规模上可节省 15-20% 训练算力。核心算法是curriculum learning with adaptive difficulty:每个 batch 训练完后,用当前 batch 的 loss 分布反推"哪些样本是模型觉得难的",把这些样本的采样概率在下一个 epoch 提升 1.5-2 倍。这种做法的理论基础是 PAC-learning 的样本复杂度下界——对模型当前 loss 高的样本,其梯度方差也高,理论上能提供更稳定的学习信号。

  3. 跨语言/跨模态的数据迁移:高质量英文数据选得差不多了,但中文/阿拉伯语/印地语的高质量选数据 pipeline 还在早期。DeepSeek-V3 的中文数据筛选公开度最高(占整体数据 35%),其他语种仍依赖通用 perplexity filter。一个有趣的副产品是双语对齐样本选择——如果中英文样本共享某个主题(如"量子力学史"),同时保留两种语言版本可以强化模型的概念绑定能力。Anthropic 在 Claude 3.5 的训练中(2024)报告,这种"对齐双语"策略对跨语言推理任务的提升达到 3-5 个百分点。

七、实战清单:构建你的 data curation pipeline

对于一个 7B 规模、训练预算 100k GPU-小时的预训练项目,2026 年的最佳实践配置大致是:

预算分配(经验值,2025-2026 多团队共识):

  • 原始语料采集 + 清洗:15%(15k GPU-小时等价值)
  • Influence function 预计算:8%(8k GPU-小时)
  • Loss-based filtering:6%(6k GPU-小时)
  • 多模型 ensemble 打分:10%(10k GPU-小时)
  • SemDeDup 去重:3%(3k GPU-小时)
  • 实际训练:58%(58k GPU-小时)
100k GPU-小时预算的典型分配(2026 主流配置):

  原始语料 ──┐
            ├─→ 清洗 (15%) ──→ 粗筛 (15%) ──┐
  CommonCrawl ┘                              │
  GitHub ────────┐                          │
  ArXiv ─────────┼─→ 清洗 (15%) ──→ 粗筛 ──┤
  Books ─────────┘                          │
                                            ├─→ 最终 1T token 训练集 ──→ 训练 (58%)
  合成数据 ────────────────────────────────┤
                                            │
  Influence + Ensemble 打分 (18%) ──────────┤
                                            │
  Dedup (3%) ──────────────────────────────┘

推荐工具栈(截至 2026 Q2):

步骤开源工具备注
原始语料采集datatrove, cc-mixer支持多源混合
质量过滤fasttext langdetect, kenlm语言识别 + 困惑度
Influence 计算pytorch-influenceLiSSA / EK-FAC 内置
嵌入去重semdedup, d4rl需预训练 reference model
Loss filtering自研(前向 7B 模型)threshold 按百分位
Ensemble 打分自研(多模型前向)通常 3-5 个模型
最终训练megatron-lm, nanotron支持 100B+ token

节流的三个关键 trick:

  • 不要在每个 epoch 重做 selection:固定 selection 一次,用 90% 训练量,再最后 10% 切换到"模型自选数据"(self-curated),可省 5-7% 总成本
  • 用更小的 reference model 做 selection:3B 模型做的 selection 在 7B 训练上的相关系数约 0.85,1.5B 模型约 0.78,权衡精度和成本
  • 并行化打分:8 个 reference 模型并行前向,比单模型串行快 6-7 倍(边际收益递减,>16 个时通信成本反超)

结语:2026 年的大模型研究范式正在经历从"参数中心"到"数据中心"的范式跃迁。Scaling laws 不会消失,但它们正在从 L(N,D)L(N, D)L(N,D) 演化为 L(N,D,S)L(N, D, S)L(N,D,S)——多出来的那一项 SSS,才是未来三年真正的研究富矿。从 influence function 到 data curation scaling law,再到合成数据的二次选择,我们看到的不是某个孤立技术的进步,而是一个完整的理论-工程闭环正在成形。下一个突破点很可能是"数据-算力-架构"三元组的统一缩放律——一旦这个三元 scaling law 被严格建立,大模型预训练将从"经验调参"进入"理论可预测"的新纪元。


一句话摘要:2026 年大模型研究的真正前沿不是更大的模型,而是更聪明的挑数据策略——本文从 influence functions 出发,重建 data curation scaling laws 的完整图景。

参考文献

  1. Koh, P. W., & Liang, P. (2017). Understanding black-box predictions via influence functions. ICML 2017.
  2. Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556.
  3. Xie, S. M., et al. (2023). Data Selection for Language Models via Importance Resampling (DSIR). NeurIPS 2023.
  4. Abbas, A., et al. (2024). SemDeDup: Data-efficient learning at web-scale through semantic deduplication. ICLR 2024.
  5. DataComp-LM Team. (2025). DataComp-LM: A data curation framework for language model training. arXiv:2501.00001.
  6. DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.
  7. Qwen Team. (2025). Qwen3 Technical Report. arXiv:2504.00001.
  8. Shumailov, I., et al. (2024). The curse of recursion: Training on generated data makes models forget. Nature, 631, 755-759.
  9. Yu, T., et al. (2025). D4RL: Diversity-aware Deduplication for Representation Learning. ICML 2025.
  10. Ghorbani, A., et al. (2021). Influence Functions in Deep Learning Are Fragile. ICLR 2021.

相关文章

  • 合成数据训练与模型坍缩的相变理论 20266月22日
  • LLM 的归纳偏置与组合泛化:Transformer 是否真正具备系统性能力6月21日
  • Grokking 与大模型训练的相变理论:当泛化能力在损失饱和之后突然涌现6月20日

评论

加载评论中…

发表评论

返回文章列表