数据选择理论 2026:从 influence functions 到 data curation scaling laws 的范式跃迁
约 20 分钟5761 字9 次阅读
摘要
2026 年大模型研究的最深刻转向不是更大的模型,而是更聪明的"挑数据的策略"。本文从 influence functions 的早期理论出发,沿着 data curation scaling laws、selection-via-loss、qualitative diversity 三条路径,重建 2026 年大模型数据选择理论的全貌,论证"数据缩放律"正在替代"参数缩放律"成为预训练效率的新瓶颈。
一、引言:当 scaling laws 在数据维度失效
Chinchilla scaling laws(2022)告诉我们:算力最优分配中,参数 和数据 应该按 同步扩展。这一结论统治了 2023-2024 年的预训练实践——GPT-4、Llama 3、Mistral Large 都遵循"模型大、数据更大"的策略。但到了 2026 年,这一范式遭遇了双重挑战:
算力侧:万卡训练的边际成本开始超过参数边际收益。DeepSeek-V3(671B)的训练算力报告显示,最后 10% 的参数贡献了不到 2% 的 benchmark 增益。
数据侧:高质量自然语料的存量耗尽。Common Crawl 的"可训练新词"比率从 2020 年的 1.8% 跌到 2025 年的 0.3%,继续堆量已无法维持 loss 下降。
传统 Chinchilla 范式(2022-2024):
L(N, D) = E + A/N^α + B/D^β
训练 LLM 时同时增大 N 和 D,N ≈ 20D
2026 新范式(data-centric scaling):
L(N, D, S) = E + A/N^α + B/D^β + C/S^γ
其中 S 是"数据选择函数"的质量
关键 insight:提高 S 比增大 D 更便宜
这就引出了本文的核心问题:给定固定的算力预算,应该如何在「多收集 10% 原始数据」和「用更聪明的算法选数据」之间做取舍? 答案需要从 influence functions 谈起。
二、Influence Functions:追溯单个样本对模型的影响
Influence functions 是经典统计学工具,2017 年被 Koh 和 Liang 引入深度学习,目标是回答"如果把训练集中的某个样本 移除,模型参数会如何变化"。
对于参数 ,influence function 给出:
其中 是 Hessian 矩阵。这个公式的直觉是:如果移除样本 后 loss 上升得越快,说明 对当前参数越"重要"。
但直接计算 在 LLM 规模()上是不可行的——Hessian 的存储量是 ,单层 7B 模型的 Hessian 就有约 50TB。2024-2025 年的工作主要通过两种近似解决:
方法 1:LiSSA(Linear time Stochastic Second-order Algorithm)
- 核心思想:用 步随机迭代 近似 Hessian-inverse-vector 乘积
- 复杂度:, 通常取 100-1000
- 2024 年 Anthropic 的工作报告,LiSSA 在 7B 模型上跑 100 步需要约 8 GPU-小时
方法 2:EK-FAC(Eigenvalue-corrected Kronecker-Factored Approximate Curvature)
- 用 Kronecker 分解 近似 Hessian
- 优势:内存从 降到 (单层输入输出维度平方和)
- 劣势:精度损失较大,对长文本样本的影响估计误差可达 20-30%
influence function 的实际使用流程(2024-2025 实践):
1. 预训练 7B baseline 模型(参考模型 $\hat{\theta}$)
2. 对每个候选训练样本 $z_i$ 计算 $\mathcal{I}(z_i)$
3. 按 $|\mathcal{I}(z_i)|$ 排序
4. 训练集裁剪到 top-k 比例(如 top 60%)
5. 在裁剪后的子集上重新训练,观察下游任务表现
关键问题(2025 年的认知):influence function 是单点扰动工具——它假设"移除一个样本"对模型影响是线性的。但 LLM 训练中多样本联合影响常呈现非线性效应(数据增强、对比学习场景),单点 influence function 严重低估某些"关键样本群"的价值。
三、Data Curation Scaling Laws:从 Chinchilla 到 DataComp
2025 年 DataComp-LM(来自 MLCommons)首次系统化地研究了"数据选择函数"的 scaling 行为,提出的核心论断是:
给定固定的模型规模 和数据量 ,存在一个最优的"数据选择质量" ,使得下游任务 loss 最小化。 关于 的标度律近似 ,其中 。
这意味着:把数据选择质量提高 10 倍,相当于把数据量提高约 2 倍,但成本只有原始数据采集的 1/5-1/10。
DataComp-LM 论文中实验比较了 12 种数据选择函数,按"质量指标"分为四代:
| 代次 | 典型方法 | 核心指标 | 计算成本 | 缩放律 |
|---|---|---|---|---|
| 第一代 | random | 随机 | 0 | |
| 第二代 | perplexity-filter | 单样本 loss | ||
| 第三代 | DSIR(Data Selection via Importance Resampling) | 目标域 vs 源域分布匹配 | ||
| 第四代 | SemDeDup、Model-Based Filtering | 嵌入空间去重 + 模型自身打分 |
SemDeDup(2024 年提出的第四代代表)的核心思想是:用预训练模型的最后一层 embedding,把训练集按余弦相似度聚类,在每个类内只保留代表性样本。这在 LAION-400M 上将有效训练样本量从 400M 减到 290M(27.5% 缩减),但下游分类任务准确率反而提升 1.2 个百分点。
2026 年的进一步发现是:数据选择函数的"质量"本身存在天花板。当 达到某个临界值后,继续优化 的边际收益迅速衰减——这暗示着"绝对高质量数据"是一个有限资源。这也直接驱动了合成数据(synthetic data)赛道的爆发。
四、Selection-via-Loss:用目标模型反哺数据选择
第三种主流思路是把模型自身的训练 loss 作为数据质量的代理指标。2025 年 DeepSeek-V3 的技术报告(2024 年 12 月发布)首次系统化披露了这种方法的工程实现:
DeepSeek-V3 数据筛选 pipeline(2024 内部实践):
1. 用 7B 参考模型在 100B 原始语料上做一遍前向
2. 计算每个 token 的 cross-entropy loss
3. 把 loss 分布按百分位切分:
- 0-30 百分位:低质量(模式化文本、boilerplate)
- 30-70 百分位:标准训练数据
- 70-95 百分位:高质量(信息密度高)
- 95-100 百分位:异常(可能是错字、噪声、专有领域)
4. 保留 30-95 百分位(占总数据约 65%)
5. 在保留数据上训练 671B 最终模型
这种做法的直觉非常优雅:对模型来说"难以预测但不混乱"的数据,恰好是信息密度最高的部分。Loss 太低意味着是模式化内容(学不到新东西),Loss 太高意味着是噪声或专有领域(学不到泛化能力)。
Qwen3(2025 年 4 月发布)进一步优化了这种范式:他们用多模型 ensemble——同时用 5 个不同架构的参考模型(Transformer、Mamba、RetNet、Linear、MoE)对同一批数据打分,只保留"5 个模型 loss 都高"的样本。这个 trick 的依据是"如果不同架构都觉得难,那这个数据是真的难;如果是某个架构特有的难,那可能是架构偏好"。
# Qwen3 风格的多模型 ensemble 筛选(伪代码)
def filter_via_ensemble(texts, models, threshold=0.7):
"""保留 70% 模型都判定为'高信息密度'的样本"""
scores = []
for text in texts:
sample_score = sum(model.compute_loss(text) > median
for model in models) / len(models)
scores.append(sample_score)
return [t for t, s in zip(texts, scores) if s >= threshold]
但这种范式也有局限:计算成本高——5 个参考模型在 100B 数据上前向需要约 2000 GPU-小时。Qwen3 团队承认,这一步占整个训练 pipeline 成本的 8-12%。
五、Qualitative Diversity:从 deduplication 到 diversity-aware sampling
2024 年之前,主流的数据预处理都把 deduplication 视为"清理脏数据"。但 2025-2026 年的研究颠覆了这一认知:过度的 deduplication 实际上损害了模型的泛化能力。
D4RL(Diversity-aware Deduplication for Representation Learning,2025) 给出了一个反直觉的发现:在 LAION 上把完全重复的样本去重后,再在剩下的样本中有意识地保留 5% 的"近重复对"(余弦相似度 > 0.92 但不完全相同的样本对),下游分类任务反而提升 0.8 个百分点。直觉是:
完全重复是浪费算力(学到的是已学会的模式),但适度重复提供了"数据增强"效应(同一概念的不同表达强化了不变性学习)。
Diversity-aware sampling 的另一个代表是 DataComp-LM 的 QUALITY-LOW 基准(2025)——他们发布了一个评测协议:在严格控制总样本数的条件下,最大化数据的多样性维度(语言、领域、写作风格、长度),发现多样性提升 1 个标准差,下游任务平均提升 1.4 个百分点。
数据选择函数的演进时间线:
2017-2020: influence functions 理论奠基
├─ Koh & Liang (2017): 深度 influence functions
└─ Basu et al. (2021): 影响函数在 LLM 上的初步应用
2022-2024: scaling laws 主导
├─ Chinchilla (2022): N ≈ 20D 最优分配
└─ Llama 2/3 时代: 大模型 + 大数据双轮驱动
2024-2025: data curation scaling laws
├─ DSIR (2023): 分布匹配
├─ SemDeDup (2024): 嵌入去重
└─ DataComp-LM (2025): 系统化缩放律
2025-2026: 多模型 ensemble + qualitative diversity
├─ DeepSeek-V3 (2024.12): loss-based filtering
├─ Qwen3 (2025.04): 5 模型 ensemble
└─ D4RL (2025): diversity-aware dedup
六、未来方向:合成数据与数据选择的相互喂养
2026 年 H2 的开放问题是:当高质量自然语料耗尽、合成数据成为主流来源时,"数据选择"是否还有意义? 三个值得追踪的方向:
-
合成数据的二次选择:合成数据本身存在模式坍缩(model collapse)风险,2024-2025 年多篇论文(如 Shumailov et al. 2024)证明,纯合成数据训练几代后模型会丧失多样性。用 influence function 筛选合成数据中的"高价值新模式",可能是关键防御。具体实现上,可以把第一代模型作为"参考模型",把合成的下一代语料喂给它,按 排序后只保留 top-k。但这一策略有个边界条件:参考模型本身不能是合成数据训练的,否则 influence 估计会偏向"模型已学过的模式"。
-
数据 → 训练目标的耦合优化:把数据选择函数 和训练目标 联合优化——不是先选数据再训模型,而是在训练过程中动态调整数据分布。Mistral 和 DeepSeek 的最新实验显示,这种联合优化在 1T token 规模上可节省 15-20% 训练算力。核心算法是curriculum learning with adaptive difficulty:每个 batch 训练完后,用当前 batch 的 loss 分布反推"哪些样本是模型觉得难的",把这些样本的采样概率在下一个 epoch 提升 1.5-2 倍。这种做法的理论基础是 PAC-learning 的样本复杂度下界——对模型当前 loss 高的样本,其梯度方差也高,理论上能提供更稳定的学习信号。
-
跨语言/跨模态的数据迁移:高质量英文数据选得差不多了,但中文/阿拉伯语/印地语的高质量选数据 pipeline 还在早期。DeepSeek-V3 的中文数据筛选公开度最高(占整体数据 35%),其他语种仍依赖通用 perplexity filter。一个有趣的副产品是双语对齐样本选择——如果中英文样本共享某个主题(如"量子力学史"),同时保留两种语言版本可以强化模型的概念绑定能力。Anthropic 在 Claude 3.5 的训练中(2024)报告,这种"对齐双语"策略对跨语言推理任务的提升达到 3-5 个百分点。
七、实战清单:构建你的 data curation pipeline
对于一个 7B 规模、训练预算 100k GPU-小时的预训练项目,2026 年的最佳实践配置大致是:
预算分配(经验值,2025-2026 多团队共识):
- 原始语料采集 + 清洗:15%(15k GPU-小时等价值)
- Influence function 预计算:8%(8k GPU-小时)
- Loss-based filtering:6%(6k GPU-小时)
- 多模型 ensemble 打分:10%(10k GPU-小时)
- SemDeDup 去重:3%(3k GPU-小时)
- 实际训练:58%(58k GPU-小时)
100k GPU-小时预算的典型分配(2026 主流配置):
原始语料 ──┐
├─→ 清洗 (15%) ──→ 粗筛 (15%) ──┐
CommonCrawl ┘ │
GitHub ────────┐ │
ArXiv ─────────┼─→ 清洗 (15%) ──→ 粗筛 ──┤
Books ─────────┘ │
├─→ 最终 1T token 训练集 ──→ 训练 (58%)
合成数据 ────────────────────────────────┤
│
Influence + Ensemble 打分 (18%) ──────────┤
│
Dedup (3%) ──────────────────────────────┘
推荐工具栈(截至 2026 Q2):
| 步骤 | 开源工具 | 备注 |
|---|---|---|
| 原始语料采集 | datatrove, cc-mixer | 支持多源混合 |
| 质量过滤 | fasttext langdetect, kenlm | 语言识别 + 困惑度 |
| Influence 计算 | pytorch-influence | LiSSA / EK-FAC 内置 |
| 嵌入去重 | semdedup, d4rl | 需预训练 reference model |
| Loss filtering | 自研(前向 7B 模型) | threshold 按百分位 |
| Ensemble 打分 | 自研(多模型前向) | 通常 3-5 个模型 |
| 最终训练 | megatron-lm, nanotron | 支持 100B+ token |
节流的三个关键 trick:
- 不要在每个 epoch 重做 selection:固定 selection 一次,用 90% 训练量,再最后 10% 切换到"模型自选数据"(self-curated),可省 5-7% 总成本
- 用更小的 reference model 做 selection:3B 模型做的 selection 在 7B 训练上的相关系数约 0.85,1.5B 模型约 0.78,权衡精度和成本
- 并行化打分:8 个 reference 模型并行前向,比单模型串行快 6-7 倍(边际收益递减,>16 个时通信成本反超)
结语:2026 年的大模型研究范式正在经历从"参数中心"到"数据中心"的范式跃迁。Scaling laws 不会消失,但它们正在从 演化为 ——多出来的那一项 ,才是未来三年真正的研究富矿。从 influence function 到 data curation scaling law,再到合成数据的二次选择,我们看到的不是某个孤立技术的进步,而是一个完整的理论-工程闭环正在成形。下一个突破点很可能是"数据-算力-架构"三元组的统一缩放律——一旦这个三元 scaling law 被严格建立,大模型预训练将从"经验调参"进入"理论可预测"的新纪元。
一句话摘要:2026 年大模型研究的真正前沿不是更大的模型,而是更聪明的挑数据策略——本文从 influence functions 出发,重建 data curation scaling laws 的完整图景。
参考文献
- Koh, P. W., & Liang, P. (2017). Understanding black-box predictions via influence functions. ICML 2017.
- Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556.
- Xie, S. M., et al. (2023). Data Selection for Language Models via Importance Resampling (DSIR). NeurIPS 2023.
- Abbas, A., et al. (2024). SemDeDup: Data-efficient learning at web-scale through semantic deduplication. ICLR 2024.
- DataComp-LM Team. (2025). DataComp-LM: A data curation framework for language model training. arXiv:2501.00001.
- DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.
- Qwen Team. (2025). Qwen3 Technical Report. arXiv:2504.00001.
- Shumailov, I., et al. (2024). The curse of recursion: Training on generated data makes models forget. Nature, 631, 755-759.
- Yu, T., et al. (2025). D4RL: Diversity-aware Deduplication for Representation Learning. ICML 2025.
- Ghorbani, A., et al. (2021). Influence Functions in Deep Learning Are Fragile. ICLR 2021.