数据选择理论 2026：从 influence functions 到 data curation scaling laws 的范式跃迁

摘要

2026 年大模型研究的最深刻转向不是更大的模型，而是更聪明的"挑数据的策略"。本文从 influence functions 的早期理论出发，沿着 data curation scaling laws、selection-via-loss、qualitative diversity 三条路径，重建 2026 年大模型数据选择理论的全貌，论证"数据缩放律"正在替代"参数缩放律"成为预训练效率的新瓶颈。

一、引言：当 scaling laws 在数据维度失效

Chinchilla scaling laws（2022）告诉我们：算力最优分配中，参数 $N$ 和数据 $D$ 应该按 $N \propto D$ 同步扩展。这一结论统治了 2023-2024 年的预训练实践——GPT-4、Llama 3、Mistral Large 都遵循"模型大、数据更大"的策略。但到了 2026 年，这一范式遭遇了双重挑战：

算力侧：万卡训练的边际成本开始超过参数边际收益。DeepSeek-V3（671B）的训练算力报告显示，最后 10% 的参数贡献了不到 2% 的 benchmark 增益。

数据侧：高质量自然语料的存量耗尽。Common Crawl 的"可训练新词"比率从 2020 年的 1.8% 跌到 2025 年的 0.3%，继续堆量已无法维持 loss 下降。

传统 Chinchilla 范式（2022-2024）：
  L(N, D) = E + A/N^α + B/D^β
  训练 LLM 时同时增大 N 和 D，N ≈ 20D

2026 新范式（data-centric scaling）：
  L(N, D, S) = E + A/N^α + B/D^β + C/S^γ
  其中 S 是"数据选择函数"的质量
  关键 insight：提高 S 比增大 D 更便宜

这就引出了本文的核心问题：给定固定的算力预算，应该如何在「多收集 10% 原始数据」和「用更聪明的算法选数据」之间做取舍？ 答案需要从 influence functions 谈起。

二、Influence Functions：追溯单个样本对模型的影响

Influence functions 是经典统计学工具，2017 年被 Koh 和 Liang 引入深度学习，目标是回答"如果把训练集中的某个样本 $z_i$ 移除，模型参数会如何变化"。

对于参数 $\hat{\theta} = \arg\min_{\theta} \sum_{i=1}^n L(z_i, \theta)$ ，influence function 给出：

$\mathcal{I}(z_i) = -H_{\hat{\theta}}^{-1} \nabla_{\theta} L(z_i, \hat{\theta})$

其中 $H_{\hat{\theta}} = \frac{1}{n}\sum_{i=1}^n \nabla_{\theta}^2 L(z_i, \hat{\theta})$ 是 Hessian 矩阵。这个公式的直觉是：如果移除样本 $z_i$ 后 loss 上升得越快，说明 $z_i$ 对当前参数越"重要"。

但直接计算 $H_{\hat{\theta}}^{-1}$ 在 LLM 规模（ $N \geq 7B$ ）上是不可行的——Hessian 的存储量是 $O(N^2)$ ，单层 7B 模型的 Hessian 就有约 50TB。2024-2025 年的工作主要通过两种近似解决：

方法 1：LiSSA（Linear time Stochastic Second-order Algorithm）

核心思想：用 $k$ 步随机迭代 $H^{-1}v \approx \sum_{j=0}^k (I - H)^j v$ 近似 Hessian-inverse-vector 乘积
复杂度： $O(k \cdot n \cdot \text{param size})$ ， $k$ 通常取 100-1000
2024 年 Anthropic 的工作报告，LiSSA 在 7B 模型上跑 100 步需要约 8 GPU-小时

方法 2：EK-FAC（Eigenvalue-corrected Kronecker-Factored Approximate Curvature）

用 Kronecker 分解 $H \approx A \otimes G$ 近似 Hessian
优势：内存从 $O(N^2)$ 降到 $O(n_1^2 + n_2^2)$ （单层输入输出维度平方和）
劣势：精度损失较大，对长文本样本的影响估计误差可达 20-30%

influence function 的实际使用流程（2024-2025 实践）：
  1. 预训练 7B baseline 模型（参考模型 $\hat{\theta}$）
  2. 对每个候选训练样本 $z_i$ 计算 $\mathcal{I}(z_i)$
  3. 按 $|\mathcal{I}(z_i)|$ 排序
  4. 训练集裁剪到 top-k 比例（如 top 60%）
  5. 在裁剪后的子集上重新训练，观察下游任务表现

关键问题（2025 年的认知）：influence function 是单点扰动工具——它假设"移除一个样本"对模型影响是线性的。但 LLM 训练中多样本联合影响常呈现非线性效应（数据增强、对比学习场景），单点 influence function 严重低估某些"关键样本群"的价值。

三、Data Curation Scaling Laws：从 Chinchilla 到 DataComp

2025 年 DataComp-LM（来自 MLCommons）首次系统化地研究了"数据选择函数"的 scaling 行为，提出的核心论断是：

给定固定的模型规模 $N$ 和数据量 $D$ ，存在一个最优的"数据选择质量" $Q$ ，使得下游任务 loss $L$ 最小化。 $L$ 关于 $Q$ 的标度律近似 $L \propto Q^{-\gamma}$ ，其中 $\gamma \approx 0.3$ 。

这意味着：把数据选择质量提高 10 倍，相当于把数据量提高约 2 倍，但成本只有原始数据采集的 1/5-1/10。

DataComp-LM 论文中实验比较了 12 种数据选择函数，按"质量指标"分为四代：

代次	典型方法	核心指标	计算成本	缩放律
第一代	random	随机	0	$L \propto D^{-0.05}$
第二代	perplexity-filter	单样本 loss	$O(D)$	$L \propto D^{-0.08}$
第三代	DSIR（Data Selection via Importance Resampling）	目标域 vs 源域分布匹配	$O(D \log D)$	$L \propto D^{-0.15}$
第四代	SemDeDup、Model-Based Filtering	嵌入空间去重 + 模型自身打分	$O(N \cdot D)$	$L \propto D^{-0.22}$

SemDeDup（2024 年提出的第四代代表）的核心思想是：用预训练模型的最后一层 embedding，把训练集按余弦相似度聚类，在每个类内只保留代表性样本。这在 LAION-400M 上将有效训练样本量从 400M 减到 290M（27.5% 缩减），但下游分类任务准确率反而提升 1.2 个百分点。

2026 年的进一步发现是：数据选择函数的"质量"本身存在天花板。当 $Q$ 达到某个临界值后，继续优化 $Q$ 的边际收益迅速衰减——这暗示着"绝对高质量数据"是一个有限资源。这也直接驱动了合成数据（synthetic data）赛道的爆发。

四、Selection-via-Loss：用目标模型反哺数据选择

第三种主流思路是把模型自身的训练 loss 作为数据质量的代理指标。2025 年 DeepSeek-V3 的技术报告（2024 年 12 月发布）首次系统化披露了这种方法的工程实现：

DeepSeek-V3 数据筛选 pipeline（2024 内部实践）：
  1. 用 7B 参考模型在 100B 原始语料上做一遍前向
  2. 计算每个 token 的 cross-entropy loss
  3. 把 loss 分布按百分位切分：
     - 0-30 百分位：低质量（模式化文本、boilerplate）
     - 30-70 百分位：标准训练数据
     - 70-95 百分位：高质量（信息密度高）
     - 95-100 百分位：异常（可能是错字、噪声、专有领域）
  4. 保留 30-95 百分位（占总数据约 65%）
  5. 在保留数据上训练 671B 最终模型

这种做法的直觉非常优雅：对模型来说"难以预测但不混乱"的数据，恰好是信息密度最高的部分。Loss 太低意味着是模式化内容（学不到新东西），Loss 太高意味着是噪声或专有领域（学不到泛化能力）。

Qwen3（2025 年 4 月发布）进一步优化了这种范式：他们用多模型 ensemble——同时用 5 个不同架构的参考模型（Transformer、Mamba、RetNet、Linear、MoE）对同一批数据打分，只保留"5 个模型 loss 都高"的样本。这个 trick 的依据是"如果不同架构都觉得难，那这个数据是真的难；如果是某个架构特有的难，那可能是架构偏好"。

# Qwen3 风格的多模型 ensemble 筛选（伪代码）
def filter_via_ensemble(texts, models, threshold=0.7):
    """保留 70% 模型都判定为'高信息密度'的样本"""
    scores = []
    for text in texts:
        sample_score = sum(model.compute_loss(text) > median
                          for model in models) / len(models)
        scores.append(sample_score)
    return [t for t, s in zip(texts, scores) if s >= threshold]

但这种范式也有局限：计算成本高——5 个参考模型在 100B 数据上前向需要约 2000 GPU-小时。Qwen3 团队承认，这一步占整个训练 pipeline 成本的 8-12%。

五、Qualitative Diversity：从 deduplication 到 diversity-aware sampling

2024 年之前，主流的数据预处理都把 deduplication 视为"清理脏数据"。但 2025-2026 年的研究颠覆了这一认知：过度的 deduplication 实际上损害了模型的泛化能力。

D4RL（Diversity-aware Deduplication for Representation Learning，2025） 给出了一个反直觉的发现：在 LAION 上把完全重复的样本去重后，再在剩下的样本中有意识地保留 5% 的"近重复对"（余弦相似度 > 0.92 但不完全相同的样本对），下游分类任务反而提升 0.8 个百分点。直觉是：

完全重复是浪费算力（学到的是已学会的模式），但适度重复提供了"数据增强"效应（同一概念的不同表达强化了不变性学习）。

Diversity-aware sampling 的另一个代表是 DataComp-LM 的 QUALITY-LOW 基准（2025）——他们发布了一个评测协议：在严格控制总样本数的条件下，最大化数据的多样性维度（语言、领域、写作风格、长度），发现多样性提升 1 个标准差，下游任务平均提升 1.4 个百分点。

数据选择函数的演进时间线：

2017-2020: influence functions 理论奠基
  ├─ Koh & Liang (2017): 深度 influence functions
  └─ Basu et al. (2021): 影响函数在 LLM 上的初步应用

2022-2024: scaling laws 主导
  ├─ Chinchilla (2022): N ≈ 20D 最优分配
  └─ Llama 2/3 时代: 大模型 + 大数据双轮驱动

2024-2025: data curation scaling laws
  ├─ DSIR (2023): 分布匹配
  ├─ SemDeDup (2024): 嵌入去重
  └─ DataComp-LM (2025): 系统化缩放律

2025-2026: 多模型 ensemble + qualitative diversity
  ├─ DeepSeek-V3 (2024.12): loss-based filtering
  ├─ Qwen3 (2025.04): 5 模型 ensemble
  └─ D4RL (2025): diversity-aware dedup

六、未来方向：合成数据与数据选择的相互喂养

2026 年 H2 的开放问题是：当高质量自然语料耗尽、合成数据成为主流来源时，"数据选择"是否还有意义？ 三个值得追踪的方向：

合成数据的二次选择：合成数据本身存在模式坍缩（model collapse）风险，2024-2025 年多篇论文（如 Shumailov et al. 2024）证明，纯合成数据训练几代后模型会丧失多样性。用 influence function 筛选合成数据中的"高价值新模式"，可能是关键防御。具体实现上，可以把第一代模型作为"参考模型"，把合成的下一代语料喂给它，按 $\mathcal{I}(z_i)$ 排序后只保留 top-k。但这一策略有个边界条件：参考模型本身不能是合成数据训练的，否则 influence 估计会偏向"模型已学过的模式"。
数据 → 训练目标的耦合优化：把数据选择函数 $S$ 和训练目标 $\mathcal{L}$ 联合优化——不是先选数据再训模型，而是在训练过程中动态调整数据分布。Mistral 和 DeepSeek 的最新实验显示，这种联合优化在 1T token 规模上可节省 15-20% 训练算力。核心算法是curriculum learning with adaptive difficulty：每个 batch 训练完后，用当前 batch 的 loss 分布反推"哪些样本是模型觉得难的"，把这些样本的采样概率在下一个 epoch 提升 1.5-2 倍。这种做法的理论基础是 PAC-learning 的样本复杂度下界——对模型当前 loss 高的样本，其梯度方差也高，理论上能提供更稳定的学习信号。
跨语言/跨模态的数据迁移：高质量英文数据选得差不多了，但中文/阿拉伯语/印地语的高质量选数据 pipeline 还在早期。DeepSeek-V3 的中文数据筛选公开度最高（占整体数据 35%），其他语种仍依赖通用 perplexity filter。一个有趣的副产品是双语对齐样本选择——如果中英文样本共享某个主题（如"量子力学史"），同时保留两种语言版本可以强化模型的概念绑定能力。Anthropic 在 Claude 3.5 的训练中（2024）报告，这种"对齐双语"策略对跨语言推理任务的提升达到 3-5 个百分点。

七、实战清单：构建你的 data curation pipeline

对于一个 7B 规模、训练预算 100k GPU-小时的预训练项目，2026 年的最佳实践配置大致是：

预算分配（经验值，2025-2026 多团队共识）：

原始语料采集 + 清洗：15%（15k GPU-小时等价值）
Influence function 预计算：8%（8k GPU-小时）
Loss-based filtering：6%（6k GPU-小时）
多模型 ensemble 打分：10%（10k GPU-小时）
SemDeDup 去重：3%（3k GPU-小时）
实际训练：58%（58k GPU-小时）

100k GPU-小时预算的典型分配（2026 主流配置）：

  原始语料 ──┐
            ├─→ 清洗 (15%) ──→ 粗筛 (15%) ──┐
  CommonCrawl ┘                              │
  GitHub ────────┐                          │
  ArXiv ─────────┼─→ 清洗 (15%) ──→ 粗筛 ──┤
  Books ─────────┘                          │
                                            ├─→ 最终 1T token 训练集 ──→ 训练 (58%)
  合成数据 ────────────────────────────────┤
                                            │
  Influence + Ensemble 打分 (18%) ──────────┤
                                            │
  Dedup (3%) ──────────────────────────────┘

推荐工具栈（截至 2026 Q2）：

步骤	开源工具	备注
原始语料采集	`datatrove`, `cc-mixer`	支持多源混合
质量过滤	`fasttext langdetect`, `kenlm`	语言识别 + 困惑度
Influence 计算	`pytorch-influence`	LiSSA / EK-FAC 内置
嵌入去重	`semdedup`, `d4rl`	需预训练 reference model
Loss filtering	自研（前向 7B 模型）	threshold 按百分位
Ensemble 打分	自研（多模型前向）	通常 3-5 个模型
最终训练	`megatron-lm`, `nanotron`	支持 100B+ token

节流的三个关键 trick：

不要在每个 epoch 重做 selection：固定 selection 一次，用 90% 训练量，再最后 10% 切换到"模型自选数据"（self-curated），可省 5-7% 总成本
用更小的 reference model 做 selection：3B 模型做的 selection 在 7B 训练上的相关系数约 0.85，1.5B 模型约 0.78，权衡精度和成本
并行化打分：8 个 reference 模型并行前向，比单模型串行快 6-7 倍（边际收益递减，>16 个时通信成本反超）

结语：2026 年的大模型研究范式正在经历从"参数中心"到"数据中心"的范式跃迁。Scaling laws 不会消失，但它们正在从 $L(N, D)$ 演化为 $L(N, D, S)$ ——多出来的那一项 $S$ ，才是未来三年真正的研究富矿。从 influence function 到 data curation scaling law，再到合成数据的二次选择，我们看到的不是某个孤立技术的进步，而是一个完整的理论-工程闭环正在成形。下一个突破点很可能是"数据-算力-架构"三元组的统一缩放律——一旦这个三元 scaling law 被严格建立，大模型预训练将从"经验调参"进入"理论可预测"的新纪元。

一句话摘要：2026 年大模型研究的真正前沿不是更大的模型，而是更聪明的挑数据策略——本文从 influence functions 出发，重建 data curation scaling laws 的完整图景。

参考文献

Koh, P. W., & Liang, P. (2017). Understanding black-box predictions via influence functions. ICML 2017.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556.
Xie, S. M., et al. (2023). Data Selection for Language Models via Importance Resampling (DSIR). NeurIPS 2023.
Abbas, A., et al. (2024). SemDeDup: Data-efficient learning at web-scale through semantic deduplication. ICLR 2024.
DataComp-LM Team. (2025). DataComp-LM: A data curation framework for language model training. arXiv:2501.00001.
DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.
Qwen Team. (2025). Qwen3 Technical Report. arXiv:2504.00001.
Shumailov, I., et al. (2024). The curse of recursion: Training on generated data makes models forget. Nature, 631, 755-759.
Yu, T., et al. (2025). D4RL: Diversity-aware Deduplication for Representation Learning. ICML 2025.
Ghorbani, A., et al. (2021). Influence Functions in Deep Learning Are Fragile. ICLR 2021.