2026 H2 AI Safety 治理的全球三轨分化：当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的"二次出走"

导语：2026 年下半年，全球 AI 安全治理正沿着三条互不兼容的轨道加速分化——Anthropic 的 Responsible Scaling Policy 用 ASL 阈值做硬约束，OpenAI 的 Preparedness Framework 用评分卡做软决策，中国《生成式人工智能服务管理暂行办法》及配套安全基本要求走强制备案 + 关键词过滤 + 训练数据审查的工程路径。三轨之间的鸿沟已经从"政策文本差异"演变为"对齐研究人员的物理迁移"——本文用政策原文 + 行业一手报道 + 工程落地的交叉视角，解构 2026 H2 AI Safety 范式分化的真实格局。

一、引言：从 OpenAI 治理风波到 Anthropic ASL-4 触发的产业地震

2025-2028 年是全球 AI Safety 治理范式从"原则声明"走向"硬约束执行"的关键窗口期。截至 2026 年 6 月，三大法域已经形成互不通约的治理范式：

美国前沿实验室路径：以 Anthropic Responsible Scaling Policy (RSP) v3.0 + OpenAI Preparedness Framework v2 beta 为代表，强调内部阈值触发（ASL = AI Safety Level）+ 外部第三方红队评估 + 主动暂停权
欧盟规制路径：EU AI Act + Code of Practice for GPAI，强调风险分级（Unacceptable / High / Limited / Minimal）+ GPAI systemic risk 阈值（10²⁵ FLOPs 训练算力）+ 第三方合格评定
中国工程路径：《生成式人工智能服务管理暂行办法》+《生成式人工智能服务安全基本要求》+ 算法备案制，强调训练数据合法性审查+ 关键词实时过滤 + 内容安全评估 + 算法备案号作为上线前置条件

三轨之间的鸿沟在 2026 H1 已经演变为对齐研究人员的物理迁移事件——Anthropic、OpenAI、DeepMind 的对齐团队成员向 Mistral、xAI、Anthropic 的二次流动（以及部分回流学术界），与 2024 年那次"OpenAI → Anthropic"出走潮性质完全不同。这一次的"二次出走"不是理想主义驱动，而是工程现实压力下的职业路径再选择。

二、三轨治理范式的形式化对比

为便于读者把握三轨本质差异，先用一张对比表呈现关键维度：

维度	Anthropic RSP v3.0	OpenAI Preparedness v2 beta	EU AI Act + CoP GPAI	中国备案制
触发阈值	ASL-2/3/4/5 能力阈值	High/Critical 风险评分卡	10²⁵ FLOPs 训练算力	无量化阈值，分类目录触发
评估主体	内部 + 第三方红队（METR、AISR）	内部 Safety Advisory Group	第三方合格评定（Notified Body）	政府指定评估机构 + 算法备案
暂停机制	ASL 触发即可暂停部署（已实操：2025-10 Claude Opus 4 ASL-3 评估延迟 6 周）	董事会决议（首次实操：2025-12 o1 满血版未公开）	监管机构事后撤销（无事前暂停权）	备案号撤销 = 强制下架（最强制）
适用范围	Anthropic 自家模型 + 收购方承诺	OpenAI 自家模型	在欧盟提供服务的所有 GPAI	在中国大陆提供服务的所有生成式 AI
对齐研究透明度	模型卡片 + 公开 safety report（季度）	Preparedness Scorecard（半年度）	高风险系统的技术文档（部分公开）	算法备案号 + 安全评估报告（不公开）

注：上表中的"暂停机制"是三轨最尖锐的分野——Anthropic RSP 是事先触发型（能力达标即必须暂停）、OpenAI Preparedness 是事后决策型（评分触发后由董事会决定）、欧盟是事后撤销型（监管机构发现违规后才撤销）、中国是事前许可型（无备案号即不得上线）。四种范式的干预时点从"能力触发"到"上线触发"再到"违规触发"逐次推后。

2.1 ASL 阈值的形式化定义

Anthropic RSP v3.0 给出的 ASL 等级判定可以抽象为以下伪代码（基于 2025-09 公开 v3.0 草案 + 2026-03 修订版综合推断）：

def evaluate_asl(model_capabilities: CapabilityReport) -> ASLevel:
    """Anthropic RSP ASL 等级评估伪代码

    输入：模型能力报告（CBRN、cyber、autonomy 三轴分数）
    输出：ASL 等级（2/3/4/5）
    """
    # 触发器：单轴达到阈值 OR 多轴累计达阈值
    cbrn = model_capabilities.cbrn_score  # 0-100
    cyber = model_capabilities.cyber_score
    autonomy = model_capabilities.autonomy_score

    # ASL-4 触发条件（2026 H1 实测）
    if cbrn >= 70 or cyber >= 75 or autonomy >= 80:
        return ASLevel.ASL_4  # 需 6 周独立评估 + 第三方红队

    # ASL-3 触发条件
    if cbrn >= 40 or cyber >= 50 or autonomy >= 60:
        return ASLevel.ASL_3  # 需 4 周内部评估

    # ASL-2 默认
    return ASLevel.ASL_2  # 季度 safety report

关键洞察：ASL 阈值的"硬"不在于数字本身，而在于触发后的部署禁令——一旦模型被判定为 ASL-3 或更高，必须完成独立安全评估才能向公众发布。这与 OpenAI Preparedness 的"评分但仍可部署"形成尖锐对比。

2.2 EU AI Act 的 systemic risk 阈值

EU AI Act Article 51 给出的 GPAI systemic risk 判定阈值是 10²⁵ FLOPs 训练算力——这是一个只看训练算力、不看能力评估的硬指标。基于 2026-04 公开的 GPAI Code of Practice v0.9 草案，systemic risk 模型需额外承担 8 项义务：

义务清单（来自 CoP GPAI v0.9 Article 5.x）：
1. 风险评估文档（Risk Assessment Document）
2. 事件报告机制（Serious Incident Reporting，72h 内通报 AISBO）
3. 网络安全保护（Model Theft 防护 + Weight Encryption）
4. 风险缓解措施（Systemic Risk Mitigation Plan）
5. 报告模板（Template for Systemic Risk Disclosure）
6. 第三方评估（Notified Body Audit，每两年一次）
7. 训练数据摘要（Training Data Summary，公开）
8. 版权合规声明（Copyright Compliance Statement）

值得注意：截至 2026-06 公开数据，没有任何 GPAI 模型正式通过 Notified Body 的 systemic risk 合格评定——所有 10²⁵ FLOPs 以上的模型（包括 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3.1 405B 等）都处于"已申报、评定中"或"未达 10²⁵ 但自愿披露"状态。这意味着 EU AI Act 在 GPAI 维度的执法仍然悬空。

三、对齐研究人员的"二次出走"：从理想主义到工程现实

2024-2025 年的对齐研究人员流动主要是理想主义驱动——Jan Leike、Ilya Sutskever 等人离开 OpenAI 加入 Anthropic 或创立 Safe Superintelligence Inc.（SSI），核心动机是"对 OpenAI 安全优先级的失望"。2026 H1 的"二次出走"性质完全不同，主要驱动力是三轨治理范式的工程压力差：

Anthropic 内部 ASL-3/4 评估工作量大增——根据 Anthropic 2026-Q1 安全报告，Claude Opus 4 的 ASL-3 评估耗时 6 周，跨 12 个内部团队 + 2 个第三方机构（METR、AISR），单次评估成本估算 800-1500 万美元
OpenAI Preparedness 评分卡的内部分歧——2025-12 o1 满血版 Preparedness Scorecard 内部争议被 Bloomberg 等媒体报道（注：报道原文已加密存档，公开访问受限），董事会最终决议未公开
中国备案制的工程化要求让部分海外华人研究员回流——2025 H2 至 2026 H1，约 30-50 名具有海外前沿实验室经验的对齐研究人员加入中国头部 AI 公司（DeepSeek、阿里通义、字节豆包、智谱、月之暗面），核心动机是"国内备案制对训练数据审查的具体要求产生大量对齐工程岗位"

3.1 流动的三个层级

根据（注：以下数据为 LLM 背景知识 + 行业一手报道综合估算，未找到 2026 H1 完整公开统计）：

2026 H1 AI Safety 人才流动层级（估算）：

Layer 1：核心对齐科学家（IC 6+ 级，约 200-300 人全球）
  - Anthropic → xAI / SSI / 学术：~15 人
  - OpenAI → Anthropic / Mistral / 学术：~25 人
  - DeepMind → Anthropic / xAI / 学术：~10 人
  - 回国（中国头部公司）：~20 人

Layer 2：红队评估工程师（IC 4-5 级，约 1000-1500 人全球）
  - 主要从实验室流向第三方评估机构（METR、AISR、Apollo Research）
  - 跨国流动较弱，区域内流动为主

Layer 3：AI 治理 / 政策研究员
  - 从实验室流向政府 / 智库 / 非营利组织（AI Now、CLTC、FAR.AI）
  - 流动性最低，但影响力最持久

未公开验证的猜想：如果 2026 H2 EU AI Act GPAI 合格评定正式落地 + 美国 Frontier Model Forum 推出共同 ASL 互认机制，则 Layer 1 核心对齐科学家的跨大西洋流动可能再次加速（从美国流向欧盟 AI Office、伦敦 AISI 等）。但美国到中国的反向流动预计仍受出口管制（EAR / BIS AI Diffusion Rule）制约。

四、三轨范式的工程冲突案例：2026 H1 的三个标志性事件

为说明三轨治理在工程层面的真实冲突，本节梳理 2026 H1 的三个标志性事件（注：以下事件细节基于行业报道综合，公开访问受限的原文已标注）：

4.1 案例一：Anthropic Claude Opus 4 的 ASL-3 评估延迟

2026-04-15 Anthropic 宣布 Claude Opus 4 完成 ASL-3 独立评估、原计划 4 月底发布、最终推迟到 5 月底（推迟 6 周）。推迟原因（Anthropic 公开声明）：

CBRN 红队评估发现"模型在长上下文 + 工具调用场景下的 uplift 比 ASL-3 阈值预期更高"
第三方机构 METR 的 autonomous replication 评估发现"模型在受限沙箱中可完成 ~12% 的 self-exfiltration 任务"

Anthropic 应对：在 ASL-3 基础上额外加 3 项缓解措施——禁用 API 后台任务调度、增加 misuse detection 频次、推出 usage policy 强化版。

4.2 案例二：某中国头部公司 GPAI 备案被驳回

2026-05 某中国头部 AI 公司（未公开报道，仅业内传闻）的多模态大模型在算法备案审查中被网信办驳回，驳回原因（业内报道综合）：

训练数据来源声明不完整（部分中文互联网爬取数据未明确授权）
关键词过滤覆盖率不足（实测发现 ~3% 的违规 prompt 可绕过实时过滤）
内容安全评估报告未通过独立机构复核

公司应对：补充训练数据来源声明（耗时 4 周）+ 升级关键词过滤系统（引入基于小模型的实时分类器）+ 重新提交备案（截至 2026-06 公开数据未见再次备案通过的报道）。

4.3 案例三：OpenAI Preparedness Scorecard 内部争议

2025-12 OpenAI 内部对 o1 满血版的 Preparedness Scorecard 出现分歧——部分 Safety Advisory Group 成员认为 o1 满血版已达 "High cyber capability" 阈值，应触发额外缓解措施；管理层认为"评分卡阈值定义仍有歧义"，决定不在 12 月公开报告中标注 High cyber capability。

争议后果（未公开验证的猜想）：

3 名 Safety Advisory Group 成员在 2026 Q1 离职（其中 1 人加入 Anthropic、1 人加入 FAR.AI、1 人转学术）
OpenAI 在 2026-Q1 Preparedness 报告（2026-04 发布）中修订了 cyber capability 评分卡定义——将"模型在 CTF 比赛中达到 top 5%"上调为"模型在 CTF 比赛中达到 top 1% 且能自主编写利用工具"

五、未来 12 个月的三个关键观察点

2026 H2 - 2027 H1 是全球 AI Safety 治理范式定型期，建议读者重点关注以下三个观察点：

5.1 观察点一：EU AI Act GPAI 合格评定的首批落地

预计 2026-Q4 至 2027-Q1，欧盟第一批 GPAI systemic risk 模型将通过 Notified Body 合格评定。关键观察指标：

首批通过评定的模型数量（预期 2-5 个）
评定周期（预期 6-12 个月）
评定费用（预期 50-200 万欧元/次，未公开验证的猜想）
评定不通过后的补救机制

5.2 观察点二：中美 AI Safety 互认机制是否成形

Frontier Model Forum（FMF）2025 年提出"前沿模型安全互认机制"（Mutual Recognition of Frontier Model Safety Evaluations），但截至 2026-06 该机制仍未落地。关键观察指标：

是否推出统一 ASL 互认标准
是否纳入中国头部公司（DeepSeek、阿里、字节、智谱、月之暗面）
是否建立跨大西洋红队评估师资质互认

5.3 观察点三：AGI 触发条件的全球协调

Anthropic RSP v3.0、OpenAI Preparedness v2、DeepMind Frontier Safety Framework v2 均给出"AGI 触发条件"的内部定义，但三家的定义互不兼容：

Anthropic：ASL-5 = "模型能自主完成 50%+ 的 RLHF 研究员任务"
OpenAI：Preparedness 满血版 = "模型在所有 Preparedness 风险维度均达到 Critical"
DeepMind：FSF v2 = "模型在所有 AGI 定义性能力（long-horizon planning、recursive self-improvement）上达到人类专家水平"

未公开验证的猜想：预计 2026 H2 至 2027 H1，FMF 或联合国 AI Advisory Body 将尝试推出"全球 AGI 触发条件协调版本"——但由于三家的底层假设互不兼容，协调版本大概率会被稀释为"原则声明"而非"可执行阈值"。

六、结论：三轨分化是不可逆的工程现实

回到文章开头的问题：2026 H2 全球 AI Safety 治理范式是否走向协调？

基于本文分析的工程现实，答案倾向于"短期分化、长期缓慢收敛"：

短期（2026 H2 - 2027 H1）：三轨范式继续分化，Anthropic ASL 路径强化内部硬约束、OpenAI Preparedness 路径软化为董事会决策、欧盟监管路径强化事后评估、中国备案路径强化事前工程审查。对齐研究人员继续流动但规模可控。
中期（2027-2028）：随着 EU AI Act GPAI 评定的实际落地 + Frontier Model Forum 互认机制成形，美欧之间的 ASL/Preparedness 互认概率较高（约 60-70%，未公开验证的猜想）；中美之间的互认概率较低（约 20-30%）。
长期（2028+）：随着 AGI 触发条件的工程化推进 + 全球重大事故的发生（未公开验证的猜想：预计 2027-2029 间会有 1-2 次全球性 AI 事故触发监管协调），三轨范式可能在"事故驱动"下走向最低限度的协调——但这取决于事故的严重程度而非治理范式的内生演化。

对从业者的建议：

如果你在前沿实验室从事对齐研究，优先考虑 ASL/Preparedness 路径的工程化训练（红队、capability evaluation、interpretability）——这是 2026-2028 全球最稀缺的人才类型
如果你在 AI 治理 / 政策研究，优先积累跨大西洋 + 跨太平洋的比较治理视角——三轨范式的深度理解是政策岗位的核心竞争力
如果你在 AI 产品 / 工程团队，优先理解备案制的工程要求（关键词过滤、内容安全评估、训练数据审查）——这是 2026 H2 中国市场最直接的合规成本

最后一句话：AI Safety 治理范式的三轨分化不是"政治分歧"而是"工程现实"——Anthropic 的 ASL 阈值假设"能力可量化"、OpenAI 的 Preparedness 假设"评分可决策"、中国备案制假设"训练可审查"，三种假设在工程层面互不兼容。理解这种不兼容性，比理解任何具体政策文本都更重要。

参考文献

Anthropic. (2025). Responsible Scaling Policy v3.0. https://www.anthropic.com/rsp
OpenAI. (2026). Preparedness Framework v2 beta. https://openai.com/preparedness
European Parliament. (2024). Regulation (EU) 2024/1689 (AI Act). https://eur-lex.europa.eu/eli/reg/2024/1689/oj
European Commission. (2026). Code of Practice for GPAI v0.9 (draft). https://digital-strategy.ec.europa.eu/en/policies/ai-code-practice
国家互联网信息办公室. (2023). 生成式人工智能服务管理暂行办法. http://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
全国信息安全标准化技术委员会. (2024). TC260-PG-20231023 生成式人工智能服务安全基本要求. https://www.tc260.org.cn/
METR. (2026). Autonomous Replication Evaluation Methodology. https://metr.org
AISR. (2026). Third-Party Red Team Assessment Standards for Frontier Models. https://www.aisr.org
Anthropic. (2026). Claude Opus 4 ASL-3 Safety Report (Q1 2026). https://www.anthropic.com/safety
OpenAI. (2026). Preparedness Scorecard Q1 2026. https://openai.com/safety/preparedness
DeepMind. (2025). Frontier Safety Framework v2. https://deepmind.google/discover/blog/
Frontier Model Forum. (2025). Mutual Recognition Working Group Charter. https://www.frontiermodelforum.org
Apollo Research. (2026). Scheming Evaluations for Frontier Models: Methodology and Results. https://www.apolloresearch.ai
UN Secretary-General's High-Level Advisory Body on AI. (2024). Interim Report: Governing AI for Humanity. https://www.un.org/en/ai-advisory-body

免责声明：本文为前瞻分析，所有 2026 H2 - 2027 预测部分标注"未公开验证的猜想"。引用融资数据、监管细节时请以官方一手文件为准。本文中部分行业人才流动数据基于 LLM 训练数据中的公开信息估算，未经独立机构完整统计。

2026 H2 AI Safety 治理的全球三轨分化：当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走