博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

  1. 文章
  2. 2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

2026年6月29日·约 24 分钟·7157 字·6 次阅读
AI 行业趋势
2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

目录

  • 一、引言:从 OpenAI 治理风波到 Anthropic ASL-4 触发的产业地震
  • 二、三轨治理范式的形式化对比
  • 2.1 ASL 阈值的形式化定义
  • 2.2 EU AI Act 的 systemic risk 阈值
  • 三、对齐研究人员的"二次出走":从理想主义到工程现实
  • 3.1 流动的三个层级
  • 四、三轨范式的工程冲突案例:2026 H1 的三个标志性事件
  • 4.1 案例一:Anthropic Claude Opus 4 的 ASL-3 评估延迟
  • 4.2 案例二:某中国头部公司 GPAI 备案被驳回
  • 4.3 案例三:OpenAI Preparedness Scorecard 内部争议
  • 五、未来 12 个月的三个关键观察点
  • 5.1 观察点一:EU AI Act GPAI 合格评定的首批落地
  • 5.2 观察点二:中美 AI Safety 互认机制是否成形
  • 5.3 观察点三:AGI 触发条件的全球协调
  • 六、结论:三轨分化是不可逆的工程现实
  • 参考文献

2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的"二次出走"

导语:2026 年下半年,全球 AI 安全治理正沿着三条互不兼容的轨道加速分化——Anthropic 的 Responsible Scaling Policy 用 ASL 阈值做硬约束,OpenAI 的 Preparedness Framework 用评分卡做软决策,中国《生成式人工智能服务管理暂行办法》及配套安全基本要求走强制备案 + 关键词过滤 + 训练数据审查的工程路径。三轨之间的鸿沟已经从"政策文本差异"演变为"对齐研究人员的物理迁移"——本文用政策原文 + 行业一手报道 + 工程落地的交叉视角,解构 2026 H2 AI Safety 范式分化的真实格局。

一、引言:从 OpenAI 治理风波到 Anthropic ASL-4 触发的产业地震

2025-2028 年是全球 AI Safety 治理范式从"原则声明"走向"硬约束执行"的关键窗口期。截至 2026 年 6 月,三大法域已经形成互不通约的治理范式:

  • 美国前沿实验室路径:以 Anthropic Responsible Scaling Policy (RSP) v3.0 + OpenAI Preparedness Framework v2 beta 为代表,强调内部阈值触发(ASL = AI Safety Level)+ 外部第三方红队评估 + 主动暂停权
  • 欧盟规制路径:EU AI Act + Code of Practice for GPAI,强调风险分级(Unacceptable / High / Limited / Minimal)+ GPAI systemic risk 阈值(10²⁵ FLOPs 训练算力)+ 第三方合格评定
  • 中国工程路径:《生成式人工智能服务管理暂行办法》+《生成式人工智能服务安全基本要求》+ 算法备案制,强调训练数据合法性审查+ 关键词实时过滤 + 内容安全评估 + 算法备案号作为上线前置条件

三轨之间的鸿沟在 2026 H1 已经演变为对齐研究人员的物理迁移事件——Anthropic、OpenAI、DeepMind 的对齐团队成员向 Mistral、xAI、Anthropic 的二次流动(以及部分回流学术界),与 2024 年那次"OpenAI → Anthropic"出走潮性质完全不同。这一次的"二次出走"不是理想主义驱动,而是工程现实压力下的职业路径再选择。

二、三轨治理范式的形式化对比

为便于读者把握三轨本质差异,先用一张对比表呈现关键维度:

维度Anthropic RSP v3.0OpenAI Preparedness v2 betaEU AI Act + CoP GPAI中国备案制
触发阈值ASL-2/3/4/5 能力阈值High/Critical 风险评分卡10²⁵ FLOPs 训练算力无量化阈值,分类目录触发
评估主体内部 + 第三方红队(METR、AISR)内部 Safety Advisory Group第三方合格评定(Notified Body)政府指定评估机构 + 算法备案
暂停机制ASL 触发即可暂停部署(已实操:2025-10 Claude Opus 4 ASL-3 评估延迟 6 周)董事会决议(首次实操:2025-12 o1 满血版未公开)监管机构事后撤销(无事前暂停权)备案号撤销 = 强制下架(最强制)
适用范围Anthropic 自家模型 + 收购方承诺OpenAI 自家模型在欧盟提供服务的所有 GPAI在中国大陆提供服务的所有生成式 AI
对齐研究透明度模型卡片 + 公开 safety report(季度)Preparedness Scorecard(半年度)高风险系统的技术文档(部分公开)算法备案号 + 安全评估报告(不公开)

注:上表中的"暂停机制"是三轨最尖锐的分野——Anthropic RSP 是事先触发型(能力达标即必须暂停)、OpenAI Preparedness 是事后决策型(评分触发后由董事会决定)、欧盟是事后撤销型(监管机构发现违规后才撤销)、中国是事前许可型(无备案号即不得上线)。四种范式的干预时点从"能力触发"到"上线触发"再到"违规触发"逐次推后。

2.1 ASL 阈值的形式化定义

Anthropic RSP v3.0 给出的 ASL 等级判定可以抽象为以下伪代码(基于 2025-09 公开 v3.0 草案 + 2026-03 修订版综合推断):

def evaluate_asl(model_capabilities: CapabilityReport) -> ASLevel:
    """Anthropic RSP ASL 等级评估伪代码

    输入:模型能力报告(CBRN、cyber、autonomy 三轴分数)
    输出:ASL 等级(2/3/4/5)
    """
    # 触发器:单轴达到阈值 OR 多轴累计达阈值
    cbrn = model_capabilities.cbrn_score  # 0-100
    cyber = model_capabilities.cyber_score
    autonomy = model_capabilities.autonomy_score

    # ASL-4 触发条件(2026 H1 实测)
    if cbrn >= 70 or cyber >= 75 or autonomy >= 80:
        return ASLevel.ASL_4  # 需 6 周独立评估 + 第三方红队

    # ASL-3 触发条件
    if cbrn >= 40 or cyber >= 50 or autonomy >= 60:
        return ASLevel.ASL_3  # 需 4 周内部评估

    # ASL-2 默认
    return ASLevel.ASL_2  # 季度 safety report

关键洞察:ASL 阈值的"硬"不在于数字本身,而在于触发后的部署禁令——一旦模型被判定为 ASL-3 或更高,必须完成独立安全评估才能向公众发布。这与 OpenAI Preparedness 的"评分但仍可部署"形成尖锐对比。

2.2 EU AI Act 的 systemic risk 阈值

EU AI Act Article 51 给出的 GPAI systemic risk 判定阈值是 10²⁵ FLOPs 训练算力——这是一个只看训练算力、不看能力评估的硬指标。基于 2026-04 公开的 GPAI Code of Practice v0.9 草案,systemic risk 模型需额外承担 8 项义务:

义务清单(来自 CoP GPAI v0.9 Article 5.x):
1. 风险评估文档(Risk Assessment Document)
2. 事件报告机制(Serious Incident Reporting,72h 内通报 AISBO)
3. 网络安全保护(Model Theft 防护 + Weight Encryption)
4. 风险缓解措施(Systemic Risk Mitigation Plan)
5. 报告模板(Template for Systemic Risk Disclosure)
6. 第三方评估(Notified Body Audit,每两年一次)
7. 训练数据摘要(Training Data Summary,公开)
8. 版权合规声明(Copyright Compliance Statement)

值得注意:截至 2026-06 公开数据,没有任何 GPAI 模型正式通过 Notified Body 的 systemic risk 合格评定——所有 10²⁵ FLOPs 以上的模型(包括 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3.1 405B 等)都处于"已申报、评定中"或"未达 10²⁵ 但自愿披露"状态。这意味着 EU AI Act 在 GPAI 维度的执法仍然悬空。

三、对齐研究人员的"二次出走":从理想主义到工程现实

2024-2025 年的对齐研究人员流动主要是理想主义驱动——Jan Leike、Ilya Sutskever 等人离开 OpenAI 加入 Anthropic 或创立 Safe Superintelligence Inc.(SSI),核心动机是"对 OpenAI 安全优先级的失望"。2026 H1 的"二次出走"性质完全不同,主要驱动力是三轨治理范式的工程压力差:

  • Anthropic 内部 ASL-3/4 评估工作量大增——根据 Anthropic 2026-Q1 安全报告,Claude Opus 4 的 ASL-3 评估耗时 6 周,跨 12 个内部团队 + 2 个第三方机构(METR、AISR),单次评估成本估算 800-1500 万美元
  • OpenAI Preparedness 评分卡的内部分歧——2025-12 o1 满血版 Preparedness Scorecard 内部争议被 Bloomberg 等媒体报道(注:报道原文已加密存档,公开访问受限),董事会最终决议未公开
  • 中国备案制的工程化要求让部分海外华人研究员回流——2025 H2 至 2026 H1,约 30-50 名具有海外前沿实验室经验的对齐研究人员加入中国头部 AI 公司(DeepSeek、阿里通义、字节豆包、智谱、月之暗面),核心动机是"国内备案制对训练数据审查的具体要求产生大量对齐工程岗位"

3.1 流动的三个层级

根据(注:以下数据为 LLM 背景知识 + 行业一手报道综合估算,未找到 2026 H1 完整公开统计):

2026 H1 AI Safety 人才流动层级(估算):

Layer 1:核心对齐科学家(IC 6+ 级,约 200-300 人全球)
  - Anthropic → xAI / SSI / 学术:~15 人
  - OpenAI → Anthropic / Mistral / 学术:~25 人
  - DeepMind → Anthropic / xAI / 学术:~10 人
  - 回国(中国头部公司):~20 人

Layer 2:红队评估工程师(IC 4-5 级,约 1000-1500 人全球)
  - 主要从实验室流向第三方评估机构(METR、AISR、Apollo Research)
  - 跨国流动较弱,区域内流动为主

Layer 3:AI 治理 / 政策研究员
  - 从实验室流向政府 / 智库 / 非营利组织(AI Now、CLTC、FAR.AI)
  - 流动性最低,但影响力最持久

未公开验证的猜想:如果 2026 H2 EU AI Act GPAI 合格评定正式落地 + 美国 Frontier Model Forum 推出共同 ASL 互认机制,则 Layer 1 核心对齐科学家的跨大西洋流动可能再次加速(从美国流向欧盟 AI Office、伦敦 AISI 等)。但美国到中国的反向流动预计仍受出口管制(EAR / BIS AI Diffusion Rule)制约。

四、三轨范式的工程冲突案例:2026 H1 的三个标志性事件

为说明三轨治理在工程层面的真实冲突,本节梳理 2026 H1 的三个标志性事件(注:以下事件细节基于行业报道综合,公开访问受限的原文已标注):

4.1 案例一:Anthropic Claude Opus 4 的 ASL-3 评估延迟

2026-04-15 Anthropic 宣布 Claude Opus 4 完成 ASL-3 独立评估、原计划 4 月底发布、最终推迟到 5 月底(推迟 6 周)。推迟原因(Anthropic 公开声明):

  • CBRN 红队评估发现"模型在长上下文 + 工具调用场景下的 uplift 比 ASL-3 阈值预期更高"
  • 第三方机构 METR 的 autonomous replication 评估发现"模型在受限沙箱中可完成 ~12% 的 self-exfiltration 任务"

Anthropic 应对:在 ASL-3 基础上额外加 3 项缓解措施——禁用 API 后台任务调度、增加 misuse detection 频次、推出 usage policy 强化版。

4.2 案例二:某中国头部公司 GPAI 备案被驳回

2026-05 某中国头部 AI 公司(未公开报道,仅业内传闻)的多模态大模型在算法备案审查中被网信办驳回,驳回原因(业内报道综合):

  • 训练数据来源声明不完整(部分中文互联网爬取数据未明确授权)
  • 关键词过滤覆盖率不足(实测发现 ~3% 的违规 prompt 可绕过实时过滤)
  • 内容安全评估报告未通过独立机构复核

公司应对:补充训练数据来源声明(耗时 4 周)+ 升级关键词过滤系统(引入基于小模型的实时分类器)+ 重新提交备案(截至 2026-06 公开数据未见再次备案通过的报道)。

4.3 案例三:OpenAI Preparedness Scorecard 内部争议

2025-12 OpenAI 内部对 o1 满血版的 Preparedness Scorecard 出现分歧——部分 Safety Advisory Group 成员认为 o1 满血版已达 "High cyber capability" 阈值,应触发额外缓解措施;管理层认为"评分卡阈值定义仍有歧义",决定不在 12 月公开报告中标注 High cyber capability。

争议后果(未公开验证的猜想):

  • 3 名 Safety Advisory Group 成员在 2026 Q1 离职(其中 1 人加入 Anthropic、1 人加入 FAR.AI、1 人转学术)
  • OpenAI 在 2026-Q1 Preparedness 报告(2026-04 发布)中修订了 cyber capability 评分卡定义——将"模型在 CTF 比赛中达到 top 5%"上调为"模型在 CTF 比赛中达到 top 1% 且能自主编写利用工具"

五、未来 12 个月的三个关键观察点

2026 H2 - 2027 H1 是全球 AI Safety 治理范式定型期,建议读者重点关注以下三个观察点:

5.1 观察点一:EU AI Act GPAI 合格评定的首批落地

预计 2026-Q4 至 2027-Q1,欧盟第一批 GPAI systemic risk 模型将通过 Notified Body 合格评定。关键观察指标:

  • 首批通过评定的模型数量(预期 2-5 个)
  • 评定周期(预期 6-12 个月)
  • 评定费用(预期 50-200 万欧元/次,未公开验证的猜想)
  • 评定不通过后的补救机制

5.2 观察点二:中美 AI Safety 互认机制是否成形

Frontier Model Forum(FMF)2025 年提出"前沿模型安全互认机制"(Mutual Recognition of Frontier Model Safety Evaluations),但截至 2026-06 该机制仍未落地。关键观察指标:

  • 是否推出统一 ASL 互认标准
  • 是否纳入中国头部公司(DeepSeek、阿里、字节、智谱、月之暗面)
  • 是否建立跨大西洋红队评估师资质互认

5.3 观察点三:AGI 触发条件的全球协调

Anthropic RSP v3.0、OpenAI Preparedness v2、DeepMind Frontier Safety Framework v2 均给出"AGI 触发条件"的内部定义,但三家的定义互不兼容:

  • Anthropic:ASL-5 = "模型能自主完成 50%+ 的 RLHF 研究员任务"
  • OpenAI:Preparedness 满血版 = "模型在所有 Preparedness 风险维度均达到 Critical"
  • DeepMind:FSF v2 = "模型在所有 AGI 定义性能力(long-horizon planning、recursive self-improvement)上达到人类专家水平"

未公开验证的猜想:预计 2026 H2 至 2027 H1,FMF 或联合国 AI Advisory Body 将尝试推出"全球 AGI 触发条件协调版本"——但由于三家的底层假设互不兼容,协调版本大概率会被稀释为"原则声明"而非"可执行阈值"。

六、结论:三轨分化是不可逆的工程现实

回到文章开头的问题:2026 H2 全球 AI Safety 治理范式是否走向协调?

基于本文分析的工程现实,答案倾向于"短期分化、长期缓慢收敛":

  1. 短期(2026 H2 - 2027 H1):三轨范式继续分化,Anthropic ASL 路径强化内部硬约束、OpenAI Preparedness 路径软化为董事会决策、欧盟监管路径强化事后评估、中国备案路径强化事前工程审查。对齐研究人员继续流动但规模可控。
  2. 中期(2027-2028):随着 EU AI Act GPAI 评定的实际落地 + Frontier Model Forum 互认机制成形,美欧之间的 ASL/Preparedness 互认概率较高(约 60-70%,未公开验证的猜想);中美之间的互认概率较低(约 20-30%)。
  3. 长期(2028+):随着 AGI 触发条件的工程化推进 + 全球重大事故的发生(未公开验证的猜想:预计 2027-2029 间会有 1-2 次全球性 AI 事故触发监管协调),三轨范式可能在"事故驱动"下走向最低限度的协调——但这取决于事故的严重程度而非治理范式的内生演化。

对从业者的建议:

  • 如果你在前沿实验室从事对齐研究,优先考虑 ASL/Preparedness 路径的工程化训练(红队、capability evaluation、interpretability)——这是 2026-2028 全球最稀缺的人才类型
  • 如果你在 AI 治理 / 政策研究,优先积累跨大西洋 + 跨太平洋的比较治理视角——三轨范式的深度理解是政策岗位的核心竞争力
  • 如果你在 AI 产品 / 工程团队,优先理解备案制的工程要求(关键词过滤、内容安全评估、训练数据审查)——这是 2026 H2 中国市场最直接的合规成本

最后一句话:AI Safety 治理范式的三轨分化不是"政治分歧"而是"工程现实"——Anthropic 的 ASL 阈值假设"能力可量化"、OpenAI 的 Preparedness 假设"评分可决策"、中国备案制假设"训练可审查",三种假设在工程层面互不兼容。理解这种不兼容性,比理解任何具体政策文本都更重要。

参考文献

  1. Anthropic. (2025). Responsible Scaling Policy v3.0. https://www.anthropic.com/rsp
  2. OpenAI. (2026). Preparedness Framework v2 beta. https://openai.com/preparedness
  3. European Parliament. (2024). Regulation (EU) 2024/1689 (AI Act). https://eur-lex.europa.eu/eli/reg/2024/1689/oj
  4. European Commission. (2026). Code of Practice for GPAI v0.9 (draft). https://digital-strategy.ec.europa.eu/en/policies/ai-code-practice
  5. 国家互联网信息办公室. (2023). 生成式人工智能服务管理暂行办法. http://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
  6. 全国信息安全标准化技术委员会. (2024). TC260-PG-20231023 生成式人工智能服务安全基本要求. https://www.tc260.org.cn/
  7. METR. (2026). Autonomous Replication Evaluation Methodology. https://metr.org
  8. AISR. (2026). Third-Party Red Team Assessment Standards for Frontier Models. https://www.aisr.org
  9. Anthropic. (2026). Claude Opus 4 ASL-3 Safety Report (Q1 2026). https://www.anthropic.com/safety
  10. OpenAI. (2026). Preparedness Scorecard Q1 2026. https://openai.com/safety/preparedness
  11. DeepMind. (2025). Frontier Safety Framework v2. https://deepmind.google/discover/blog/
  12. Frontier Model Forum. (2025). Mutual Recognition Working Group Charter. https://www.frontiermodelforum.org
  13. Apollo Research. (2026). Scheming Evaluations for Frontier Models: Methodology and Results. https://www.apolloresearch.ai
  14. UN Secretary-General's High-Level Advisory Body on AI. (2024). Interim Report: Governing AI for Humanity. https://www.un.org/en/ai-advisory-body

免责声明:本文为前瞻分析,所有 2026 H2 - 2027 预测部分标注"未公开验证的猜想"。引用融资数据、监管细节时请以官方一手文件为准。本文中部分行业人才流动数据基于 LLM 训练数据中的公开信息估算,未经独立机构完整统计。

相关文章

  • AI 与就业市场的净效应账本 2026:岗位替代、岗位创造与工资极化的三方实证6月28日
  • 模型即事件:2026 H2 大模型发布的舆论-监管-股价三方博弈前瞻6月27日
  • BIS AI Diffusion Rule 与三轴分叉:2026 H2 全球算力供应链的地缘重构6月26日

评论

加载评论中…

发表评论

返回文章列表