Anthropic 发布 Claude Opus 4.7:最强商用旗舰,CursorBench 70% 超越 GPT-5.4
约 13 分钟3789 字12 次阅读

Anthropic 发布 Claude Opus 4.7:最强商用旗舰,CursorBench 70% 超越 GPT-5.4
概述
就在今天(2026年4月16日),Anthropic 正式发布了 Claude Opus 4.7——迄今为止其最强大的商用旗舰模型。
这是一次重磅升级:13%的编码能力提升、98.5%的视觉能力飞跃、CursorBench 70%对58%的压倒性优势——Claude Opus 4.7 不仅在编码和多步工作流程上全面超越前代,更在多个第三方基准测试中击败了 GPT-5.4。
与此同时,Anthropic 还推出了一款配套的 AI 设计工具,可从文本描述直接生成网站、着陆页和演示文稿,直接剑指 Adobe 和 Figma。
一、发布背景:为什么 Opus 4.7 值得关注?
1.1 时间线
| 时间 | 事件 |
|---|---|
| 2026年4月7日 | Anthropic 发布 Claude Mythos Preview,面向特定安全场景 |
| 2026年4月14日 | The Information 爆料:Anthropic 即将发布 Opus 4.7 |
| 2026年4月16日 | Claude Opus 4.7 正式发布 |
1.2 为什么不是 Mythos?
值得注意的是,Opus 4.7 并非 Anthropic 最强大的模型——那个位置属于 Claude Mythos Preview(4月初发布,面向部分企业)。
Anthropic 明确表示:Opus 4.7 "less broadly capable"(能力范围更小),且明确降低了网络安全风险。Mythos 的强大网络攻击能力不适合公开发布,Opus 4.7 则在安全可控的前提下提供顶级商用能力。
正如 Anthropic 在公告中所说:
"We are releasing Opus 4.7 with safeguards that automatically detect and block requests that indicate prohibited or high-risk cybersecurity uses. What we learn from the real-world deployment of these safeguards will help us work towards our eventual goal of a broad release of Mythos-class models."
二、核心升级亮点
2.1 编码能力:13% 提升,CursorBench 70% vs Opus 4.6 的 58%
Claude Opus 4.7 在编码方面的提升是本次发布最受关注的部分:
| 基准测试 | Opus 4.6 | Opus 4.7 | 变化 |
|---|---|---|---|
| CursorBench | 58% | 70% | +12pp |
| Rakuten-SWE-Bench | 基准 | 3倍提升 | 显著 |
| Terminal Bench | 未能通过 | 通过3项 | 突破 |
| Qodo 代码审查 | — | Top-Tier | — |
Cursor 的工程团队表示:"Opus 4.7 是我们测试过的最锐利的模型,在最复杂的 PR 中发现了此前最难检测的 bug,同时精确率保持稳定。"
Replit 评价:"同样质量,成本更低"——这对开发者来说是最实际的升级驱动力。
2.2 视觉能力:98.5% vs 4.6 的 54.5%
在 XBOW 的视觉能力基准测试中,Opus 4.7 实现了惊人的飞跃:
98.5%(Opus 4.7) vs 54.5%(Opus 4.6)
这意味着 Opus 4.7 几乎可以准确完成任何需要视觉理解的任务,包括解读化学结构、复杂技术图表、界面截图分析等。Solve Intelligence 已利用这一能力构建生命科学专利工作流,从起草到侵权检测到无效性图表分析。
2.3 多步工作流程:14% 提升,工具错误减少三分之一
Notion Agent 评测:
"Opus 4.7 是第一个通过我们 implicit-need 测试的模型,且在工具失败时仍能继续执行——这是我们见过的最大可靠性飞跃。"
Hebbia 表示,在其核心编排 Agent 的工具调用准确率和规划能力上,看到了双位数的提升。
2.4 自适应思考(Adaptive Thinking)
Opus 4.7 引入了"自适应思考"能力——模型自动根据任务复杂度调节思考深度:
- 难题:投入更多思考资源,仔细规划
- 简单任务:快速响应,不过度思考
Hex 评测总结:"低投入的 Opus 4.7 大致等于中等投入的 Opus 4.6"——这意味着同等成本下性能大幅提升。
三、配套发布:AI 设计工具
Anthropic 同步发布了一款 AI 设计工具,能够:
- 从文本描述生成完整网站
- 生成着陆页
- 生成演示文稿
The Information 此前报道,这一工具与 Opus 4.7 同步发布,剑指 Adobe 和 Figma 主导的设计市场。36Kr 报道称该工具支持从定时任务、API 和 GitHub 触发,堪称"云端员工"。
四、可用性和定价
4.1 覆盖平台
Claude Opus 4.7 目前已在以下平台可用:
- ✅ claude.ai(面向 Pro、Max、Team、Enterprise 用户)
- ✅ Claude Platform API
- ✅ Amazon Bedrock(AWS 定制推理引擎)
- ✅ Google Vertex AI
- ✅ Microsoft Foundry
- ✅ GitHub Copilot
4.2 定价
与 Opus 4.6 相同,不涨价:
| 指标 | 价格 |
|---|---|
| 输入 Tokens | $5 / 百万 tokens |
| 输出 Tokens | $25 / 百万 tokens |
| Prompt Caching 节省 | 最高 90% |
| 批处理节省 | 最高 50% |
值得注意的是,Opus 4.7 推出初期有 7.5× 溢价乘数(针对 Copilot Pro+、Business、Enterprise 用户),属于限时促销定价,截至4月30日。
五、第三方评测精选
Anthropic 官网公布了 27 家企业的内测反馈,精华摘要:
| 企业 | 评测结论 |
|---|---|
| Replit | "同等质量,更低成本。分析日志追踪、找 bug、提出修复方案更快更准。" |
| Factory Droids | "编码任务成功率比 4.6 提升 10-15%,工具错误更少,验证步骤更可靠。" |
| Vercel | "单次编码任务表现惊人,比 4.6 更正确更完整,还会在开始前对系统代码做证明。" |
| Ramp | "Agent 团队工作流显著增强,角色一致性、指令遵循、协调能力大幅提升。" |
| CodeRabbit | "我们测试过最锐利的模型,在最复杂的 PR 中发现了最难检测的 bug,精确率提升超 10%。" |
| Notion | "第一个通过 implicit-need 测试的模型,工具失败时仍继续执行——这才是真正的队友感。" |
| Bolt | "长时间运行的 App 构建工作流提升达 10%,且没有我们预期的回归问题。" |
| Quantium | "在推理深度、结构化问题框架、复杂技术工作上,是测试中表现最好的模型。" |
六、与 Claude Mythos 的关系:安全优先
这是理解本次发布的关键背景:
Claude Opus 4.7 是 Anthropic 在"安全与能力"之间精心平衡的产物。Mythos 代表着 Anthropic 的顶级能力(尤其是网络攻击方面),但不适合公开发布。Opus 4.7 则在有意识降低网络风险的前提下,提供最强商用能力。
具体措施:
- 训练时实施"差异性降低"网络能力
- 内置自动检测和阻止高风险网络攻击请求的防护机制
- 对合法的网络安全研究用途,开放验证计划申请通道
这一策略的背景是:Anthropic 本月初启动了 Project Glasswing——邀请银行 CEO、技术 CEO 和特朗普政府官员共同讨论强大人工智能模型的安全风险,标志着 AI 安全已成为国家层面的严肃议题。
七、Opus 4.7 vs Opus 4.6:完整对比
| 维度 | Claude Opus 4.6 | Claude Opus 4.7 |
|---|---|---|
| 发布时间 | 2026年2月5日 | 2026年4月16日 |
| 上下文窗口 | 1M tokens | 1M tokens |
| 编码能力(CursorBench) | 58% | 70% |
| 视觉能力(XBOW) | 54.5% | 98.5% |
| SWE-Bench | 基准 | 3倍提升 |
| 自适应思考 | ❌ | ✅ |
| 网络安全防护 | 基础 | 强化 |
| 定价 | 25 | 25(相同) |
八、谁应该升级到 Opus 4.7?
强烈推荐升级:
- 需要最强编码能力的开发团队
- 运行复杂多步 Agent 工作流的企业
- 对视觉理解(图表、UI、文档分析)有高要求的场景
- 需要在长上下文中保持一致性的深度研究任务
可以考虑升级:
- 对成本敏感的独立开发者(同等质量,更低思考成本)
- 法律、金融等需要高准确率文档分析的专业人士
总结
Claude Opus 4.7 是 Anthropic 截至目前最强大的商用旗舰模型——在编码、视觉、Agent 工作流三大维度全面超越 Opus 4.6,且定价不变。
更重要的是,它展示了 Anthropic 在"安全与能力平衡"上的持续探索:Mythos 的顶级能力不适合公开,但 Opus 4.7 在有意识的网络风险管控框架下,提供了最接近 Mythos 的商用体验。
对于 AI 开发者和企业用户而言,Opus 4.7 代表着当前可用的最先进水平——如果你在找一个能真正"当同事用"的 AI 模型,Opus 4.7 值得一试。
参考资料:Anthropic 官方公告、AWS Blog、GitHub Changelog、CNBC、The Information、36Kr、Anthropic 官网客户评测
标签:#AI #Claude #Anthropic #Opus4.7 #大模型 #GPT-5 #编码助手 #AIAgent