刚刚!Claude Opus 4.8 炸场,一夜升级成工作流AI

智观行业
昨天发布

千呼万唤,Claude Opus 4.8 正式发布了。

北京时间 5 月 29 日凌晨,Anthropic 正式发布 Claude Opus 4.8,如果只看名字,Opus 4.8 很容易被理解成 Opus 4.7 后面的一次小版本更新,其实从官方释出的性能表来说,也确实如此。比如 Terminal-Bench 2.1 上,GPT-5.5 的 78.2% 仍然高于 Opus 4.8 的 74.6%。



(图源:Anthropic)

不过,Anthropic 的真正杀招不只是 Claude Opus 4.8,而是随这个新旗舰模型一同释出,包括 Claude.ai 的 effort control、Claude Code 的 dynamic workflows 的全新Agent能力。

事实上,Anthropic 已经不再执着于让 Claude 变得更聪明了,而是选择让 Claude 变得更能干活了。

判断力是Opus 4.8 的最大突破

我们先来看看 Anthropic 这款最新旗舰模型 Claude Opus 4.8 的具体性能。

官方性能表里,Opus 4.8 在 Agentic Coding、Agentic Computer Use、Knowledge Work、Finance Agent 等多个项目上超过 Opus 4.7、GPT-5.5 和 Gemini 3.1 Pro。在 SWE-Bench Pro 上,Opus 4.8 是 69.2%,高于 Opus 4.7 的 64.3%;OSWorld-Verified 上,Opus 4.8 是 83.4%;GDPval-AA 上,Opus 4.8 得到 1890;Finance Agent v2 上,Opus 4.8 是 53.9%。



(图源:Anthropic)

简单来说,Opus 4.8 的核心升级是写代码、用终端、操作电脑、处理知识工作、做金融分析。更直白一点说,Opus 4.8 不是为“问答”而升级,而是为“代理执行”而升级。

过去一年,大家对 coding agent 最大的不满,并不是它完全不会写代码,而是它太自信了,比如你让它跑一个任务,它会说任务完成了,但测试没有真正跑通,还有它会把自己生成的代码缺陷放过去,甚至用很笃定的语气告诉你“一切正常”。换到问答里,那就是 AI 又一次“稳稳地接住了你”。

这类问题对聊天产品来说只是体验不太行,但对 agent 来说就是生产事故。

因为 agent 的本质不是回答,而是行动。一个会行动的模型,最可怕的不是能力不足,而是能力不足却不知道自己不足,所以 Opus 4.8 的提升点很重要,它更愿意指出不确定性,愿意在证据不足时停下来,等待你补充完整信息再去行动。官方甚至提到,Opus 4.8 让代码缺陷未经提醒通过的概率,比前代低了很多。

从官方早测反馈看,Cursor、Devin、Databricks、法律 AI、金融分析、浏览器 agent 等合作方也提到:

工具调用更干净,任务推进更稳,长程上下文保持更好,更适合无人值守或半无人值守的复杂工作。

另外,ClaudeDevs 官方账号对 dynamic workflows 做了连续解释:Claude Code 现在可以临时写 orchestration script,然后并行启动大量 coordinated subagents 来处理复杂任务。官方还明确说,这类 workflow 适合 service-wide bug hunt、大型迁移、设计压力测试这类单 agent loop 很难完成的任务。



(图源:Anthropic)

Bun 作者 Jarred Sumner 表示, dynamic workflows 是目前可靠使用 agents 完成中大型项目的前沿方式之一,并提到 Bun 重写为 Rust 的过程中,dynamic workflows 和 adversarial code review 起到了重要作用。

不难看出,Opus 4.8 就不是一个单独拎出来很强的模型,它更重要的是在 Claude Code 这套 agent 系统里的核心执行模型。

与此同时,Anthropic 一同发布的几个新能力也很有意思,比如Claude.ai 新增的 effort control ,用户现在可以控制 Claude 在任务上“花多少力气”,有几个选项,低 effort 更快、更省;高 effort 更深、更适合复杂任务,Opus 4.8 默认的是 high effort,假如想要省一些 token,那最好手动切换回低 effort。

5 月模型大混战:全员加速 Agent

整个 5 月,AI 圈几乎是各家厂商各显神通。

OpenAI 继续强化 Codex,展示用 Codex 构建自改进税务智能体;Google 在 I/O 上发布一整套 AI agent 开发工具链;GitHub、Cursor、OpenAI 都在争夺企业级 AI 编程代理的位置;Replit Agent 开始和自动化 QA 结合;Luma Agents 用于规模化生成真实 UGC 广告;阿里云也在推 DataWorks AI 数据智能体和“全天候 AI 劳动力”。

国内模型侧也在继续高频迭代,比如Qwen3.7-Max 强调编程能力,智谱 GLM-5.1 高速版主打 API 速度,MiniCPM5-1B、BitCPM-CANN 继续往端侧、低比特、低成本方向推进,商汤和腾讯混元等也在快速更新迭代。

与此同时,价格战也在悄悄打响。

DeepSeek 再次降价,小米 MiMo 大模型也以极低价格入场,表面上看,这是 API 报价竞争,但实际上还是为了 Agent,因为 Agent 实在是太吃 tokens 了。

如果只是聊天,一次可能只消耗几百到几千 tokens,但 Agent 不一样,它要读上下文、拆任务、写计划、调用工具、执行代码、检查结果、修复错误,有时还要拉起多个 subagents 并行工作。Claude Code 的 dynamic workflows 就是典型例子,官方自己也提醒它 powerful but expensive,会快速消耗大量 tokens。

所以,token 价格战不只是为了让聊天更便宜,而是为了让 Agent 这种高消耗形态跑得起来。所以,就连 Anthropic 也不得不把 fast mode 的价格打到了前代的三分之一,来应对这样的高消耗。



(图源:Anthropic)

看起来,大家只是在按部就班更新模型,但似乎都遗漏了一点,那就是这些模型的核心已经不再是聊天,而是比谁更能进入真实工作流。

过去的大模型竞争,主战场是对话,谁回答得更自然,谁推理更强,谁上下文更长,谁模态更好,现在主战场正在变成 agent。

Agent 竞争的核心不是单次回答,而是连续执行,它要求模型会拆任务、会调用工具、会管理上下文、会处理权限、会控制成本、会复核输出,还要能在复杂环境中长时间不跑偏。

这也是为什么 Opus 4.8 的官方没有强调对话能力,而是把重点放在 agentic coding、computer use、knowledge work、financial analysis。因为 Anthropic 很清楚,未来最值钱的模型调用,不一定发生在聊天窗口里,而是发生在 IDE、终端、浏览器、数据平台、企业后台和各种自动化流程里。



(图源:Anthropic)

从这个角度看,dynamic workflows 可能比 Opus 4.8 本身更重要。因为它把 Claude Code 从“一个 AI 程序员”推向“一支 AI 工程队”。过去你让模型做任务,本质上是一个模型在一个上下文里循环。现在它开始能拆分任务、并行分配子代理、让不同 agent 互相验证,最后再汇总结果。

综合来看,5 月这场模型大混战,不只是“模型更强了”,而是“模型正在被允许做更多事”。

Claude 一夜蜕变成工作流系统

Opus 4.8 虽然在定位上是 Cludue 的旗舰模型,但不会是一次“震撼全场”的模型发布。

它更像 Anthropic 给市场递出的一张路线图,这张路线图里,模型不能只追求更聪明,还要更稳;任务不能只完成一轮对话,还要能持续推进;AI 不能只给出答案,还要能解释过程、复核结果、控制成本,并且把工作流沉淀下来。这些都是未来所有大模型都要关注的点。

于是我们可以看到,Opus 4.8 负责把 Claude 的判断力和长程执行能力往前推一步,effort control 让用户可以在质量、速度和成本之间主动调节,dynamic workflows 则把 Claude Code 从单个 coding agent,推向一个可以拆任务、调度 subagents、并行执行和复核结果的工程协作系统。

Claude 正在变成什么呢?答案已经很明显了,Claude 正在从一个聊天模型,变成一个工程协作系统。

接下来,大模型公司的竞争也会越来越少停留在“谁更会说”,而是把目标放在更可靠地完成复杂任务、更便宜地支撑高频调用,把模型、工具、工作流、安全和成本控制,真正打包成生产力系统。

在这一方向上, Anthropic 已经交出了第一份答卷。

Opus名字来自拉丁语中的“作品”,常用来形容一位作曲家的传世之作(magnum opus,即“最伟大的作品”)。在古典音乐里,Opus 后面跟着编号,代表作曲家最重要的创作。贝多芬的《月光奏鸣曲》是 Op. 27,《命运交响曲》是 Op. 67。这不是随便写的东西,这是呕心沥血的集大成之作。

从引领加速AI产业进入工作流时代的意义来看,Claude Opus 4.8确实堪称一个传世之作。

联系信息


邮箱:xiaosea2@163.com

电话:15733175200

企查查:15733175200

天眼查:15733175200

黄页88:15733175200

顺企网:15733175200

阿里巴巴:15733175200

网址:https://zizun.niushi.cc

© 版权声明
THE END
喜欢就支持一下吧
点赞 0 分享 收藏
评论
所有页面的评论已关闭