← Back to Articles
Focus · 焦点
2026.07.01 · Issue 006

Sonnet 5把Agent
打到$2/MTok

输入$2/百万token、输出$10/百万token(8月31日前促销价),Agent编码能力63.2%追平Opus 4.8的69.2%,知识工作基准反超Opus。当跑一个自主Agent的成本降到此前的几分之一,AI从“能用”正式进入“用得起”的阶段。

Dawn Vision 编辑部 2026.07.01 约 10 分钟阅读 Issue 006

$2。

这是Claude Sonnet 5每百万输入token的定价。输出token $10/百万(8月31日前促销价),之后恢复到$3/$15。作为对比,Opus 4.8的价格是输入$5、输出$25——Sonnet 5的输入成本是Opus的40%,输出成本是Opus的40%-60%

价格不是重点,重点是它能做什么。Agent编码基准63.2%,逼近Opus 4.8的69.2%;知识工作基准上,Sonnet 5甚至微幅反超Opus 4.8。Zapier高级工程师Daniel Shepard的测试反馈是:“我们交给它一个两部分任务——更新Salesforce客户等级、给企业联系人发上线公告——它端到端完成了。以前这种任务会中途卡住。日常自动化?无脑选它。”

6月30日,Anthropic发布Claude Sonnet 5。同一天,美国商务部正式解除对Mythos 5和Fable 5的出口管制,全球用户7月1日起恢复访问。这两件事撞在同一天不是巧合——它们共同指向一个判断:AI Agent的竞争,正式从“谁更聪明”转向“谁更便宜、更可靠、更可规模化部署”。

Sonnet 5到底升级了什么

先看硬数据。

相比上一代Sonnet 4.6(今年2月发布),Sonnet 5在Agent能力上的提升是跨代的:Agent编码从58.1%跃升到63.2%,工具使用、推理、知识工作全面进步。更重要的是,它学会了“自我检查”——Anthropic在发布中提到,测试者反馈Sonnet 5会在没有被明确要求的情况下,主动检查自己的输出是否正确。Rust工程师Neel Chotai分享了一个案例:“我让Sonnet 5调查一个bug。它主动写了复现测试、实现了修复,然后stash掉修复代码确认bug确实会复现。一口气做完。”

这种“自主完成多步骤任务且不自欺欺人”的能力,此前只有Opus级别的模型才能稳定做到。而Opus 4.8的价格是Sonnet 5促销价的2.5倍。

安全层面也有进步。Sonnet 5在恶意请求拒绝、prompt注入攻击防御、幻觉率、阿谀奉承率上全面优于Sonnet 4.6。但Anthropic也明确承认:在网络安全能力上,Sonnet 5远不如Opus和Mythos——它在Firefox漏洞利用测试中完全无法生成有效exploit(成功率0%),部分成功率也仅比Sonnet 4.6略高。这也是为什么Anthropic给Sonnet 5默认启用了网络安全防护措施,但防护级别低于Mythos/Fable。

一个值得注意的细节:Sonnet 5使用了更新的tokenizer,相同文本可能被切分成更多token。这意味着实际成本可能比表面数字略高——但即便考虑tokenizer变化,Sonnet 5的性价比仍然是当前市场上最具竞争力的。

"以前需要Opus才能完成的多步骤Agent任务,现在Sonnet 5以40%的成本就能做到。这不是降价,这是Agent能力的民主化。" —— 一位AI基础设施创业者的判断

为什么平价Agent是一个产业拐点

理解Sonnet 5的意义,需要把它放在更大的产业背景下。

2026年上半年,AI行业有一个共识在形成:大模型的“聊天”功能已经商品化,真正的价值在Agent——能自主规划、调用工具、完成多步骤任务的AI系统。OpenAI的GPT-5.6 Sol主打多Agent协作,Google的Gemini 3.5 Flash主打“从聊天机器人到Agent工具”的转型,三家前沿公司的竞争焦点完全一致。

但Agent有一个致命问题:贵。一个自主完成复杂任务的Agent,可能消耗数十万甚至上百万token。在Opus定价下($5/$25),一个重度Agent任务可能花费几美元到几十美元。对个人开发者来说这是尝鲜成本,对企业来说这是规模化部署的拦路虎。当你想让Agent处理一万个客户工单、自动审查一千个PR、批量更新CRM数据时,token成本就是一个必须精算的账本。

Sonnet 5的$2/$10定价,把这个账本改写了。假设一个Agent任务平均消耗50万输入token和10万输出token,用Opus 4.8的成本是$2.5+$2.5=$5;用Sonnet 5促销价的成本是$1+$1=$2;用9月后的标准价是$1.5+$1.5=$3。成本直接腰斩。对于每天运行数千个Agent任务的企业来说,这意味着每月节省数万美元的API账单。

这不仅仅是一个模型的发布,这是Agent经济模型的一次重置。

同一天发生的另一件事:基础设施在跟上

Sonnet 5不是孤例。6月30日到7月1日这48小时内,Agent生态的多个环节同时传来信号,指向同一个方向:Agent正在从“demo”走向“基础设施”。

X推出官方MCP服务器。马斯克旗下的社交平台正式上线Hosted MCP Server,让Claude、Cursor、Grok Build等MCP兼容应用可以直接通过用户授权访问X平台数据。这不是什么新功能——X的API早就可以搜索、读帖、查用户——但官方MCP服务器把集成成本降到了零。开发者不需要自己搭建、维护MCP服务器,不需要处理认证,开箱即用。X加入了GitHub、Slack、Notion、Stripe、Salesforce的行列,MCP正在从一个开源协议变成AI工具互联的事实标准。值得注意的是,X明确表示MCP不支持Write API——你不能用它自动发帖,但可以读取和分析。这是一个谨慎但明确的开放信号。

Amazon投入10亿美元成立Forward Deployed Engineer(FDE)组织。AWS将派遣工程师嵌入企业客户,帮助部署定制化Agent系统。这不是新鲜事——Palantir首创的FDE模型,OpenAI和Anthropic此前分别成立了40亿美元和15亿美元的FDE合资公司——但Amazon的入场意味着云巨头正式把Agent部署当成了核心服务,而不仅仅是AI实验室的增值服务。AWS VP Francessca Vasquez的表述很明确:“客户离开FDE部署时,不仅获得新系统,还获得持久的AI技能和工作流。”换句话说,Amazon在教企业怎么自己跑Agent。

Etched拿下10亿美元订单,估值50亿美元。这家2022年成立的AI芯片公司(两位哈佛辍学的Thiel奖金得主创办),已经获得包括Andrej Karpathy、Geoffrey Hinton、李飞飞、Peter Thiel在内的投资人背书,累计融资8亿美元。他们专门做AI推理ASIC芯片——不是训练,是推理。当Agent大规模部署,推理成本是最大的支出项。Etched的Sohu芯片主打“前沿推理集群”,承诺比GPU更快、更便宜、更省电。10亿美元合同在手,说明推理芯片的市场需求已经从“预期”变成了“采购订单”。

Agent平价时代的竞争格局

Sonnet 5发布后,Agent模型市场的格局变得清晰了。

高端市场(Opus 4.8 / GPT-5.5 / Mythos / Gemini Pro):最强能力,最高价格,适合最复杂的任务。但Mythos的出口管制风波证明,最强模型往往伴随最强监管。Opus 4.8定价$5/$25,主要面向对准确性要求极高、对成本不敏感的场景(网络安全、深度研究、复杂代码审查)。

中端市场(Sonnet 5 / GPT-5.6 Sol / Gemini 3.5 Flash):这是Agent部署的主战场。Sonnet 5促销价$2/$10,Gemini 3.5 Flash更便宜(Google一直用低价策略争夺市场份额),GPT-5.6 Sol目前还在受控预览阶段。这个价位带的模型,能力足以完成80%以上的Agent任务,成本只有高端模型的几分之一。谁在中端市场建立成本-可靠性的最优平衡,谁就能赢得企业Agent部署的最大蛋糕。

应用层垂直整合趋势加速。就在Sonnet 5发布的前一天,Wix旗下的vibe coding平台Base44宣布推出自研模型Base1。这家一年前被Wix以8000万美元收购时只有8个人的公司,如今ARR突破1亿美元,决定不依赖外部前沿模型,用“平台上数千万真实用户交互数据”训练自己的垂直模型。Lovable(ARR 5亿美元,同样是vibe coding赛道)仍然依赖外部LLM,但Base44的选择代表了一个趋势:当应用层公司达到一定规模,自研模型或微调模型的ROI开始转正。Headline VC合伙人Jonathan Userovici的观察是:“企业客户开始问——我们真的需要在所有场景用最新模型吗?答案越来越多是‘不需要’。”

这对Anthropic和OpenAI意味着什么?意味着中端模型的“量”比高端模型的“价”更重要。当越来越多的应用场景跑在Sonnet 5而不是Opus 4.8上,Anthropic的收入结构会发生变化——从少数客户付高价,变成大量客户付中价。这是一个更健康、更可防御的商业模式。

"模型在进步,但它们将保持通用性。垂直专精才是应用层的护城河。" —— Base44创始人 Maor Shlomo

写在Agent平价时代的门槛上

站在2026年7月1日这个时间点回望,AI Agent的发展速度比大多数人预期的要快。

一年前,能稳定自主完成多步骤任务的模型还屈指可数;半年前,Agent还是“高端功能”的代名词;今天,Sonnet 5把Agent能力打到了$2/MTok,MCP生态在加速扩张,Amazon在帮企业部署Agent,X在开放Agent接入,ASIC推理芯片公司在拿10亿美元订单。Agent不再是“未来会怎样”的概念,而是“现在怎么用”的工程问题。

但也需要冷静。Sonnet 5的自我检查能力进步了,但Agent的可靠性问题没有根本解决——它仍然会在长任务中偏离方向,仍然会在遇到模糊指令时做出错误假设,仍然无法完全替代人类的判断。Lovable联合创始人Fabian Hedin说的那句话值得记住:“一个知道什么时候该说不的模型,和一个知道怎么构建的模型同样重要。”

成本的门槛被击穿了,但信任的门槛还在。

不过这一次,AI行业有理由比过去任何时候都更乐观。因为当一个东西足够便宜,experimentation的成本就趋近于零——无数开发者和企业会去试、去错、去找到真正创造价值的Agent应用场景。下一个AI杀手级应用,很可能不是某个大公司发布的宏大产品,而是一个小团队用Sonnet 5加MCP、在一个月内跑通的垂直场景。

Agent平价时代,真正的竞争才刚刚开始。


明天见。

"以前需要Opus才能完成的多步骤Agent任务,现在Sonnet 5以40%的成本就能做到。这不是降价,这是Agent能力的民主化。" —— 一位AI基础设施创业者的判断

明天见。

创刊号 下一篇 →
Sources · 参考来源

声明:本文为 Dawn Vision 基于公开信息的二次创作与独立分析,标题、观点、行文均为原创,仅供参考,不构成任何投资建议或决策依据。如有侵权请联系删除。

本文基于 Dawn Vision 认知引擎处理的 73 个源信号自动生成,经编辑部人工审核。素材来源:Anthropic官方博客、TechCrunch、Hacker News、The Verge、量子位、36氪。

相关入库笔记:Claude Sonnet 5 · Agent平价 · MCP生态 · 推理芯片 · 企业FDE