← Back to Articles
Brief · 资讯

六月模型
军备赛

GPT-5.6、Claude 4.8、Gemini 3.5 Pro 罕见同一时间窗口发布旗舰模型,150万Token上下文、科学推理登顶、国产模型市值破万亿——史上最密集的模型军备赛正在上演。

Dawn Vision 编辑部 2026.06.25 约 6 分钟阅读 Issue 002

2026 年 6 月,AI 实验室像是约好了一样。

OpenAI、Google、Anthropic 三家顶级实验室罕见地选择了同一个时间窗口发布旗舰模型:Claude Sonnet/Opus 4.8 已上线,GPT-5.6 即将全面开放(上下文从 5.5 的 100 万跃升到 150 万 Token),Gemini 3.5 Pro 推理准确率提升 35%。上一次这么密集的发布,还要追溯到 2023 年 GPT-4 刚发布的时候——但那时候只有一个玩家,这次是三家同时出牌。

三家旗舰,各有杀招

先看成绩单:Claude Opus 4.8 以 76.4 分的 ScienceQA 成绩登顶科学推理王座。这是一个很有意思的信号——Anthropic 选择在"严谨性"这个维度建立护城河,而不是拼上下文长度或者多模态能力。对于需要写论文、做研究、分析复杂数据的用户来说,Claude 正在成为首选。

GPT-5.6 的杀手锏是上下文窗口:150 万 Token。这是什么概念?你可以把一整套《红楼梦》+《三国演义》+《水浒传》+《西游记》塞进去,还有余量。对于需要处理超长文档、分析整个代码库、阅读整本财报的场景,这是质的飞跃。

Gemini 3.5 Pro 则在多模态推理上继续领跑——毕竟谷歌搜索+YouTube+安卓的生态数据,是另外两家短期内难以复制的优势。视频理解、实时翻译、跨模态推理,Gemini 仍然是地表最强。

"当三家都在同一个月发布旗舰,说明模型能力的差距正在以周为单位缩短。" —— AI 行业分析师

开源阵营:战火同样激烈

闭源打得火热,开源也没闲着。

DeepSeek V4、Qwen3 全家桶、Llama 4、Gemma 4 轮番上阵。国产模型这边,智谱 GLM-5.2 在代码能力上超越多款海外主流模型,智谱港股市值突破万亿港元——上市半年涨了 18 倍。

更值得关注的是阿里通义千问发布的 Qwen-AgentWorld——全球首款原生语言世界模型。单一底座兼容代码终端、网页、手机、桌面 OS 等七大交互环境,多环境协同任务得分超越了 GPT-5.4 和 Claude Opus。这意味着什么?意味着国产模型不再只是"跟随者",在 Agent 原生交互这个前沿赛道上,中国团队已经跑到了前面。

还有一个出人意料的玩家:Cursor。这家以 AI IDE 闻名的公司,在 Compile 开发者大会上发布了从零自研的通用大模型——不是基于开源基座微调,是真的从零训练。由 SpaceX 提供 GPU 集群支撑训练,能力从代码生成扩展到了文档分析、项目统筹等通用任务。当一个 IDE 公司开始自研通用大模型,说明"模型即产品"的时代已经到来。

军备赛的终局是什么?

但模型越来越强,用户的感知却越来越弱。

GPT-4 发布时,全世界为之震动。GPT-5 发布时,大家觉得"嗯,确实变强了"。到了 GPT-5.6,普通用户可能根本说不出来它和 5.5 有什么区别。模型能力的边际收益正在递减——就像手机芯片从 3nm 进化到 2nm,参数党很兴奋,但普通用户刷抖音还是一样流畅。

真正的竞争正在从"模型有多强"转向"你能用模型做什么"。MCP 协议、Agent 编排、工作流集成、垂直场景落地——这些"脏活累活"正在成为新的护城河。一个用着 Claude 3.5 但精通 Prompt Engineering 和 Agent 编排的人,可能比一个用着 GPT-5.6 但只会聊天的人效率高十倍。

这也是为什么 Dawn Vision 反复强调:不要纠结哪个模型"最聪明",要关注你的工作流有没有被 AI 重构。模型是工具,工具再锋利,不会用也是白搭。

六月之后,看点是什么?

这场军备赛还远没有结束。下半年值得关注的几个节点:

一是多模态的真正融合——不是文字配图片,而是模型能像人一样在视觉、听觉、文字之间无缝切换理解。二是 Agent 能力的标准化——当所有模型都能调用工具,谁的 Agent 更可靠、更可控将成为关键。三是端侧模型的爆发——手机、PC、IoT 设备上运行的小模型,可能会重新定义 AI 的使用场景。

但对于普通用户来说,最好的消息是:竞争越激烈,价格越便宜。当三家顶级实验室和无数开源模型打得头破血流,最终受益的是每一个用 AI 的人。

模型会越来越强,价格会越来越低,门槛会越来越平。你需要做的,就是别在这场军备赛里当观众——下场用起来。


明天见。

← 返回文章列表 下一篇 →
Sources · 参考来源

声明:本文为 Dawn Vision 基于公开信息的二次创作与独立分析,标题、观点、行文均为原创,仅供参考,不构成任何投资建议或决策依据。如有侵权请联系删除。

本文基于 Dawn Vision 认知引擎处理的 12 个源信号自动生成,经编辑部人工审核。素材来源包括:各模型发布信息、HuggingFace 榜单、智谱市值数据、Qwen-AgentWorld 技术报告、Cursor Compile 大会。

相关入库笔记:2026 年中模型能力对比 · 开源模型生态全景 · 国产大模型突围路径