六月模型军备赛：GPT-5.6、Claude 4.8、Gemini 3.5齐发

Dawn Vision 编辑部 2026.06.25 约 6 分钟阅读 Issue 002

2026 年 6 月，AI 实验室像是约好了一样。

OpenAI、Google、Anthropic 三家顶级实验室罕见地选择了同一个时间窗口发布旗舰模型：Claude Sonnet/Opus 4.8 已上线，GPT-5.6 即将全面开放（上下文从 5.5 的 100 万跃升到 150 万 Token），Gemini 3.5 Pro 推理准确率提升 35%。上一次这么密集的发布，还要追溯到 2023 年 GPT-4 刚发布的时候——但那时候只有一个玩家，这次是三家同时出牌。

三家旗舰，各有杀招

先看成绩单：Claude Opus 4.8 以 76.4 分的 ScienceQA 成绩登顶科学推理王座。这是一个很有意思的信号——Anthropic 选择在"严谨性"这个维度建立护城河，而不是拼上下文长度或者多模态能力。对于需要写论文、做研究、分析复杂数据的用户来说，Claude 正在成为首选。

GPT-5.6 的杀手锏是上下文窗口：150 万 Token。这是什么概念？你可以把一整套《红楼梦》+《三国演义》+《水浒传》+《西游记》塞进去，还有余量。对于需要处理超长文档、分析整个代码库、阅读整本财报的场景，这是质的飞跃。

Gemini 3.5 Pro 则在多模态推理上继续领跑——毕竟谷歌搜索+YouTube+安卓的生态数据，是另外两家短期内难以复制的优势。视频理解、实时翻译、跨模态推理，Gemini 仍然是地表最强。

"当三家都在同一个月发布旗舰，说明模型能力的差距正在以周为单位缩短。" —— AI 行业分析师

开源阵营：战火同样激烈

闭源打得火热，开源也没闲着。

DeepSeek V4、Qwen3 全家桶、Llama 4、Gemma 4 轮番上阵。国产模型这边，智谱 GLM-5.2 在代码能力上超越多款海外主流模型，智谱港股市值突破万亿港元——上市半年涨了 18 倍。

更值得关注的是阿里通义千问发布的 Qwen-AgentWorld——全球首款原生语言世界模型。单一底座兼容代码终端、网页、手机、桌面 OS 等七大交互环境，多环境协同任务得分超越了 GPT-5.4 和 Claude Opus。这意味着什么？意味着国产模型不再只是"跟随者"，在 Agent 原生交互这个前沿赛道上，中国团队已经跑到了前面。

还有一个出人意料的玩家：Cursor。这家以 AI IDE 闻名的公司，在 Compile 开发者大会上发布了从零自研的通用大模型——不是基于开源基座微调，是真的从零训练。由 SpaceX 提供 GPU 集群支撑训练，能力从代码生成扩展到了文档分析、项目统筹等通用任务。当一个 IDE 公司开始自研通用大模型，说明"模型即产品"的时代已经到来。

军备赛的终局是什么？

但模型越来越强，用户的感知却越来越弱。

GPT-4 发布时，全世界为之震动。GPT-5 发布时，大家觉得"嗯，确实变强了"。到了 GPT-5.6，普通用户可能根本说不出来它和 5.5 有什么区别。模型能力的边际收益正在递减——就像手机芯片从 3nm 进化到 2nm，参数党很兴奋，但普通用户刷抖音还是一样流畅。

真正的竞争正在从"模型有多强"转向"你能用模型做什么"。MCP 协议、Agent 编排、工作流集成、垂直场景落地——这些"脏活累活"正在成为新的护城河。一个用着 Claude 3.5 但精通 Prompt Engineering 和 Agent 编排的人，可能比一个用着 GPT-5.6 但只会聊天的人效率高十倍。

这也是为什么 Dawn Vision 反复强调：不要纠结哪个模型"最聪明"，要关注你的工作流有没有被 AI 重构。模型是工具，工具再锋利，不会用也是白搭。

六月之后，看点是什么？

这场军备赛还远没有结束。下半年值得关注的几个节点：

一是多模态的真正融合——不是文字配图片，而是模型能像人一样在视觉、听觉、文字之间无缝切换理解。二是 Agent 能力的标准化——当所有模型都能调用工具，谁的 Agent 更可靠、更可控将成为关键。三是端侧模型的爆发——手机、PC、IoT 设备上运行的小模型，可能会重新定义 AI 的使用场景。

但对于普通用户来说，最好的消息是：竞争越激烈，价格越便宜。当三家顶级实验室和无数开源模型打得头破血流，最终受益的是每一个用 AI 的人。

模型会越来越强，价格会越来越低，门槛会越来越平。你需要做的，就是别在这场军备赛里当观众——下场用起来。

明天见。

← 返回文章列表下一篇 →

Sources · 参考来源

OpenAI 官方 - GPT-5.6 发布信息与技术规格
Anthropic 官方 - Claude Opus 4.8 / Sonnet 4.8 发布公告
Google AI Blog - Gemini 3.5 Pro 发布与多模态能力升级
Hugging Face Open LLM Leaderboard - 开源模型能力榜单
Qwen 官方博客 - Qwen-AgentWorld 原生语言世界模型技术报告

声明：本文为 Dawn Vision 基于公开信息的二次创作与独立分析，标题、观点、行文均为原创，仅供参考，不构成任何投资建议或决策依据。如有侵权请联系删除。

本文基于 Dawn Vision 认知引擎处理的 12 个源信号自动生成，经编辑部人工审核。素材来源包括：各模型发布信息、HuggingFace 榜单、智谱市值数据、Qwen-AgentWorld 技术报告、Cursor Compile 大会。

相关入库笔记：2026 年中模型能力对比 · 开源模型生态全景 · 国产大模型突围路径