← Back to Articles
Brief · 资讯

Sora 正式开放
视频生成跨过门槛

不再是 waitlist,不再是 demo——Sora 向 Plus 用户全面开放,国产三强同期火力全开。AI 视频生成在 2026 年夏天正式从玩具变成工具,内容创作的成本曲线被再次砍断。

Dawn Vision 编辑部 2026.06.24 约 5 分钟阅读 Issue 001

等待了两年的靴子,终于落地了。

6 月 25 日,OpenAI 正式向所有 ChatGPT Plus 用户开放 Sora 视频生成功能。不是 waitlist 排队,不是邀请制内测,不是精心挑选的 demo——是每个月付 20 美元的普通用户,打开 ChatGPT 就能用的真正产品。

这一天的意义不亚于当年 ChatGPT 首次开放:它标志着 AI 视频生成正式跨过了"可用门槛"。过去两年里,AI 视频工具一直停留在"生成几秒钟的猎奇片段、社交媒体上看热闹"的阶段。而今天的 Sora,已经是一个可以支撑真实生产流程的工具。

Sora 带来了什么?

正式版 Sora 的参数表,每一个数字都在改写行业认知:

支持 1080p 分辨率、最长 60 秒的视频生成——这已经覆盖了绝大多数短视频广告的时长需求。更关键的是镜头语言控制:用户可以指定推、拉、摇、移、跟等运镜方式,AI 会按照电影语言的逻辑生成流畅的镜头运动,而不是之前那种"画面在动但没有镜头感"的僵硬抖动。

角色一致性是另一个质变。过去 AI 视频最大的痛点之一是"同一个人在镜头里脸一直在变",根本没法用于叙事。正式版 Sora 支持参考图锁定角色,生成的人物在整个 60 秒里保持五官、服装、体态的高度一致——这意味着 AI 终于能拍"有人物的故事"了,而不只是风景和空镜。

此外,Sora 支持文本+图像混合输入:你可以上传一张产品图,让 AI 围绕这张图生成视频;也可以上传分镜草图,让 AI 按照你的视觉风格生成动态画面。这个能力对广告和电商行业是核弹级的——因为它意味着"用 AI 改片"成为可能,而不只是"用 AI 凭空生成"。

国产三强:视频赛道中国更猛

Sora 开放的同一周,中国 AI 视频团队也密集放出大招,节奏几乎像是约好了一样。

快手旗下的可灵 AI 日活突破 1000 万,成为全球日活最高的 AI 视频产品。可灵的优势在于对中文语境和中国用户需求的理解——生成中式场景、亚洲面孔、本土化剧情的质量在很多评测中已经超过 Sora。更重要的是,可灵深度嵌入快手生态,用户生成视频后可以直接发布到快手平台,形成了"生成-分发-变现"的闭环。

字节跳动的即梦 AI 同期宣布支持 4K 分辨率视频生成,是全球首个量产 4K AI 视频的产品。4K 意味着 AI 生成的视频第一次达到了专业播出标准——不仅能发抖音,还能上电视广告、能投户外大屏、能进院线贴片。

Vidu(生数科技)则选择了一条差异化路线:主打实时视频生成。用户在对话框里输入文字,视频几乎同时开始播放,延迟控制在 3 秒以内。这种"实时交互"的体验,把视频生成从"渲染等待"变成了"对话式创作"——想象一下,你跟 AI 说"把光调暗一点""让主角转身""背景换成海边",视频即时变化,就像跟导演说话一样。

一个值得注意的现象是:在大模型文本赛道,中国团队始终处于追赶状态;但在视频生成赛道,中国团队和 OpenAI 的差距极小,甚至在某些维度(日活、4K、实时生成)已经实现反超。原因很简单——中国有全球最大的短视频市场、最成熟的创作者生态、最激烈的内容竞争,这些需求端的压力倒逼视频生成技术以更快的速度迭代。

"文字时代的赢家是 OpenAI,图片时代的赢家是 Midjourney,视频时代的赢家可能还没出现。" —— Dawn Vision

成本曲线被砍断:三个行业的地震

AI 视频跨过可用门槛,意味着什么?最直接的冲击,是内容生产成本的数量级下降。

广告行业:一条 30 秒的品牌产品片,传统流程需要策划、脚本、选角、搭景、拍摄、后期,预算 5 万到 50 万不等,周期一到两周。现在用 Sora 或可灵,一个熟练的创作者在 2-3 小时内可以生成 10 条以上的候选视频,从中筛选优质版本做精修,总成本可以压到 500 块以内——成本下降 100 倍,周期从两周缩到半天。

电商行业:主图视频和详情页视频是电商的标配,但过去拍摄一条产品主图视频需要布景、灯光、模特、剪辑,至少 3 天时间、数千元成本。现在上传一张产品图,AI 在 3 分钟内生成环绕展示、场景代入、使用演示等多种版本的视频,成本几乎为零。淘宝和抖音的商家已经开始大规模用 AI 视频替代传统拍摄。

短视频创作:创作者的工作流正在从"拍剪"变成"说剪"。过去一个短视频创作者的典型工作流是:写脚本、准备道具、拍摄、导入剪辑软件、加字幕、配乐、调色、发布——一条高质量短视频需要 4-8 小时。现在越来越多创作者的流程是:写 Prompt、生成视频素材、AI 自动剪辑加字幕、微调后发布,整个过程压缩到 30 分钟以内。创作者的核心竞争力从"拍摄和剪辑技术"转向"讲故事的能力和审美判断力"。

不是所有人都开心

每一次生产力工具的革命,都会同时制造赢家和输家。AI 视频的普及也不例外。

影视后期行业首当其冲。过去需要一整个后期团队花几周完成的特效镜头、场景延伸、素材修补工作,现在一个人用 AI 工具几小时就能搞定。中低端的后期外包业务正在以肉眼可见的速度萎缩。

动画师面临的冲击更为深远。AI 视频生成本质上是在"学习"海量动画和影视素材后重建画面,2D 动画、Motion Graphics、简单的 3D 动画都在被快速替代。独立动画师赖以生存的"一个人做一支短片"的壁垒正在被抹平——因为现在任何人都能"一个人做一支短片"。

模特行业的地震也已经开始。电商模特、平面模特、甚至部分商业广告模特的工作正在被 AI 生成的虚拟模特替代——不需要付酬劳、不需要档期、不会耍大牌、可以随时调整五官和身材,还能精准对应任何目标人群的审美偏好。

视频是比文本更大的市场

最后说一个更大的判断。

过去三年,AI 行业的聚光灯几乎全部打在大模型对话上——ChatGPT、Claude、Gemini、豆包、通义千问,估值和融资都围绕"AI 对话"展开。但一个被忽略的事实是:今天互联网流量的 70% 以上是视频流量,全球数字广告市场的 60% 以上投放在视频形式上,短视频平台的用户时长是纯文本平台的十倍以上。

视频是比文本更大的市场。AI 视频生成的商业价值,最终可能比大模型对话更大——因为它直接切进的是广告、电商、影视、教育、游戏这些已经被验证过的、体量庞大的付费市场,而不是在创造一个全新的需求。

OpenAI 显然看到了这一点,所以 Sora 没有作为独立产品发布,而是深度集成进 ChatGPT 成为工作流的一部分。中国的可灵、即梦、Vidu 也看到了这一点,所以它们在产品化和商业化上的推进速度比文本模型更快。

2026 年夏天,可能会被后来者视为 AI 视频真正的起点。就像 2022 年底 ChatGPT 的发布不是大模型的终点而是起点一样,Sora 的正式开放也只是视频生成时代的第一声发令枪。接下来的 12 个月里,会有更多的玩家、更多的产品、更多的应用场景涌现,视频创作的门槛会被持续压低,直到"做一条视频"和"写一段文字"一样简单。


明天见。

← 返回文章列表 下一篇 →
Sources · 参考来源

声明:本文为 Dawn Vision 基于公开信息的二次创作与独立分析,标题、观点、行文均为原创,仅供参考,不构成任何投资建议或决策依据。如有侵权请联系删除。

本文基于 Dawn Vision 认知引擎处理的 10 个源信号自动生成,经编辑部人工审核。素材来源包括:OpenAI Sora 发布公告、可灵/即梦/Vidu 产品更新、AI 视频生成技术评测、广告电商行业调研。

相关入库笔记:Sora 正式版能力拆解 · AI 视频生成赛道竞争格局 · 内容生产成本曲线下移 · 视频 vs 文本 AI 商业价值对比