← Back to Articles
Embodied AI · Robotics · 具身智能 · 机器人
2026.07.01 · Issue 006

VLX流式多模态
物理AI边看边动

Om AI联汇发布全球首个面向物理世界的端侧流式多模态模型VLX,单路延迟最低0.06秒,首次在端侧打通“持续感知→精准定位→行动决策”闭环。黄仁勋CES上17次提及的“物理AI元年”,有了第一个硬核产品。

Dawn Vision 编辑部 2026.07.01 约 5 分钟阅读 Issue 006

0.06秒。

这是VLX-Flow处理单路视频流的最低延迟。对人类来说,0.06秒大约是一次眨眼时间的三分之一。在这个时间内,模型完成了对新一帧画面的理解、更新对环境的认知、判断是否需要做出反应。

7月1日,Om AI联汇发布VLX系列——全球首个面向物理世界的端侧流式多模态模型。它做了一件此前所有视觉多模态模型都没做到的事:不是“看完一段视频再回答”,而是“边看边理解、必要时主动行动”。

从“截帧看图”到“流式感知”

现有的视频理解模型是怎么工作的?把视频切成一帧一帧的图片,送进模型做离线处理,然后输出一个结果。这就像一个人看世界时每隔几秒睁开一次眼、每次看一张照片,然后闭着眼分析照片——你可以想象,这样感知世界会非常笨拙,无法应对动态变化的环境。

VLX的思路完全不同。它提出了“流式多模态”架构:视觉信息以连续流的方式持续进入模型,通过增量编码和缓存推理机制,模型像人一样持续观察环境,新画面随时吸收,提问瞬间响应。这对应的不是“更好的视频问答体验”,而是AI自主工作能力的质变。

VLX系列由三个模型组成:VLX-Flow负责持续感知(增量编码+缓存推理),VLX-Seek负责精准定位(把坐标生成变成区域检索,不是“猜坐标”而是“选区域”),VLX-Go负责行动执行(把视觉理解直接转化为机器人可执行的运动轨迹,不是输出文字建议)。三者协同,在端侧设备上跑通了“持续感知→精准定位→行动决策”的完整闭环。

模型规格覆盖0.6B到10B参数——不是把云端大模型压缩塞进终端,而是从架构层面为端侧具身智能重新设计。

物理AI的2026年中时刻

年初CES上,黄仁勋在演讲中17次提及“物理AI”,宣告“物理AI的ChatGPT时刻已经来了”。半年过去,这个领域的信号密度确实在爆发。

融资端:前百度自动驾驶与机器人实验室主任杨睿刚博士创办的纽娲机器人,成立仅4个月就完成种子+天使两轮共5000万元融资;苏州大学刘瑞远教授创办的感知纪元,做机器人多模态电子皮肤,获松禾资本千万级天使轮;优艾智合发布具身智能系列新品,目标3年赋能10000个工业现场。Wayve(自动驾驶AI)以85亿美元估值启动8500万美元员工股权回购。上半年国内具身智能领域288起融资事件、超460亿元融资额。

技术端:智元机器人第15000台通用具身机器人精灵G2量产下线;宇树科技从受理到过会仅73天创下科创板纪录。36氪的报道指出,物理AI在VLA模型、世界模型、训练场、本体及商业闭环五个维度都取得了关键进展。

"谁能把物理世界高质量地数字化,谁就掌握了下一阶段机器智能的入口。" —— 乐动机器人在物理AI赛道的判断

但需要冷静。物理AI的“ChatGPT时刻”还没有真正到来。机器人在受控环境(工厂、仓库)中的表现越来越好,但在开放环境中的泛化能力仍然有限。触觉、力觉、运动控制等“身体”层面的技术,比“大脑”(VLA模型)的进展要慢。VLX解决的是“眼睛和大脑”的问题,但机器人还需要“手”和“脚”的成熟。

不过方向是明确的。当AI从屏幕走向物理世界,“流式感知”是一个架构层面的范式革新——它让AI开始像生物一样,用连续的时间维度去理解世界,而不是用离散的截图。这是物理AI从demo走向产品的必经之路。


明天见。

"谁能把物理世界高质量地数字化,谁就掌握了下一阶段机器智能的入口。" —— 乐动机器人在物理AI赛道的判断

明天见。

← 上一篇 下一篇 →
Sources · 参考来源

声明:本文为 Dawn Vision 基于公开信息的二次创作与独立分析,标题、观点、行文均为原创,仅供参考。

本文基于 Dawn Vision 认知引擎处理的公开信息整理,素材来源:量子位、36氪。

相关入库笔记:VLX · 物理AI · 流式多模态 · 端侧推理 · 具身智能感知