0.06秒。
这是VLX-Flow处理单路视频流的最低延迟。对人类来说,0.06秒大约是一次眨眼时间的三分之一。在这个时间内,模型完成了对新一帧画面的理解、更新对环境的认知、判断是否需要做出反应。
7月1日,Om AI联汇发布VLX系列——全球首个面向物理世界的端侧流式多模态模型。它做了一件此前所有视觉多模态模型都没做到的事:不是“看完一段视频再回答”,而是“边看边理解、必要时主动行动”。
从“截帧看图”到“流式感知”
现有的视频理解模型是怎么工作的?把视频切成一帧一帧的图片,送进模型做离线处理,然后输出一个结果。这就像一个人看世界时每隔几秒睁开一次眼、每次看一张照片,然后闭着眼分析照片——你可以想象,这样感知世界会非常笨拙,无法应对动态变化的环境。
VLX的思路完全不同。它提出了“流式多模态”架构:视觉信息以连续流的方式持续进入模型,通过增量编码和缓存推理机制,模型像人一样持续观察环境,新画面随时吸收,提问瞬间响应。这对应的不是“更好的视频问答体验”,而是AI自主工作能力的质变。
VLX系列由三个模型组成:VLX-Flow负责持续感知(增量编码+缓存推理),VLX-Seek负责精准定位(把坐标生成变成区域检索,不是“猜坐标”而是“选区域”),VLX-Go负责行动执行(把视觉理解直接转化为机器人可执行的运动轨迹,不是输出文字建议)。三者协同,在端侧设备上跑通了“持续感知→精准定位→行动决策”的完整闭环。
模型规格覆盖0.6B到10B参数——不是把云端大模型压缩塞进终端,而是从架构层面为端侧具身智能重新设计。
物理AI的2026年中时刻
年初CES上,黄仁勋在演讲中17次提及“物理AI”,宣告“物理AI的ChatGPT时刻已经来了”。半年过去,这个领域的信号密度确实在爆发。
融资端:前百度自动驾驶与机器人实验室主任杨睿刚博士创办的纽娲机器人,成立仅4个月就完成种子+天使两轮共5000万元融资;苏州大学刘瑞远教授创办的感知纪元,做机器人多模态电子皮肤,获松禾资本千万级天使轮;优艾智合发布具身智能系列新品,目标3年赋能10000个工业现场。Wayve(自动驾驶AI)以85亿美元估值启动8500万美元员工股权回购。上半年国内具身智能领域288起融资事件、超460亿元融资额。
技术端:智元机器人第15000台通用具身机器人精灵G2量产下线;宇树科技从受理到过会仅73天创下科创板纪录。36氪的报道指出,物理AI在VLA模型、世界模型、训练场、本体及商业闭环五个维度都取得了关键进展。
但需要冷静。物理AI的“ChatGPT时刻”还没有真正到来。机器人在受控环境(工厂、仓库)中的表现越来越好,但在开放环境中的泛化能力仍然有限。触觉、力觉、运动控制等“身体”层面的技术,比“大脑”(VLA模型)的进展要慢。VLX解决的是“眼睛和大脑”的问题,但机器人还需要“手”和“脚”的成熟。
不过方向是明确的。当AI从屏幕走向物理世界,“流式感知”是一个架构层面的范式革新——它让AI开始像生物一样,用连续的时间维度去理解世界,而不是用离散的截图。这是物理AI从demo走向产品的必经之路。
明天见。
明天见。
- 量子位 - Om AI联汇发布VLX:全球首个面向物理世界的端侧流式多模态模型
- 36氪 - 前百度自动驾驶与机器人实验室主任创业做机器人“世界通行模型”
- 36氪 - 苏大教授创业做机器人触觉系统获千万级天使轮
声明:本文为 Dawn Vision 基于公开信息的二次创作与独立分析,标题、观点、行文均为原创,仅供参考。
本文基于 Dawn Vision 认知引擎处理的公开信息整理,素材来源:量子位、36氪。
相关入库笔记:VLX · 物理AI · 流式多模态 · 端侧推理 · 具身智能感知