VLX端侧流式多模态发布：物理AI从“截帧看图”进化到“边看边行动”

Dawn Vision 编辑部 2026.07.01 约 5 分钟阅读 Issue 006

0.06秒。

这是VLX-Flow处理单路视频流的最低延迟。对人类来说，0.06秒大约是一次眨眼时间的三分之一。在这个时间内，模型完成了对新一帧画面的理解、更新对环境的认知、判断是否需要做出反应。

7月1日，Om AI联汇发布VLX系列——全球首个面向物理世界的端侧流式多模态模型。它做了一件此前所有视觉多模态模型都没做到的事：不是“看完一段视频再回答”，而是“边看边理解、必要时主动行动”。

从“截帧看图”到“流式感知”

现有的视频理解模型是怎么工作的？把视频切成一帧一帧的图片，送进模型做离线处理，然后输出一个结果。这就像一个人看世界时每隔几秒睁开一次眼、每次看一张照片，然后闭着眼分析照片——你可以想象，这样感知世界会非常笨拙，无法应对动态变化的环境。

VLX的思路完全不同。它提出了“流式多模态”架构：视觉信息以连续流的方式持续进入模型，通过增量编码和缓存推理机制，模型像人一样持续观察环境，新画面随时吸收，提问瞬间响应。这对应的不是“更好的视频问答体验”，而是AI自主工作能力的质变。

VLX系列由三个模型组成：VLX-Flow负责持续感知（增量编码+缓存推理），VLX-Seek负责精准定位（把坐标生成变成区域检索，不是“猜坐标”而是“选区域”），VLX-Go负责行动执行（把视觉理解直接转化为机器人可执行的运动轨迹，不是输出文字建议）。三者协同，在端侧设备上跑通了“持续感知→精准定位→行动决策”的完整闭环。

模型规格覆盖0.6B到10B参数——不是把云端大模型压缩塞进终端，而是从架构层面为端侧具身智能重新设计。

物理AI的2026年中时刻

年初CES上，黄仁勋在演讲中17次提及“物理AI”，宣告“物理AI的ChatGPT时刻已经来了”。半年过去，这个领域的信号密度确实在爆发。

融资端：前百度自动驾驶与机器人实验室主任杨睿刚博士创办的纽娲机器人，成立仅4个月就完成种子+天使两轮共5000万元融资；苏州大学刘瑞远教授创办的感知纪元，做机器人多模态电子皮肤，获松禾资本千万级天使轮；优艾智合发布具身智能系列新品，目标3年赋能10000个工业现场。Wayve（自动驾驶AI）以85亿美元估值启动8500万美元员工股权回购。上半年国内具身智能领域288起融资事件、超460亿元融资额。

技术端：智元机器人第15000台通用具身机器人精灵G2量产下线；宇树科技从受理到过会仅73天创下科创板纪录。36氪的报道指出，物理AI在VLA模型、世界模型、训练场、本体及商业闭环五个维度都取得了关键进展。

"谁能把物理世界高质量地数字化，谁就掌握了下一阶段机器智能的入口。" —— 乐动机器人在物理AI赛道的判断

但需要冷静。物理AI的“ChatGPT时刻”还没有真正到来。机器人在受控环境（工厂、仓库）中的表现越来越好，但在开放环境中的泛化能力仍然有限。触觉、力觉、运动控制等“身体”层面的技术，比“大脑”（VLA模型）的进展要慢。VLX解决的是“眼睛和大脑”的问题，但机器人还需要“手”和“脚”的成熟。

不过方向是明确的。当AI从屏幕走向物理世界，“流式感知”是一个架构层面的范式革新——它让AI开始像生物一样，用连续的时间维度去理解世界，而不是用离散的截图。这是物理AI从demo走向产品的必经之路。

明天见。

"谁能把物理世界高质量地数字化，谁就掌握了下一阶段机器智能的入口。" —— 乐动机器人在物理AI赛道的判断

明天见。

Sources · 参考来源

声明：本文为 Dawn Vision 基于公开信息的二次创作与独立分析，标题、观点、行文均为原创，仅供参考。

本文基于 Dawn Vision 认知引擎处理的公开信息整理，素材来源：量子位、36氪。

相关入库笔记：VLX · 物理AI · 流式多模态 · 端侧推理 · 具身智能感知

VLX流式多模态物理AI边看边动

从“截帧看图”到“流式感知”

物理AI的2026年中时刻

VLX流式多模态
物理AI边看边动