AI行业有一个公开的秘密:大部分AI项目赚不回投入的钱。
Gartner的预测很残酷:2026年将有60%的AI项目被放弃。不是因为模型不够好——恰恰相反,模型能力已经远超大多数企业的使用能力——而是因为数据没有准备好被AI消费。
这是一个被严重低估的问题。所有人都在讨论模型、讨论Agent、讨论应用场景,但很少有人讨论:你的数据,Agent读得懂吗?
消费者变了:从人到Agent
过去三十年,数据平台的服务对象是人。数据分析师写SQL、BI分析师做报表、业务人员看仪表盘——人有常识、有上下文、有容错能力。你给我一张报表,某个字段口径变了,我能看出来;两个表JOIN错了,我能发现;数据延迟了半天,我能理解。
Agent不一样。
Agent没有常识,没有上下文,也不会"觉得哪里不对"。你告诉它"查一下上个月的销售额",它会严格按照它理解的口径去查——如果"销售额"在不同表里有不同的定义,如果用户表和订单表的关联字段有歧义,如果某些订单的状态码含义变了但文档没更新,Agent会一本正经地给你一个错误的答案,而且自信满满。
这就是为什么75%的企业已经试点了AI Agent,但只有15%在考虑部署自主Agent。试点的时候,Agent说错了有人兜着;真让它自主决策,谁来为错误的结论买单?
NL2SQL的三个致命陷阱
最典型的例子是NL2SQL(自然语言转SQL),这是目前企业AI应用最火热的场景之一,但也是翻车最多的场景。
第一个陷阱是指标歧义。你问"上个月的收入是多少",Agent怎么知道"收入"指的是GMV、实际营收、还是税后利润?不同部门、不同报表里"收入"的定义可能完全不同。人会追问"你指的哪个收入",Agent直接选一个它最"喜欢"的定义去查。
第二个陷阱是JOIN错乱。企业数据库动辄几百张表,表之间的关联关系错综复杂。一个字段名可能在多张表里出现,但含义不同;一个外键关系可能因为历史原因存在数据不一致。人类分析师踩过几次坑后会记住,但Agent每次都是"第一次"。
第三个陷阱是查询条件随意匹配。"最近30天"是自然日还是工作日?"高价值客户"的阈值是什么?"华北区"包不包括内蒙古?这些在企业里往往是"潜规则"——老员工知道,文档里没写,Agent当然也不知道。
统一语义层:AI时代的新护城河
腾讯云在最近的AI产业应用大会上发布了面向Agent升级的全栈数据平台,核心思路是三层架构:DataBuddy(Agent数据助手)+ WeData(数据治理)+ AI原生大数据底座。其中最关键的概念是"统一语义层"。
什么意思?就是把企业里所有指标的定义、口径、计算逻辑、关联关系全部统一管理起来,形成一个Agent可以直接消费的"数据字典"。Agent不需要自己去猜"收入"是什么意思,统一语义层会告诉它确切的定义、依赖的表、过滤条件、计算方式。
这看起来不性感,但这才是AI真正落地企业的护城河。模型可以换(今天GPT明天Claude后天DeepSeek),但企业的数据治理和语义层建设是需要时间、需要业务理解、需要踩坑积累的。谁先把这层建好了,谁的Agent才能真正跑出ROI。
腾讯云披露的数据:DataBuddy让数据工程重复开发降低了80%,研发效率提升5-10倍。这不是因为模型变聪明了,而是因为数据变"干净"了。
给决策者的建议
如果你正在或计划在企业里推AI项目,先别急着调模型API。先问自己三个问题:
第一,你的核心指标有统一的定义吗?还是每个部门各算各的?
第二,你的数据文档是写给人看的还是写给机器看的?Agent能理解你的表结构和字段含义吗?
第三,如果Agent给了一个错误的数据结论,你有机制发现吗?
这三个问题回答不好,再强的模型也救不了你的AI项目ROI。
明天见。
- InfoQ - 95% AI项目跑不出ROI,腾讯云AI产业应用大会报道
- Gartner - 2026年AI项目放弃率预测
声明:本文为 Dawn Vision 基于公开信息的二次创作与独立分析,标题、观点、行文均为原创,仅供参考。
本文基于 Dawn Vision 认知引擎处理的 4 个源信号生成,经编辑部人工审核。
相关入库笔记:AI项目ROI瓶颈分析 · 统一语义层架构