最近DDN还做了一期播客访谈,邀请了DDN产品营销负责人Jason Brown和Google Cloud AI基础设施产品经理Sean Derrington做了一期报告解读。
报告叫《2026年AI基础设施现状报告》,调研了600位美国千人以上企业的IT和业务决策者。
我觉得有一些不错的观点,简单做个归纳。
不过,大家可能阅读时要留意,一来这是面向中型企业以上规模用户,二来是美国市场情况。
一、GPU饥饿:真正的瓶颈在数据层
99%的受访者报告效率低下,54%因基础设施问题延迟甚至取消AI项目。
很多组织的第一反应是"算力不够,买更多GPU"。但Jason指出,"如果GPU在等待数据、处于停滞状态,如果云端和本地之间的数据管道断裂,AI就会卡在实验阶段。" 真正的问题是数据路径太慢,砸更多算力解决不了问题。
65%的受访者表示环境太复杂难以管理,只有38%拥有统一数据平台。基础设施复杂性会给AI投资的ROI增加3个月延迟。
换句话说,大多数AI项目失败不是因为缺模型、缺卡,而是GPU在挨饿。数据喂不进去,算力再强也只能空转。
二、云成为共识选择
97%的受访者认为云对扩展AI至关重要,超过一半认为云是从实验到生产的最快路径。
Sean提到关键洞察:"AI工作负载可能是不可预测的。数据科学家有想法,基础设施团队问'需要多少存储、什么延迟',很多时候答不上来。" 传统数据库工作负载可以说"每TB需要1000 IOPS",但AI工作负载变化太快,很难提前规划。
云的弹性让组织可以按需扩缩资源,获取最新一代加速器,而不必锁定在5年的CapEx模型里。
三、能源:AI的新货币
47%的受访者将能源使用列为最大效率问题,93%正在积极减少AI能源影响。
一个反直觉的事实:65%的AI基础设施处于闲置状态,而闲置设备消耗的电力和冷却几乎与活跃设备一样多。 Jason举例:加州圣克拉拉有三个数据中心无法启用,因为一旦开启就会瘫痪整个电网。
"每瓦产出的token"正在成为新指标。
四、技能缺口与合作
98%的受访者报告AI相关技能缺口,72%依赖第三方专家。Sean建议聚焦核心竞争力,用托管服务弥补能力边界,AI是一项团队运动。
五、可执行建议
Jason:统一数据平台。碎片化是效率低下、能源浪费和项目延迟的根本原因,从数据层入手减少复杂性。
Sean:拥抱云。云的弹性让组织能应对AI工作负载的不可预测性,获得最新一代加速器。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。