就在我们刚刚评测完豆包手机的系统级AI Agent不久,一个重磅消息就炸开了科技圈——智谱AI直接把Open-AutoGLM开源了。这意味着什么?那种"AI帮你操作手机"的黑科技,不再是旗舰机的专属特权,任何一台普通安卓手机都有可能化身AI超级助手。
听起来很炸裂对吧?但先别急着兴奋,这背后的故事远比你想象的复杂。
评测机构:至顶AI实验室
测评时间:2025年12月16日
评测产品:智谱AI Open-AutoGLM
主要参数:基于9B参数规模的大语言模型;集成OCR技术,实现屏幕内容的精准识别;通过ADB调试桥接,模拟触摸、滑动等人机交互;无需APP适配,理论上可操作任何安卓应用
评测主题:智谱AI Open-AutoGLM部署评测
Open-AutoGLM本质上是一个面向智能手机的系统级AI Agent解决方案。与豆包手机内置的Agent不同,它采用了完全开源的策略,让普通开发者也能在自己的设备上部署类似的能力。
从技术架构来看,Open-AutoGLM的核心配置包括:
基础模型:基于9B参数规模的大语言模型
视觉识别:集成OCR技术,实现屏幕内容的精准识别
操作模拟:通过ADB调试桥接,模拟触摸、滑动等人机交互
跨应用调度:无需APP适配,理论上可操作任何安卓应用
简单来说,它能像真人一样看懂屏幕、理解指令,然后自己去点击、滑动,完成你交代的任务。从下单外卖到查询信息,从设置闹钟到回复消息,只要你说得出,它就能做得到。
在实际体验中,我们发现Open-AutoGLM的使用门槛相当高。整个部署流程需要:
这一套流程下来,基本上把普通用户拒之门外。你需要有一定的技术背景,熟悉命令行操作,还得有台性能不错的设备来跑模型。智谱这次的开源,与其说是面向大众的产品,不如说是向技术社区秀了一把肌肉。
在成功部署后,Open-AutoGLM在基础任务上的表现确实令人眼前一亮。它能够:
然而,真正的问题出现在与主流APP的交互上。
这才是整个评测中最核心的发现——Open-AutoGLM和豆包手机面临着同一个无解的困境:AI Agent与APP厂商之间不可调和的矛盾。
当AI Agent尝试操作微信、支付宝、淘宝等超级APP时,系统几乎必然会触发"环境异常"或"登录异常"警告。这不是技术问题,而是商业逻辑的冲突:
数据安全顾虑:APP厂商担心用户数据被第三方AI获取
体验控制权:厂商希望掌控用户在自家APP内的完整体验
商业模式威胁:AI Agent可能绕过广告、推荐等核心变现环节
结果就是,这些占据用户80%使用时长的超级APP,恰恰是AI Agent最难施展的地方。
Open-AutoGLM的开源无疑具有里程碑意义。它证明了:
AI Agent不再是硬件专属,技术本身已经足够成熟。
但它同时也暴露了一个残酷的现实:
AI手机的进化,光靠技术突破远远不够。
系统级AI Agent的未来,不取决于模型有多强、识别有多准、操作有多流畅,而取决于超级Agent和超级APP之间能否找到一个和平共处的商业模式。在这个问题解决之前,无论是官方的豆包手机,还是开源的Open-AutoGLM,都只能在技术圈子里自嗨,难以真正走进千家万户。
或许,真正的破局点在于建立一套标准化的AI Agent接入协议,让APP厂商、手机厂商、AI服务商三方都能从中获益。只有这样,我们才能真正迎来那个"AI替你操作一切"的未来。
而在那之前,Open-AutoGLM更像是一个技术演示——它告诉我们未来可以是什么样,但也提醒我们,距离那个未来,我们还有很长的路要走。
你觉得AI手机的未来该怎么走?超级Agent和超级APP之间的矛盾该如何化解?欢迎在评论区分享你的看法。
好文章,需要你的鼓励
Instagram负责人莫塞里在接受采访时透露,平台正考虑引入长视频内容功能,尽管此前一直专注于短视频。他承认为了吸引优质内容,Instagram可能需要支持长视频格式。此外,Meta最近推出了"您的算法"功能,旨在让用户更好地控制信息流内容。莫塞里承诺未来将提供更多工具,让用户主动塑造个性化内容,但完整实现可能需要2-4年时间。
这项由蚂蚁集团、香港科技大学等机构研究者完成的工作提出了Ditto框架,通过创新的数据生成管道解决了视频编辑领域的数据稀缺问题。研究团队生成了包含一百万个高质量视频编辑样本的Ditto-1M数据集,并基于此训练了Editto模型。该模型在多项评估中显著超越现有方法,实现了更精准的指令遵循和更好的时间一致性,为指令驱动的视频编辑树立了新的技术标杆。
在信息爆炸的时代,AI实验室的研究员们常常需要面对海量的论文、专利文件、论坛发言等各种渠道的信息。传统的查找方式不仅费时费力,还容易遗漏关键内容。那么,有没有一种方式能让AI真正代替人工,完成从找资料到写出稿的全流程工作?
这项由阿里巴巴和中科院联合完成的研究提出了ImagerySearch,一种创新的视频生成方法,能够帮助AI生成更好的创意和想象力十足的视频。研究团队还创建了LDT-Bench,首个专门评估AI在处理奇异场景能力的基准。实验表明,ImagerySearch在处理创意场景时相比现有方法有显著提升,为AI创意内容生成开辟了新的方向。