拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强? 原创

拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?

昨天,在WAVE SUMMIT 2025大会上,百度发布了文心大模型X1.1深度思考模型,开放网页端使用和百度智能云千帆大模型平台调用。

继文心大模型4.5系列模型开源之后,百度再次发布闭源模型X1.1。看来百度文心大模型走的是部分开源,部分闭源的路线。

拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?

据百度描述,X1.1不仅超越了DeepSeek R1-0528,还与GPT-5和Gemini 2.5 Pro效果持平。看起来很厉害的样子,我们决定在网页上试一试。

五大工具和意外发现

打开网页版的文心X1.1,因为百度官方新闻稿里没有看到模型用法的具体介绍,不如先问问文心X1.1有哪些工具。

拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?

根据回答,X1.1有5个工具可用:1.联网搜索web_search;2.图像生成image_gen;3.图像理解image_chat;4.代码解释器code_interpreter;5.文件检索file_retrieval。至顶AI实验室会挨个测试一遍。

拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?

意外的是,在它的思考过程中,竟然有一句“要避免提到竞品”。追问下,它仅在思考中显示了竞品包括Openai o1和DeepSeek R1,思考后的回答中还真没有提到具体的竞品名称。

两次回答都像是戴上了测谎仪,嘴过关了,但被思考过程给出卖了。
五大工具测试

通过上一步对话了解了X1.1的工具,接下来就是实测环节了,看看它的智能体工具调用能力如何。

联网搜索web_search
拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?
问到X1.1模型不知道的知识的时候,它会调用web_search工具联网搜索,然后回答。比如我这里问了一个DeepSeek V3.1的发布时间。
图像生成image_gen
因为本人比较喜欢仙侠剧,所以让它画一幅仙侠的图。
发送任务前,我想象会看到一张类似仙剑奇侠传3飞蓬将军在云层上御剑飞行或者景天和雪见坐在门前台阶上看大雪纷飞。因为提示词比较简略,粗糙一点可以理解,但发挥空间比较大。
X1.1调用了image_gen工具,它的构思是“水墨风格的山水背景,远处有云雾缭绕的山峰,近处有古松和仙鹤,画面中有一位身着飘逸长袍的仙人,手持长剑,站在悬崖边,整体画面充满仙侠意境,采用中国传统水墨画技法,笔触流畅,墨色浓淡相宜”。相当于帮我扩展了一下提示词。
结果,我得到下面这张图,更像是李白准备吟诗一首,诗仙算仙侠吗?
拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?
图像理解image_chat
说到作诗那就干脆让它再根据这张图作诗一首,来个看图写诗。模型在思考过程中调用了image_chat工具。
模型观察还是比较仔细的,云雾、山峰、松树、飞鸟、文人这些意向都写进诗里了,对仗也比较工整。
拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?
代码解释器code_interpreter
用一个代码任务来测试一下X1.1的代码能力。任务要求是通过纯前端编程语言模拟超音速飞机突破音障过程的动画。
这个过程没有直接触发代码解释器工具。
X1.1生成的动画中,在空白的蓝天白云中,先是一股粒子从左边喷出,随后一个类似火箭的物体缓缓向右移动进入画面,不久出现一个莫名的圆圈(可能是在模拟音障),最终火箭停留在画面正中间。
拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?
GPT-5生成的动画,左下角标明了当前速度值,右上角标明突破音障的状态(从接近音障到已突破音障),速度值、状态、画面实现了同步更新。缺点是飞机看着没那么像飞机。
拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?
从前端编程的直观结果看,X1.1和GPT-5的差距还是肉眼可见的。
文档检索file_retrieval
拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?
百度网盘用户可能会喜欢的一点是,网页版的X1.1与百度网盘联动起来了。用户可以把自己网盘里的文件传给X1.1,对文档的内容进行提问,省去了中间文件下载再上传的麻烦。
拳打DeepSeek R1,比肩GPT-5,百度文心X1.1真有这么强?
我把网盘里的一份PDF格式的报告交给X1.1解读,还是像模像样的。
至顶AI实验室洞见
作为一个深度思考的智能体模型,X1.1工具调用的准确性尚可。不过工具数量只有5个,而且都是自己的工具。面对复杂的外部工具,比如在MCP和其他智能体中,X1.1是否还能准确调用工具,尚需考证。
工具使用效果上看,联网搜索表现中规中矩,图片生成能力过关,图片理解能力还不错。在给出的任务上,代码能力就算不上最顶尖的了。
从智能体能力来看,X1.1比DeepSeek R1-0528强可能还真不是吹牛,这方面可以和kimi、qwen、claude进一步PK一下。目前DeepSeek R1模型的智能体能力确实急需提升,因此DeepSeek在8月21日发布了DeepSeek V3.1着重了提升智能体能力,为下一代R系列模型做准备。
至于X1.1与GPT-5和Gemini 2.5 Pro效果相当的说法,就见仁见智了。将文心大模型和百度网盘连接,利用好自己的生态优势,这一点还是值得肯定的。
我们很高兴看到国产模型的能力不断提升,相信未来百度文心大模型还会给大家带来更多惊喜。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

09/10

16:37

分享

点赞