DeepSeek让AI学会像人一样阅读:一场关于视觉理解的认知革命 原创

DeepSeek让AI学会像人一样阅读:一场关于视觉理解的认知革命

此刻正在阅读的你,眼睛是怎么移动的?

我们的视觉系统非常聪明,不会机械地从左上角一路扫描到右下角,而是会"跳着看",根据内容的重要性和逻辑关系,自动规划出一条最合理的阅读路径。一篇新闻报道中,标题会首先抓住我们的注意力,然后是配图说明,接着才是正文内容。这种看似随意实则充满智慧的阅读方式,正是人类数百万年进化的结晶。

当我们把同样的任务交给AI时,问题就来了。目前几乎所有的视觉理解模型都像是一个刻板的机器人读者,它们只会按照固定的顺序,从左到右、从上到下,逐行扫描图像内容。

这就好比让一个人蒙着眼睛按照事先画好的路线行走,完全无视路况和周围环境。这种一刀切的处理方式在面对简单图片时或许还能凑合,但当遇到复杂的文档、表格、多栏排版时,就会像无头苍蝇一样乱撞,经常把内容的顺序搞得一团糟。

DeepSeek让AI学会像人一样阅读:一场关于视觉理解的认知革命

2026年1月,DeepSeek的研究团队发布了一项令人眼前一亮的研究成果:DeepSeek-OCR 2。他们提出了一种全新的视觉编码器DeepEncoder V2,它能够像人类一样,根据图像的语义内容动态调整"阅读顺序"。简单来说,研究团队教会了AI一项人类与生俱来的能力,用理解来指导观看。

当你拍下一份合同文件交给AI助手处理时,它不再会把页眉和正文混在一起,也不会把表格中的数据错位对应。当企业需要批量处理成千上万份PDF文档时,AI能够像经验丰富的文员一样准确理解每一页的结构布局。这种"会思考的阅读"能力,正是通向真正智能的重要一步。

为什么AI阅读文档总是"犯迷糊"

要理解DeepSeek-OCR 2的创新之处,我们首先需要明白当前AI视觉理解系统的工作原理以及它们面临的困境。

想象你正在参观一座博物馆。传统的AI视觉系统就像是一个严格按照固定路线参观的游客,它会从入口开始,机械地按照地板上的指引箭头,一间一间地经过每个展厅,完全不管哪些展品更重要、哪些展厅之间有主题关联。即使前面是一间无关紧要的储物间,后面紧跟着一个镇馆之宝,它也会按照死板的顺序处理,先花时间研究储物间的扫把,再去看那件稀世珍品。

这种工作方式源于一个根本性的技术限制:现有的视觉语言模型在处理图像时,需要先把二维的图片"拍平"成一维的序列,然后送入语言模型进行理解。这个拍平的过程通常采用所谓的"光栅扫描"顺序,就像老式电视机逐行绘制画面那样,从左上角开始,一行一行地向下推进,直到右下角结束。

这种做法对于普通照片来说问题不大,毕竟一张风景照片或者人物肖像并没有什么特定的阅读顺序。但文档完全不同。一份学术论文可能有标题、摘要、多栏正文、脚注、图表和参考文献;一张报纸版面可能同时包含七八篇不同的报道,每篇都有自己的标题、导语和正文;一份财务报表可能有表格、批注、公式和说明文字交织在一起。在这些场景中,固定的扫描顺序就会造成严重的混乱,把这一栏的上半部分和那一栏的下半部分拼接在一起,或者把表格的行标题和隔了十厘米远的数据错误配对。

研究团队用一个非常形象的例子说明了这个问题:想象你在观察一个螺旋形的图案。人类的眼睛会自然而然地沿着螺旋线移动,每一次注视都因果性地依赖于前一次,因为你看到了这里的曲线走向,所以你知道下一步应该看向哪里。而传统的AI却会傻傻地从上到下逐行扫描,完全破坏了螺旋的连续性,最后看到的只是一堆断断续续的弧线碎片。

正是这种对人类视觉认知机制的深刻洞察,催生了DeepSeek-OCR 2的核心设计理念:能不能让AI像人一样,先"理解"图像的整体结构,然后根据语义内容自动规划出最合理的处理顺序?

用"因果思维"重塑视觉理解

DeepSeek-OCR 2的核心创新在于它引入了"视觉因果流"的概念。这个听起来有点学术的名词,其实可以用一个简单的比喻来理解。

想象你是一位经验丰富的侦探,正在调查一个复杂的案件。现场有很多线索:脚印、指纹、打翻的花瓶、半杯剩余的咖啡、一封未完成的信。一个新手侦探可能会机械地从门口开始,按照房间的物理布局逐一记录每样东西。但一个资深侦探会怎么做?他会首先环顾整个房间,形成一个整体印象,然后根据线索之间的逻辑关系来决定调查顺序,因为咖啡还没凉,所以事情发生不久;因为信写到一半停下,所以主人可能被突然打断;因为脚印指向窗户,所以嫌疑人可能从那里逃离。每一条线索的解读都建立在对前面线索理解的基础上,这就是因果性思维。

DeepEncoder V2正是要赋予AI这种侦探般的因果思维能力。它的工作原理可以分解为这样几个步骤:

首先,系统会像普通视觉编码器一样,让每一个图像小块都能"看到"整张图片的全貌。这就像侦探进入房间后的第一次环顾,让每一个局部信息都有了全局背景。在技术上,这是通过所谓的"双向注意力"机制实现的,每个视觉标记都可以关注所有其他标记,形成对整体画面的理解。

然后,关键的创新来了:系统引入了一组被称为"因果流查询"的特殊标记。你可以把它们想象成一队侦探助手,他们的任务是重新整理现场线索的呈现顺序。第一个助手可以看到所有的原始线索,然后决定"哪条线索应该排在最前面";第二个助手不仅能看到所有原始线索,还能看到第一个助手的决定,然后决定"接下来应该是哪条";以此类推。每个助手的决定都依赖于前面所有助手的工作成果,这就是"因果性"的含义,后面的决策是前面决策的结果。

通过这种机制,原本按照空间位置排列的视觉信息,被重新组织成了按照语义逻辑排列的序列。一份复杂的文档不再是"左上角的像素、然后是旁边的像素……",而变成了"首先是标题、然后是摘要、接着是第一部分的正文……"。这个重新排序的过程发生在信息被送入语言模型之前,所以语言模型接收到的已经是一个有意义的、符合阅读逻辑的序列了。

研究团队在技术实现上做出了一个大胆的决定:他们没有使用传统的CLIP视觉编码器,而是选择用一个小型语言模型来充当视觉编码器的角色。这就好比让一个懂得阅读的人来整理文档,而不是让一个只认识图形的人来做这件事。具体来说,他们使用了Qwen2-0.5B这个5亿参数的语言模型,通过特殊的注意力机制让它同时具备全局感知和因果排序的能力。

精妙的建筑设计

如果把DeepSeek-OCR 2比作一栋建筑,那么它的结构设计可谓匠心独运。整个系统由三个主要部分组成,每个部分都有其特定的功能,环环相扣。

DeepSeek让AI学会像人一样阅读:一场关于视觉理解的认知革命

第一个部分是"视觉分词器",你可以把它理解为这栋建筑的"入口大厅"。当一张图片进入系统时,首先需要经过一番处理才能被后续模块理解。这个分词器采用了一个只有8000万参数的轻量级架构,基于SAM模型和一些卷积层构建而成。它的主要工作是对原始图像进行16倍压缩,也就是说,把原本庞大的图像信息浓缩成更加精简的表示。这种压缩不是简单的"缩小图片",而是提取图像中真正有意义的视觉特征,去掉那些冗余的细节。

想象你在读一本厚厚的小说,视觉分词器的工作就像是先帮你把这本书改写成一个精简版,保留所有重要的情节转折和人物描写,但删去那些无关紧要的环境描述和冗长的对话。这样,后续的阅读就会高效得多。

第二个部分是我们前面重点介绍的DeepEncoder V2,它是这栋建筑的"核心处理中心"。从视觉分词器出来的压缩表示会在这里被重新组织。前半程使用双向注意力让所有视觉标记互相交流,形成全局理解;后半程使用因果注意力让查询标记逐步生成语义化的排列顺序。最终,只有那些因果查询标记的输出会被送往下一个阶段。

关于这个注意力机制的设计,研究团队采用了一种非常聪明的"拼接式"结构。整个注意力矩阵被分成四个区域:左上角是视觉标记之间的全连接(每个都能看到所有其他的);右上角是空白(视觉标记不需要关注查询标记);左下角是查询标记对所有视觉标记的关注;右下角是查询标记之间的因果连接(只能看到前面的,不能看到后面的)。这个设计既保留了视觉理解需要的全局感知能力,又引入了语言模型擅长的因果推理能力。

第三个部分是DeepSeek-MoE解码器,它是整栋建筑的"输出大厅"。这是一个30亿参数的混合专家模型,但实际运行时只有大约5亿参数被激活。它接收经过重新排序的视觉表示,结合用户的提示指令,生成最终的文字输出。由于这项研究主要聚焦于编码器的改进,解码器沿用了之前DeepSeek-OCR的设计,没有做大的改动。

整个流程可以用一个公式简洁地表达:输入图像先经过视觉分词器得到视觉标记,然后这些视觉标记和可学习的查询标记一起送入带有特殊注意力掩码的Transformer层,只保留查询标记的输出送入语言解码器,最终生成文字结果。从数学上看非常清晰优雅,从直觉上理解就是:先压缩、再重排、最后解读。

聪明的"多镜头"策略

处理不同尺寸和分辨率的文档是一个实际应用中的重要挑战。一张名片和一份A3海报显然不能用完全相同的方式处理。DeepSeek-OCR 2采用了一种被称为"多裁剪策略"的方法来应对这个问题。

你可以把这想象成一位摄影师在拍摄一幅壁画。他会先退后几步,拍一张全景照片,把整幅壁画都收入画面;然后他会靠近一些,对准壁画的不同区域分别拍摄特写,捕捉那些细节丰富的部分。最后,把这些照片组合在一起,就既有了整体的空间关系,又有了局部的精细信息。

DeepSeek让AI学会像人一样阅读:一场关于视觉理解的认知革命

DeepSeek-OCR 2的处理方式与此类似。对于每一张输入图像,系统首先会生成一个固定尺寸(1024×1024像素)的"全局视图",对应256个因果查询标记。这个全局视图就像摄影师的全景照片,提供对整体布局的把握。然后,根据图像的实际尺寸,系统可能会额外生成0到6个"局部视图",每个尺寸为768×768像素,对应144个因果查询标记。这些局部视图负责捕捉细节信息。

通过这种设计,系统最终送入语言模型的视觉标记数量在256到1120之间,具体取决于输入图像的复杂程度。值得注意的是,这个1120的上限与Gemini-3 Pro模型使用的最大视觉标记预算相当,但DeepSeek-OCR 2用更少的标记就能达到更好的效果。这就像一位经济高效的旅行者,用更少的行李完成了更精彩的旅程。

为了避免为不同分辨率维护多套查询参数带来的复杂性,研究团队采用了共享查询的设计。所有局部视图使用同一套144个可学习的查询嵌入,全局视图使用一套专属的256个查询嵌入。这种设计既保证了系统的灵活性,又控制了参数规模,体现了工程实现上的精巧考量。

训练一个"会读书"的AI

训练DeepSeek-OCR 2就像培养一个孩子学会阅读一样,需要经历多个循序渐进的阶段。研究团队设计了一个三阶段的训练流程,每个阶段都有明确的目标和侧重点。

第一个阶段是"基础教育",主要目标是让视觉分词器和语言模型风格的编码器掌握基本功:特征提取、标记压缩和标记重排的基础能力。这个阶段使用两种分辨率的数据(768×768和1024×1024),训练了大约4万次迭代,处理了约1亿个图文对样本。视觉分词器继承了之前DeepEncoder的权重,而语言模型编码器则从Qwen2-0.5B初始化。就像一个孩子在这个阶段学会了认字和基本的阅读理解。

第二个阶段是"强化训练",主要目标是进一步增强查询标记的重排能力和视觉知识压缩能力。在这个阶段,视觉分词器被冻结不再更新,而语言模型编码器和语言模型解码器联合优化。两种分辨率的数据也被统一到一个数据加载器中,通过多裁剪策略处理。这个阶段训练了1.5万次迭代。就像孩子开始大量阅读不同类型的书籍,在实践中磨练技能。

第三个阶段是"快速消化",主要目标是让语言模型解码器更好地理解编码器输出的重排序列。在这个阶段,整个DeepEncoder V2都被冻结,只有语言模型解码器的参数在更新。这种设计有两个好处:一是训练速度大大提升(相同全局批次下速度翻倍以上),二是让解码器能够专注于适应编码器产出的新格式数据。这个阶段又训练了2万次迭代。就像孩子已经掌握了阅读技能,现在开始针对考试进行专项训练,进一步提高答题速度和准确率。

在整个训练过程中,数据的质量和多样性至关重要。研究团队使用了与DeepSeek-OCR相同的数据源,包括OCR 1.0、OCR 2.0和通用视觉数据,其中OCR数据占比高达80%。他们还做了两项改进:一是对OCR 1.0数据按内容类型(纯文本、公式、表格)以3:1:1的比例进行更均衡的采样;二是对布局检测的标签进行了精细化处理,合并了语义相似的类别(比如把"图片说明"和"图片标题"统一)。

实验结果:数字背后的故事

任何技术创新最终都要接受实验数据的检验。研究团队选择了OmniDocBench v1.5作为主要的评测基准,这是一个包含1355页文档的综合测试集,涵盖了9大类型的文档,包括杂志、学术论文、研究报告等,同时支持中文和英文两种语言。

DeepSeek让AI学会像人一样阅读:一场关于视觉理解的认知革命

在这个严格的测试中,DeepSeek-OCR 2取得了91.09%的综合得分,在所有参评模型中名列前茅。更值得注意的是,它使用的最大视觉标记数量只有1120,远低于大多数竞争对手的6000甚至7000以上。这就好比在一场马拉松比赛中,有人用更少的能量跑出了更好的成绩,这种效率上的优势对于实际应用来说意义重大。

与前作DeepSeek-OCR相比,新版本在各项指标上都有明显提升。综合得分从87.36%提高到91.09%,提升了3.73个百分点。文本识别的编辑距离(越低越好)从0.073降低到0.048,公式识别的准确率从84.14%跃升到90.31%,表格识别的准确率也有超过2个百分点的提升。

其中最能体现DeepEncoder V2价值的是阅读顺序指标的改善。这个指标衡量的是AI能否正确识别文档内容的阅读顺序,比如在一个三栏排版的页面上,是否能正确地按照第一栏、第二栏、第三栏的顺序输出,而不是把它们混在一起。DeepSeek-OCR 2在这个指标上的编辑距离从0.085降低到0.057,改善幅度达到33%。这个结果直接验证了"视觉因果流"设计的有效性,AI确实学会了根据语义内容来安排阅读顺序。

研究团队还进行了更细致的分类分析,考察不同类型文档的表现。在9种文档类型中,DeepSeek-OCR 2在阅读顺序指标上全面超越前作,没有例外。不过,在某些特定类型上还存在改进空间,比如在新闻报纸类型上,文本识别的编辑距离略有上升(从0.131到0.139)。研究团队分析认为,这可能是因为报纸通常文字密度很高,而视觉标记的上限有所下降导致信息丢失;另外,训练数据中的报纸样本只有约25万个,相对不足。这些发现为未来的改进指明了方向。

在生产环境中的表现同样令人鼓舞。研究团队将DeepSeek-OCR 2部署在两个实际场景中:一个是为DeepSeek大语言模型提供图像识别服务的在线OCR系统,另一个是处理PDF文档生成训练数据的批处理流水线。由于生产环境没有标准答案可以比对,他们主要关注重复率这个指标,即输出文本中重复内容的比例,这是OCR系统常见的问题。结果显示,在在线用户日志图像处理任务中,重复率从6.25%降低到4.17%;在PDF数据生产任务中,重复率从3.69%降低到2.88%。这些实打实的改进说明新架构的逻辑理解能力确实转化为了实际效果。

至顶AI实验室洞见

DeepSeek-OCR 2不仅是一个性能更优的OCR系统,更是一次对视觉理解基本范式的探索。研究团队在论文中提出了两个令人兴奋的未来方向。

第一个方向是"真正的二维推理"。目前的DeepSeek-OCR 2使用了两级级联的一维因果推理结构:编码器通过因果重排实现阅读逻辑推理,解码器通过自回归生成实现视觉任务推理。研究团队认为,把二维理解分解为两个互补的一维推理子任务,可能是实现真正二维推理的突破口。当然,要达到这个目标还有很长的路要走,比如,要让AI能够多次回看和多跳重排视觉内容,可能需要比原始视觉标记序列更长的因果流标记。

第二个方向是"原生多模态"。DeepEncoder V2的成功初步验证了用语言模型架构作为视觉编码器的可行性。更重要的是,这种架构有潜力演变成一个统一的全模态编码器,同一个编码器,共享注意力机制和前馈网络,只需要针对不同模态(图像、语音、文字)配置不同的可学习查询嵌入,就能处理各种类型的输入。这将为实现真正的多模态人工智能奠定基础。

回顾整个研究,DeepSeek-OCR 2最大的贡献可能不在于具体的性能数字,而在于它开辟的新思路:与其强迫AI按照固定的空间顺序处理图像,不如让AI学会自己根据语义内容来规划处理顺序。这种"先理解、再处理"的范式,比简单地增大模型规模或堆叠更多数据,更接近人类智能的本质。

说到底,DeepSeek-OCR 2给我们带来的启示是:真正的智能不在于处理能力有多强,而在于能否像人一样思考问题。当AI开始学会"看什么"和"怎么看"的时候,它就离理解这个世界更近了一步。这项研究虽然聚焦于文档阅读这个看似狭窄的领域,但它探索的问题,如何让机器拥有人类般的感知和理解能力,却是人工智能研究的核心命题之一。我们有理由期待,这条道路上还会有更多令人惊喜的发现。

 

END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

 

Q&A

Q1:DeepSeek-OCR 2和普通OCR软件有什么区别? 

A:最大的区别在于"阅读逻辑"。普通OCR只是机械地从左到右、从上到下识别文字,而DeepSeek-OCR 2能够理解文档的语义结构,自动判断正确的阅读顺序。这意味着它在处理复杂排版(如多栏、表格、混合布局)时会更加准确。

Q2:这项技术会不会让PDF处理变得更便宜? 

A:理论上会。DeepSeek-OCR 2只需要约1120个视觉标记就能达到其他模型需要6000-7000个标记才能达到的效果,这意味着在相同的计算资源下可以处理更多文档,或者用更少的资源达到同样的效果,从而降低成本。

Q3:普通用户什么时候能用上这项技术? 

A:研究团队已经将代码和模型权重开源,开发者可以直接使用。对于普通用户来说,这项技术可能会逐步集成到DeepSeek的各类产品中,比如AI助手的图片理解功能或者文档处理工具,但具体时间表需要关注官方公告。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2026

01/30

15:57

分享

点赞