DeepSeek OCR:上下文压缩的未来或许根本不属于文本领域
AI大模型正面临一个日益棘手的问题:长上下文处理效率低下。 随着上下文窗口越来越大,模型处理信息的代价也水涨船高。Deepseek的想法是:上下文压缩的未来,或许可能在图像。 换句话说,模型或许很快就能直接看见文本,而不是逐字读取文本,从而避免为超长序列支付高昂的代价。 提到多模态, 立刻想到Andrej Karpathy的一段思考。 Karpathy提到,OpenAI在创业初期就捣鼓过很多想法,但可惜顺序搞错了——他们必须先等到大语言模型出现才行。 但即使是现在,时机成熟了吗?Karpathy也不敢100%肯定。他说,多模态能力(比如处理图像、视频、音频)在过去一两年才勉强和LLM整合到一起,而且很多时候还只是像个适配器一样被硬栓上去的。 更糟糕的是,我们还没真正涉足过超长任务周期的领域。 举个例子:一个视频包含的信息量是极其庞大的。Karpathy不确定我们是否能指望把这些信息一股脑儿全塞进上下文窗口,然后它就能奇迹般地搞定一切。他猜测,这个地方至少还需要一两个重大突破。 首发于:https://mp.weixin.qq.com/s/UQlMrwnIg3o_SZYFKQeMvg 超长上下文:通向AGI的拦路虎 Karpathy指出的这个超长上下文问题,正是通向AGI路上必须攻克的大山。 你想想,我们和AI的多轮文字对话,本身就是很长的文本上下文;如果对话里还夹杂着图片和表情包,那就是更复杂的图文长上下文。 为了解决这个记不住、装不下的难题,很多研究都在琢磨怎么压缩上下文,同时尽可能保全原意。 而DeepSeek团队本次从压缩角度出发,选择的切入点:用图像来压缩文本上下文。 他们的见解是:我们能不能利用视觉这个模态,作为一种高效的文本信息压缩介质?一个包含文档文本的单个图像,可以用明显更少的Token代表丰富的信息。这一见解激励他们重新审视视觉-语言模型,侧重于视觉编码器如何增强LLM处理文本信息的效率。 为什么是光学压缩? 为了验证这个想法,OCR(光学字符识别)任务就成了一个完美的试验场。它就像一个天然的压缩-解压缩过程,而且还能用数据来衡量好坏。 这也引出了一个非常关键的研究问题: 一份包含1000个单词的文档,到底最少需要多少个视觉Token才能进行解码? 搞清楚这个问题,对于研究一图胜过千言的真正原理,具有极其重要的意义。 DeepSeek-OCR:用光学压缩挑战上下文极限 他们提出了一个名为 DeepSeek-OCR 的模型,这可以看作是一次用光学二维图像来压缩长上下文的可行性研究。 这个模型由两部分组成:一个叫 DeepEncoder 的编码器(负责压缩),和一个叫 DeepSeek3B-MoE-A570M的解码器(负责解压)。 你可以把 DeepEncoder 想象成一个超级压缩引擎。它的核心任务是: 高压缩率:使劲把信息压扁。 低激活度:在处理高分辨率图片时保持冷静,别太耗电。 可控范围:确保最后产出的视觉Token数量处于最佳范围。 而解码器则负责把这些压缩后的视觉信息解压回原来的文本。 效果怎么样? 当压缩比在 10倍 以内时(例如,一篇1000个单词的文档被压缩成不到100个视觉Token),模型的解码(OCR)准确率高达 97%! 就算狠一点,压到 20倍 的压缩比,准确率也还能保持在 60% 左右。 这展示了巨大的潜力,比如用在历史长上下文压缩上。 揭秘DeepSeek-OCR的发动机 为了实现这个目标,团队需要一个非常特别的视觉编码器 (DeepEncoder),它必须满足几个苛刻条件: 能处理高分辨率图片; 处理高分图时激活度低; 产生的视觉Token要少; 啥分辨率都能吃; 自身参数量还不能太大。 市面上的开源编码器都无法满足,所以他们自己设计了DeepEncoder。 它在架构: 参数量:编码器约3.8亿(380M)参数,主要由 SAM-base(80M)和 CLIP-large(300M)拼接而成。 解码器:采用30亿(3B)参数的MoE(混合专家)架构,在推理时激活5.7亿(570M)参数。 压缩流程:举个例子,一张 的图像进来,先被切成4096个小块(patch token)。这4096个token先经过参数量少的窗口注意力(不费劲),然后被一个卷积模块嗖地一下压缩到256个token,最后再喂给参数量大的全局注意力(因为token少了,也不费劲)。这样就稳稳地控制住了计算开销。 多分辨率支持:它还支持多种分辨率模式。从512x512的微小模式(产生64个token),到1024x1024的基础模式(256个token),它都能处理。甚至还有一种Gundam模式,可以同时看n张局部小图和1张全局大图,专门对付那些超高分辨率的变态输入。 喂什么,怎么炼? 为了训好这个模型,团队准备了复杂多样数据: OCR 1.0 (基础款):3000万页覆盖近100种语言的PDF,300万份Word文档(学公式和表格),2000万张自然场景图。 OCR 2.0 (进阶款):1000万张图表(学着把图转成HTML表格)、500万个化学公式、100万张平面几何图。 通用视觉数据 (开阔视野):占总数据20%,用来保留模型的通用看图能力。 纯文本数据 (学好说话):占10%,确保模型的语言能力不掉队。 训练流程很简单,就两步走: ...