AI大模型正面临一个日益棘手的问题:长上下文处理效率低下。
随着上下文窗口越来越大,模型处理信息的代价也水涨船高。Deepseek的想法是:上下文压缩的未来,或许可能在图像。
换句话说,模型或许很快就能直接看见文本,而不是逐字读取文本,从而避免为超长序列支付高昂的代价。
提到多模态, 立刻想到Andrej Karpathy的一段思考。
Karpathy提到,OpenAI在创业初期就捣鼓过很多想法,但可惜顺序搞错了——他们必须先等到大语言模型出现才行。
但即使是现在,时机成熟了吗?Karpathy也不敢100%肯定。他说,多模态能力(比如处理图像、视频、音频)在过去一两年才勉强和LLM整合到一起,而且很多时候还只是像个适配器一样被硬栓上去的。
更糟糕的是,我们还没真正涉足过超长任务周期的领域。
举个例子:一个视频包含的信息量是极其庞大的。Karpathy不确定我们是否能指望把这些信息一股脑儿全塞进上下文窗口,然后它就能奇迹般地搞定一切。他猜测,这个地方至少还需要一两个重大突破。
首发于:https://mp.weixin.qq.com/s/UQlMrwnIg3o_SZYFKQeMvg
超长上下文:通向AGI的拦路虎
Karpathy指出的这个超长上下文问题,正是通向AGI路上必须攻克的大山。
你想想,我们和AI的多轮文字对话,本身就是很长的文本上下文;如果对话里还夹杂着图片和表情包,那就是更复杂的图文长上下文。
为了解决这个记不住、装不下的难题,很多研究都在琢磨怎么压缩上下文,同时尽可能保全原意。
而DeepSeek团队本次从压缩角度出发,选择的切入点:用图像来压缩文本上下文。
他们的见解是:我们能不能利用视觉这个模态,作为一种高效的文本信息压缩介质?一个包含文档文本的单个图像,可以用明显更少的Token代表丰富的信息。这一见解激励他们重新审视视觉-语言模型,侧重于视觉编码器如何增强LLM处理文本信息的效率。
为什么是光学压缩?
为了验证这个想法,OCR(光学字符识别)任务就成了一个完美的试验场。它就像一个天然的压缩-解压缩过程,而且还能用数据来衡量好坏。
这也引出了一个非常关键的研究问题:
一份包含1000个单词的文档,到底最少需要多少个视觉Token才能进行解码?
搞清楚这个问题,对于研究一图胜过千言的真正原理,具有极其重要的意义。
DeepSeek-OCR:用光学压缩挑战上下文极限
他们提出了一个名为 DeepSeek-OCR 的模型,这可以看作是一次用光学二维图像来压缩长上下文的可行性研究。
这个模型由两部分组成:一个叫 DeepEncoder 的编码器(负责压缩),和一个叫 DeepSeek3B-MoE-A570M的解码器(负责解压)。
你可以把 DeepEncoder 想象成一个超级压缩引擎。它的核心任务是:
- 高压缩率:使劲把信息压扁。
- 低激活度:在处理高分辨率图片时保持冷静,别太耗电。
- 可控范围:确保最后产出的视觉Token数量处于最佳范围。
而解码器则负责把这些压缩后的视觉信息解压回原来的文本。
效果怎么样?
- 当压缩比在 10倍 以内时(例如,一篇1000个单词的文档被压缩成不到100个视觉Token),模型的解码(OCR)准确率高达 97%!
- 就算狠一点,压到 20倍 的压缩比,准确率也还能保持在 60% 左右。
这展示了巨大的潜力,比如用在历史长上下文压缩上。
揭秘DeepSeek-OCR的发动机
为了实现这个目标,团队需要一个非常特别的视觉编码器 (DeepEncoder),它必须满足几个苛刻条件:
- 能处理高分辨率图片;
- 处理高分图时激活度低;
- 产生的视觉Token要少;
- 啥分辨率都能吃;
- 自身参数量还不能太大。
市面上的开源编码器都无法满足,所以他们自己设计了DeepEncoder。
它在架构:
- 参数量:编码器约3.8亿(380M)参数,主要由 SAM-base(80M)和 CLIP-large(300M)拼接而成。
- 解码器:采用30亿(3B)参数的MoE(混合专家)架构,在推理时激活5.7亿(570M)参数。
- 压缩流程:举个例子,一张 的图像进来,先被切成4096个小块(patch token)。这4096个token先经过参数量少的窗口注意力(不费劲),然后被一个卷积模块嗖地一下压缩到256个token,最后再喂给参数量大的全局注意力(因为token少了,也不费劲)。这样就稳稳地控制住了计算开销。
- 多分辨率支持:它还支持多种分辨率模式。从512x512的微小模式(产生64个token),到1024x1024的基础模式(256个token),它都能处理。甚至还有一种Gundam模式,可以同时看n张局部小图和1张全局大图,专门对付那些超高分辨率的变态输入。
喂什么,怎么炼?
为了训好这个模型,团队准备了复杂多样数据:
- OCR 1.0 (基础款):3000万页覆盖近100种语言的PDF,300万份Word文档(学公式和表格),2000万张自然场景图。
- OCR 2.0 (进阶款):1000万张图表(学着把图转成HTML表格)、500万个化学公式、100万张平面几何图。
- 通用视觉数据 (开阔视野):占总数据20%,用来保留模型的通用看图能力。
- 纯文本数据 (学好说话):占10%,确保模型的语言能力不掉队。
训练流程很简单,就两步走:
- 第一步:单独训练编码器(DeepEncoder)。
- 第二步:把训练好的编码器和解码器合体,用上面所有的数据来训练完整的DeepSeek-OCR模型。
通向无限上下文和生物遗忘
这项工作的真正意义,是对视觉-文本压缩边界的初步探索。
结果令人鼓舞:在10倍压缩比下,实现了近乎无损(97%)的OCR压缩;在20倍压缩下,仍保持60%的准确率。
最妙的是,这种方法几乎不会带来任何额外开销,因为它完全可以利用多模态系统本身就需要的那套视觉基础设施。
研究团队最后提出了一个极富想象力的未来应用:
在多轮对话中,我们可以把k轮之前的对话历史,全部进行光学处理(即渲染成一张图片),这样一下就能实现10倍的压缩效率。
对于更早的上下文,我们可以逐步缩小渲染图像的尺寸,以进一步减少Token消耗。
这一灵感来源于人类记忆随时间衰退与视觉感知随空间距离退化之间的自然相似性。
人类的记忆会随时间衰退,视觉感知会随空间距离退化——两者都表现出渐进式的信息丢失。
通过这种光学压缩方法,AI可以实现一种记忆衰减:近期的信息(分辨率高)保持高保真度,而久远的记忆(分辨率低)则因为压缩比增加而自然褪色。
虽然这还只是早期工作,但它指出了一条通往理论上无限上下文架构的路径——一种完美平衡了信息保留与计算约束的路径。尽管这种视觉-文本压缩系统的实际意义和局限性有待未来研究的更深入探讨。
