DeepSeek发布开源OCR新模型
田左图

2025年10月20日上午,DeepSeek-AI团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,开源了OCR新模型DeepSeek-OCR。该模型可通过少量视觉token解码出10倍以上的文本信息,为大语言模型处理长文档提供了全新解决方案。

编码器DeepEncoder参数量约为3.8亿,主要由串联连接的SAM-base和CLIP-large构成。前者使用窗口注意力,专注于提取局部细节,后者采用密集全局注意力,可识别整体内容。两者之间是一个2层卷积模块,对视觉token进行16×下采样。该编码器能将输入图像划分为patch token,并通过压缩模块减少token数量,还支持原生分辨率和动态分辨率等多种分辨率模式,以应对不同输入需求。

解码器DeepSeek-3B-MoE推理时激活6个路由专家和2个共享专家,约5.7亿参数。它可根据图像token和提示信息,将压缩后的视觉特征还原为文本信息。

在Fox基准测试中,10×压缩比内,模型解码精度可达约97%;压缩比接近20×时,模型精度仍可维持在60%左右。在OmniDocBench基准测试中,仅用100个视觉token即超越GOT-OCR2.0(每页256token);以少于800个视觉token的表现,优于MinerU2.0(平均每页6000+token)。

在实际生产中,可在单块A100-40G显卡上每天生成超过20万页的大语言模型/视觉语言模型训练数据。