AI创业与趋势--DeepSeek最新研究:AI架构的范式突破
2025年DeepSeek团队发布了两项重要研究Engram和OCR视觉压缩。这两项工作看起来是技术迭代实际上是对AI架构范式的根本性挑战。Engram给AI装上字典核心问题假设主持人问“中国古代四大发明是什么”人类的回答方式直接从记忆调取——造纸术、印刷术、火药、指南针。AI大模型的回答方式层级计算过程第1层接收四大发明输入第2层推理到中国古代第3层关联到古代技术成就第4层定位历史知识第5层逐层拼出答案就像问一个人一加一等于几他不直接说2而是从头推导数字发明史。问题本质用神经网络计算模拟人类记忆太浪费了。语言处理的两种任务类型特点应该怎么处理推理类理解转折关系、分析情感需要深度计算检索类张仲景是谁、四大发明是什么可以直接查表现在Transformer把两种任务都当计算做导致前几层被迫重建静态知识浪费推理能力。Engram的核心创新把查表的归查表把计算的归计算。创新说明n-gram查表用连续词作为钥匙查找向量哈希映射解决组合爆炸问题上下文门控同一词在不同语境用不同记忆参数分配的最优配置实验发现配置性能100%计算纯MoE一般75%计算25%Engram最优100%Engram纯记忆性能下降为什么中间最优| 纯MoE | 缺少记忆只能用计算重建知识 || 纯Engram | 缺少计算遇到推理问题不行 || 混合 | 该查的查该算的算 |意外的发现Engram提升最大的不是知识任务而是推理任务。任务类型提升复杂推理BH测评5分提升代码和数学显著提升阅读理解93%保留原因原本30层网络的前5层忙于重建静态知识现在30层全部用于推理。网络等于是变深了。OCR视觉压缩重新定义输入范式反直觉的观点Karpathy说或许所有输入都应该是图像即使是纯文本也应该渲染成图像再输入。听起来很荒谬——我们花了几十年把扫描文档转成可搜索文本现在要反过来但这揭示了一个被忽视的真相。文本Token化的妥协问题说明信息损失笑脸emoji只是符号不是富含视觉信息的笑脸视觉元素抹除颜色、字体大小要么被删要么需要额外标记编码问题Unicode历史包袱、安全风险语言差异不同语言字符数量差异巨大同一字符多种表示单向性局限自回归只能从左到右不能双向全局理解视觉压缩的效果压缩比OCR精度不超过10倍97%20倍约60%关键洞察信息密度才是关键不是信息总量。多尺度表示文档部分处理方式表格和关键数字高精度识别页眉页脚低分辨率快速扫过这模拟了人类的选择性注意机制不是所有信息都需要同等精度。模拟抽象能力人类记忆的遗忘不是简单删除而是从具体细节向抽象概念转化。记忆方式说明低分辨率图像强制模型进行抽象从模糊信号提取本质不依赖清晰像素逐字读取这种强制抽象可能比保留更多细节更接近智能本身。范式之争的深层意义视觉作为通用接口观点说明OCR只是视觉→文本任务之一文本→文本可转换成视觉→文本反之不行数字世界大量信息天然视觉形式网页是CSS渲染后的视觉不是纯文本信息类型视觉价值网页CSS渲染后的呈现文档版面、字体、表格结构代码缩进高亮的视觉意义数据可视化图表传达超过底层数据表强行转成纯文本就像把彩色电影转成黑白——可行但信息必然损失。长上下文的根本性重构方法说明现有技术窗口扩展、稀疏注意力问题和Token数量增长做斗争视觉压缩用更少更密集的视觉Token表示同样信息效率提升单个A100 GPU每天处理20万页数据。学术继承与工程创新与现有工作的关系工作关系字节跳动VR方法相似思路获会议Best PaperDeepSeek工作把研究成果做扎实、做产品化工程化是被低估的创新学术界在Environment里证明概念真正可用需要解决无数细节问题说明边缘case扫描质量差、图像倾斜、多语言混排权衡速度vs精度、分辨率档位选择接口开发者友好集成DeepSeek发布推理代码、加速支持、DF处理——从Paper到Production Ready。未解的问题问题一推理能力的代价问题说明文本Token离散性、可组合性适合符号推理视觉Token连续表示是否损失符号操作能力看懂公式 ≠ 能推导模型能看懂数学公式不代表能进行数学推导问题二训练数据成本如果未来模型基于视觉输入挑战说明渲染文本为图像大量渲染工作标注视觉版面复杂标注需求组合爆炸不同分辨率、字体、样式数据可能成为新瓶颈。问题三用户体验连续性人类输入往往是纯文本转换问题打字、语音转文本需要额外渲染层渲染层引入新延迟和复杂度两个研究的共同启示技术选择是范式问题研究挑战Engram不是如何做得更好而是对计算的假设OCR不是优化文本处理而是重新定义输入限制催生创造力限制创新算力约束视觉压缩成为必然选择计算浪费Engram把查表和计算分离工程化是最被低估的创新把学术idea变成可用产品本身就是对真实世界复杂性的深刻理解。保持批判性乐观拥抱新范式同时清醒认知局限和未解问题。常见问题Q1Engram和传统n-gram有什么区别传统n-gram是统计语言模型Engram是用n-gram作为查表钥匙从记忆库直接获取向量绕过逐层计算。Q2为什么视觉压缩能提升效率一个图像Token能承载更多信息密度比多个文本Token更高效。长上下文的计算复杂度是N²减少Token数量能大幅降低计算成本。Q3这些研究什么时候能落地应用Engram已在DeepSeek模型中应用。OCR视觉压缩还在研究阶段但方向值得关注。Q4Karpathy为什么说视觉是通用接口数字世界大量信息天然是视觉形式。把视觉转文本会损失信息但文本可以渲染成视觉输入不损失。视觉接口的覆盖范围更广。一句话总结DeepSeek的两项研究不是技术迭代而是范式突破——把查表和计算分离把视觉作为通用输入接口。四个启示技术选择是范式问题、限制催生创造力、工程化是创新、保持批判性乐观。正如Karpathy所说也许有一天回头看今天的文本Token就像看早期的字符界面——曾经很实用但终究会被更自然的交互方式替代。范式之争才刚刚开始。