DeepSeek V4什么时候发布? AI界所有人都在猜测,但梁文峰可能是唯一知道答案的人。豆宝、钱文、元宝……无论是大厂还是小厂,都在过年期间聚集在一起发布新版本,生怕自己太慢了,就会被隐藏在V4的光芒之中。一个正常的CEO,面对整个行业都在翘首以待的局面,早就推出了半成品。先用你的声音,然后慢慢重复。这是互联网行业的基本运作。然而,梁文峰并没有这样做。关系密切的同事实话实说:“团队稳定,基础扎实,我们无意放手。”外媒报道称,V4在架构层面进行了重建。它包括 10 亿个参数、数百万个上下文、原生多模态,计划于 4 月发布。其核心是这种重复被称为LTM(Long 术语记忆)。 LTM 是一个在模型架构中实现持久内存的系统。这使得人工智能能够记住你是谁、你说了什么以及你在对话和任务中的偏好。不要每次打开计算机时都从头开始,而是像人类一样提前决定什么是重要的。而这个能力正是OpenClaw最缺乏的。 OpenClaw 可能适用于其他模型,但其内存系统本质上只是将注释写入本地 Markdown 文件,并在工作时继续将这些注释发送到更大的模型。因此,OpenClaw 使用的时间越长,发送内存时消耗的令牌就越多。整个社区都在尽力通过修补和安装插件和技能来解决这个问题,但没有人能够解决问题的根本原因,因为问题本质上是模型本身,而不是能记住的东西。 LTM要做的就是从架构层面治愈这个病。这给你带来的挑战pdate远远超出了之前版本的挑战,情感交互、自定义记忆等模型模块尚未完全迁移,需要进一步调整。所以,梁文峰不是拖延,而是压制。在一个大家都在比拼谁能先行动、谁能说得最响亮的行业里,梁文峰选择了等到万事俱备才采取行动。 R1之所以能一枪成神,并不是因为他能领先对手,而是因为他出手的那一刻就能让对手无语。他显然打算以同样的方式对待V4——要么不发送,要么发送它就是炸弹。 01 梁文峰回避什么? OpenClaw的流行让大家意识到,随着AI真正开始为人类服务,模型理解和记忆上下文的能力不再是优势,而是决定能否使用的关键因素。不记得 abo 的特工我们每隔几轮就会重复他们的错误,失去任务状态,忘记他们刚刚说过的话。因此,近两年业界推出了很多LTM解决方案。例如,伯克利团队在 2023 年提出的 MemGPT,利用虚拟内存的思想,允许模型自行决定哪些信息应该从外部存储传输到上下文窗口以及何时交换。 2025 年发布的 Mem0 在工程方面更进一步,在 LOCOMO 基准测试中超越了 OpenAI。配置内存增加26%,令牌消耗减少90%。它也是目前community.ity OpenClaw中使用最多的内存插件。这两天我们还看到了SYNAPSE的到来,它使用模糊激活来模拟人类联想记忆检索,以及SimpleMem,它使用递归语义压缩来解决内存扩展。然而,所有这些解决方案都有一个共同的上限。换句话说,这些是在模型外部运行的中间件。这就是我的意思。内存提取、压缩和恢复由插件系统完成,不涉及模型本身。因此,内存质量完全取决于插件系统的技术水平,并且模型获得的内存也参差不齐。此外,所有内存最终都必须通过上下文窗口注入到模型中。这与 OpenClaw 出现的问题相同。您拥有的内存越多,令牌的成本就越高。另一点是模型无法在外部存储器上“训练”。这是因为模型在这个过程中所做的是阅读别人为他准备的笔记,而不是内化竞争的经验。梁文峰将走一条完全不同的道路。从梁文峰署名的Engram论文和V4架构泄露来看,DeepSeek的方向是将记忆功能直接构建到模型架构中结构本身,而不是在模型之外构建存储系统。 Engram 证明了可以在 Transformer 中打开专用的条件内存空间,并且可以使用 O(1) 哈希查找来访问静态知识。当检索存储的知识时,它不会占用上下文窗口中的空间,也不会增加推理的计算成本。更重要的是,Engram的“无限记忆机制”实验表明,这个记忆空间的容量几乎可以无限扩展,而模型的推理开销保持不变。如果您想“记住”当前模型是什么,唯一的方法是将其包含在对话框窗口中。一旦窗户满了,你就必须扔掉东西。 Engram 相当于在您的模型上安装一个单独的硬盘驱动器。您可以将内存保存到此外部存储,而不是在计算机的硬盘上囤积内存。如果您想恢复特定记忆,只需插入硬盘即可。什么是而且,理论上,这个硬盘可以无限扩展,并且搜索速度保持恒定。如果我们沿着这条路走,DeepSeek 将超越整个“连接内存”技术范式。除此之外,这意味着我们直接进入了“原生记忆”时代。了解OpenClaw的人都知道,梁文峰正是针对OpenClaw最薄弱的地方。 OpenClaw 赋予了人工智能四肢,但没有赋予人工智能能够记住事物的大脑。 OpenClaw 的内存系统存在三个结构性缺陷。首先是压缩损失。当上下文窗口填满时,OpenClaw 会自动将旧对话压缩为摘要以释放空间。事实得以保留,但对话的上下文完全丢失且无法恢复。换句话说,你的论点、你的推理思路、你的语气、你的决策优先顺序,都消失了,你再也找不到了。例如,在压缩之前,代理会记住:整套调试解决方案ons 将被压缩,只留下一句话:“用户正在调试一个 bug”,并且所有具体的故障排除路径都将丢失。二是收购失败。我们花了几周的时间积累了数百个内存文件,这些文件是通过向量相似性搜索恢复的。然而向量搜索只能找到语义相似的片段,无法理解元素之间的逻辑关系。例如,我使用 OpenClaw 创建了三个计划。这三个计划分散在不同的文件中,最终计划由客户敲定。如果您稍后想要搜索最终的计划,则只能搜索第一个计划或第二个计划,因为所有三个计划都已发送给客户。第三,内存容量有限制。 OpenClaw 内存分为两层。每次启动会话时,核心内存 (MEMORY.md) 都会完全注入上下文,并通过搜索工具按需调用日志内存。听起来很有道理,但确实内存有严格的上限。每个文件由 20,000 个字符分隔,所有引导文件加起来多达 150,000 个句子。不超过1个字符。但是,使用得越多,MEMORY.md 就会越长。或者被截断而信息丢失,或者每个会话的令牌消耗线性增加。事情还没有结束。在日志方面,按需检索的质量完全取决于模型本身的判断。即使信息存在,如果我们确定它不相关,我们也不会记住它。重要信息很容易丢失。坦白说,这三个问题是一样的。窗户很大,填得越多,被错误记住、丢失或太贵的东西就越多。 OpenClaw记忆不是“记住”,而是“抄了一堆笔记,然后翻不起来”。如果V4真的在架构层面走这条路,不仅能解决OpenClaw问题,还能解决OpenClaw问题。n 将模型转变为“可培养模型”。你用得越多,它就越能理解你。这与目前所有大型机型的使用体验有着本质的不同。因为无论现在的模型有多强大,每次打开它都是一张白板。腾讯最近的一项研究从另一个方向证实了这条道路的价值。加入腾讯担任 OpenAI 首席人工智能科学家的姚舜宇于二月份发表了他的第一篇署名文章。文章的名字是CL-bench,意思是Context Learning Benchmark。具体来说,我们测试我们的大型模型是否真的可以从上下文中学习一些东西。这并不是测试你记住了多少知识,而是测试你是否能够学习并应用给你的材料。结果很丑陋。准确率最高的模型是GPT-5.1,但其结果正确率仅为23.7%。这意味着,即使你仔细准备详细信息并将其输入人工智能,超过 80% 的时间它都会不是“学习”。姚迅宇在文章中判定,目前人工智能与真正智能的差距不在于知识量,而在于学习能力。一个拥有很多知识但不会学习的AI就像一个人背了一本字典但不会写字。彼はAGI-N在边界峰会上也表达了类似的观点。他认为,将大型模型转移到高价值应用的主要障碍是“利用上下文”的能力。如果情境学习和记忆变得可靠,模型也许能够学习。自主地。梁文峰不可能不明白这个道理,这也是上映日期多次推迟的原因。 02 DeepSeek 想要学习的教训是,愿景是愿景,现实是现实。梁文峰闭关一年的时间里,对手从未停下来等待他。从 DeepSeek 中可以学到的教训比局外人想象的还要多。第一个缺点是多模态,which也是最大的缺点。 DeepSeek仍然是纯文本模型。不能看照片、视频或听音频。这并不是说 DeepSeek 没有视觉功能。今年1月,我们发布了OCR 2,一个具有3B参数的小型文档理解模型。它本质上用名为 DeepEncoder V2 的编码器取代了传统的视觉编码器,该编码器允许模型像人类一样根据阅读顺序理解文档页面。仅在文档分析基准测试中,OCR 2 以最少的视觉标记就击败了 Qwen3-VL-235B 等数千亿的玩家。然而,OCR 2 只能做一件事。从文档中提取文本、表格和公式。它本质上是一种单向的“图像→文本”转换,并不是一种普遍的视觉理解。换句话说,OCR 2 证明 DeepSeek 可以进行视觉编码,但能够阅读文档与能够观看视频、收听音频和理解自然场景之间的差距是很大的。这不仅仅是一步,而是跨越了整整一代技术。与此同时,其他各大厂商也早已进入“反正”时代。 Byte 的 Seedance 2.0 展示了成功的多式联运模式的用户基础和业务潜力。 GPT-5.4 已经原生支持音频、视频和计算机操作。据消息人士透露,梁文峰这六个月的主要任务之一就是弥补视觉内容处理方面的缺陷。第二个缺点是代理的能力。 DeepSeek微信公众号置顶的文章标题是《迈向特工时代的第一步》,足以证明梁文峰知道自己应该走的方向。 Kimi K2.5 现在可以自主编程 100 个子代理并并行处理 1,500 个步骤。 ChatGPT 代理功能可以填写表格、预订航班以及自动从一个网站检索信息到另一个网站。克劳德组建了一支特工团队多个人工智能协同工作来完成复杂的任务。第三个缺点是人工智能编程。这是2026年增长最快、商用最多的卡车。在编程基准SWE台架验证中,Claude Opus 4.6得分为80.8%,GPT-5.3 Codex约为80%,但DeepSeek V3.2得分仅为73.1%。在更困难的 SWE-bench Pro 基准测试上进行测试时,DeepSeek V3.2 得分为 40.9%,远低于 GPT-5.4 的 57.7%。更重要的是,行业已经从“振动编码”发展到“代理工程”,让AI能够独立完成工程级任务。芝浦的 GLM-5 论文的标题是“From Vibecoding to Agentic Engineering”。您可以通过连续运行 code.igo 24 小时、进行 700 次工具调用和 800 次上下文切换,从头开始构建 GBA 模拟器。此前有报道称,DeepSeek-V4的内部测试结果在可编程性方面超越了Claude Sonnet 3。 But now Claude Sonnet 3.5 has been completely disabled by Anthropic au理论。第四个缺点是AI搜索。现在几乎所有 ChatBot 产品都已连接到互联网。配置模型网络的应用程序 由于单独的交换机不再可见,OpenAI 具有 ChatGPT 搜索功能,Google 具有 Gemini Embedding 2 搜索功能。 DeepSeek的搜索功能一直都有其缺陷,其搜索结果常常显得虚幻。根据 Vectara 测试,DeepSeek R1 的幻觉率高达 14.3%,几乎是 V3(3.9%)的四倍。结果不正确,包括但不限于虚构的文章标题、虚构的 DOI 和假作者。 DeepSeek本身也承认,幻觉是现阶段“不可避免”的问题。 DeepSeek没有自己的搜索基础设施,仅依赖第三方接口,无法控制信息源的质量。有两个问题意味着“搜索不准确”的用户体验。在代理时代,搜索是必需品,而不是优势。没有 DeepSeek 的缺点可以通过较小的修改来修复。不过,如果您的机票再次被退回,请不要感到惊讶。不投出正确的球总是比投出正确的球更重要。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传和发布。