本文作者:访客

DeepSeek最新动态,MODEL1曝光与V4即将发布

访客 2026-01-22 11:00:11 14511
DeepSeek最新动态宣布MODEL1曝光和V4版本即将发布,这一创新产品展示了DeepSeek在技术和研究方面的持续进步和发展,MODEL1的曝光标志着该公司在人工智能领域的领先地位,而V4版本的发布则预示着更多功能和性能的优化,这一动态将为用户带来更好的体验和服务,并推动DeepSeek在市场上的竞争力。

  1月21日消息,2025年1月,正值DeepSeek-R1模型发布一周年之际,DeepSeek又有新动作,新模型“MODEL1”浮出水面,同时有消息称新一代旗舰AI模型V4也即将推出。


  一、MODEL1现身DeepSeek官方GitHub仓库


  北京时间1月21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码。通过AI对全部114个总代码文件(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)进行分析,发现了一个此前未公开的模型架构标识“MODEL1”,该标识在代码中被提及31次。


  FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,其实现基础MLA(多层注意力机制)是DeepSeek模型(如V2、V3)实现低成本、高性能的关键技术之一,能够在模型架构层面减少内存占用,最大化地利用GPU硬件。


  MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2。据推测,MODEL1很可能是一个高效推理模型,与V3.2相比,内存占用更低,更适合边缘设备或成本敏感场景。同时,它也可能是针对16K+序列优化的长序列专家,适用于文档理解、代码分析等长上下文任务。


  此外,MODEL1的硬件实现跨越多个GPU架构。在英伟达H100/H200(SM90架构)上,有两个版本:model1_persistent_h64.cu用于64头配置,model1_persistent_h128.cu用于128头配置。在最新的B200(SM100架构)上,有专门的Head64内核实现,且SM100的Head128实现仅支持MODEL1,不支持V3.2。由此有人猜测,DeepSeek为适配英伟达新一代GPU,专门优化了MODEL1的架构。


  二、DeepSeek模型技术路线与发展历程


  DeepSeek已发布的主要模型分为两条技术路线:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”。


DeepSeek


  2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架构奠定了强大的综合性能基础。此后,DeepSeek在V3基础上快速迭代,发布了强化推理与Agent(智能体)能力的V3.1,并于2025年12月推出了最新正式版V3.2。同时,还推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale。


  2025年1月发布的R1,通过强化学习,在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式。


  三、新一代旗舰AI模型V4发布在即


  科技媒体The Information月初爆料称,DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,该模型将具备更强的写代码能力。


  此前,DeepSeek研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。这一系列动作不禁引起用户猜测,DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。


阅读
分享