关于本站登录

DeepSeek新模型Model1悄然现身引发科技界关注

2026年1月21日

（图片来自网络）

编辑｜Panda
2025年1月20日，DeepSeek（深度求索）正式发布了DeepSeek-R1模型，开启了新开源LLM时代。在Hugging Face发布的《「DeepSeek 时刻」一周年记》博客中，DeepSeek-R1是该平台上获赞最多的模型。

如今，刚过一年时间，DeepSeek的新模型又在GitHub悄然现身。这些天，DeepSeek给其FlashMLA代码库推送了不少更新，而在这些更新中，一个名为Model1的模型引起了广大网友的注意。如下截图所示，这个目前还很神秘的Model1不仅出现在了代码与注释中，甚至还有与DeepSeek-V3.2并驾齐驱的文件。这也不禁让网友们开始猜测，这个Model1很可能就是传闻中DeepSeek即将在春节前后发布的新模型的代号。

我们也让相关技术团队分析了DeepSeek的这些代码变更，提取了其中的技术细节，结果如下：

1. 核心架构：回归512维标准。在csrc/api/common.h的DISPATCH_HEAD_DIM宏中，head_dim的分支处理显示，DeepSeek-V3.2沿用d_qk = 576的配置（这是DeepSeek-V3引入的非对称MLA设计，包含128维RoPE + 448维Latent）；而Model1切换到了512维。这表明DeepSeek-V4在MLA架构上进行了「标准化」回归，可能是为了更好地匹配Blackwell (SM100)架构的算力对齐，或者优化了Latent压缩比例。

2. 全面支持Blackwell (SM100)架构：代码库中出现了大量针对NVIDIA下一代Blackwell GPU的专门优化。SM100接口新增了FMHACutlassSM100FwdRun函数，直接指向核心指令集优化。CUDA版本要求方面，README提到在B200上运行需要CUDA 12.9。性能表现方面，在B200上，目前尚未完全优化的Sparse MLA算子已能达到350 TFlops，而在H800 (SM90a)上，Dense MLA的的计算吞吐量高达660 TFlops。

3. 引入「Token-level Sparse MLA」：测试脚本中出现了test_flash_mla_sparse_decoding.py和test_flash_mla_dense_decoding.py。这种设计让Sparse与Dense算子并行工作。同时，Sparse算子使用FP8精度存储KV Cache，但在计算矩阵乘法时使用bfloat16以保留精度。这意味着Model1在极长上下文场景下，会通过「稀疏化推理」来降低显存压力、提升推理速度。

4. 新机制：Value Vector Position Awareness (VVPA) 与 Engram：虽然diff主要是算子层面的，但结合DISPATCH_MODEL_TYPE的逻辑和社区披露，Model1引入了以下新特性。VVPA（数值向量位置感知）可能解决了传统MLA在长文本下位置信息衰减的问题；Engram机制则是DeepSeek在分布式存储或KV压缩上的新突破，用于配合Model1的高吞吐需求。根据代码中「Model1的定位是一个与V32并列且独立的分支」这一信息，说明它不是V3系列的补丁，而是一个采用了不同架构参数的全新模型。按照DeepSeek的命名惯例，在V3.2之后的旗舰级架构跨越，逻辑上即为V4。

对此，你觉得Model1就是传说中的DeepSeek V4吗？

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2026-01-21 10

理性分析者说目前只是代号和部分细节，等待官方发布但猜测合理
网友9 2026-01-21 10

积极向上的人支持国产大模型进步给行业带来活力
网友8 2026-01-21 10

年轻人疑惑Model1和V4的关联，需分析代码细节
网友7 2026-01-21 10

慢热型网友认为要先看实际性能再评价
网友6 2026-01-21 10

活跃网友猜测DeepSeek这次有大新闻，期待V4发布
网友5 2026-01-21 10

专家视角下架构优化和算力支持有成为V4的潜质
网友4 2026-01-21 10

职场人觉得落地后办公效率提升
网友3 2026-01-21 10

学生党疑惑这些技术名词但觉得很酷
网友2 2026-01-21 10

老一辈认为DeepSeek发展快，新模型值得期待
网友1 2026-01-21 10

科技爱好者觉得DeepSeek新模型可能是V4，架构优化有技术含量

查看“DeepSeek新模型Model1悄然现身引发科技界关注”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙