DeepSeek新模型Model1悄然现身 引发科技界关注

2026年1月21日
news

(图片来自网络)

编辑|Panda
2025年1月20日,DeepSeek(深度求索)正式发布了DeepSeek-R1模型,开启了新开源LLM时代。在Hugging Face发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1是该平台上获赞最多的模型。

如今,刚过一年时间,DeepSeek的新模型又在GitHub悄然现身。这些天,DeepSeek给其FlashMLA代码库推送了不少更新,而在这些更新中,一个名为Model1的模型引起了广大网友的注意。如下截图所示,这个目前还很神秘的Model1不仅出现在了代码与注释中,甚至还有与DeepSeek-V3.2并驾齐驱的文件。这也不禁让网友们开始猜测,这个Model1很可能就是传闻中DeepSeek即将在春节前后发布的新模型的代号。

我们也让相关技术团队分析了DeepSeek的这些代码变更,提取了其中的技术细节,结果如下:

1. 核心架构:回归512维标准。在csrc/api/common.h的DISPATCH_HEAD_DIM宏中,head_dim的分支处理显示,DeepSeek-V3.2沿用d_qk = 576的配置(这是DeepSeek-V3引入的非对称MLA设计,包含128维RoPE + 448维Latent);而Model1切换到了512维。这表明DeepSeek-V4在MLA架构上进行了「标准化」回归,可能是为了更好地匹配Blackwell (SM100)架构的算力对齐,或者优化了Latent压缩比例。

2. 全面支持Blackwell (SM100)架构:代码库中出现了大量针对NVIDIA下一代Blackwell GPU的专门优化。SM100接口新增了FMHACutlassSM100FwdRun函数,直接指向核心指令集优化。CUDA版本要求方面,README提到在B200上运行需要CUDA 12.9。性能表现方面,在B200上,目前尚未完全优化的Sparse MLA算子已能达到350 TFlops,而在H800 (SM90a)上,Dense MLA的的计算吞吐量高达660 TFlops。

3. 引入「Token-level Sparse MLA」:测试脚本中出现了test_flash_mla_sparse_decoding.py和test_flash_mla_dense_decoding.py。这种设计让Sparse与Dense算子并行工作。同时,Sparse算子使用FP8精度存储KV Cache,但在计算矩阵乘法时使用bfloat16以保留精度。这意味着Model1在极长上下文场景下,会通过「稀疏化推理」来降低显存压力、提升推理速度。

4. 新机制:Value Vector Position Awareness (VVPA) 与 Engram:虽然diff主要是算子层面的,但结合DISPATCH_MODEL_TYPE的逻辑和社区披露,Model1引入了以下新特性。VVPA(数值向量位置感知)可能解决了传统MLA在长文本下位置信息衰减的问题;Engram机制则是DeepSeek在分布式存储或KV压缩上的新突破,用于配合Model1的高吞吐需求。根据代码中「Model1的定位是一个与V32并列且独立的分支」这一信息,说明它不是V3系列的补丁,而是一个采用了不同架构参数的全新模型。按照DeepSeek的命名惯例,在V3.2之后的旗舰级架构跨越,逻辑上即为V4。

对此,你觉得Model1就是传说中的DeepSeek V4吗?

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2026-01-21 10
    理性分析者说目前只是代号和部分细节,等待官方发布但猜测合理
  • 网友9 2026-01-21 10
    积极向上的人支持国产大模型进步给行业带来活力
  • 网友8 2026-01-21 10
    年轻人疑惑Model1和V4的关联,需分析代码细节
  • 网友7 2026-01-21 10
    慢热型网友认为要先看实际性能再评价
  • 网友6 2026-01-21 10
    活跃网友猜测DeepSeek这次有大新闻,期待V4发布
  • 网友5 2026-01-21 10
    专家视角下架构优化和算力支持有成为V4的潜质
  • 网友4 2026-01-21 10
    职场人觉得落地后办公效率提升
  • 网友3 2026-01-21 10
    学生党疑惑这些技术名词但觉得很酷
  • 网友2 2026-01-21 10
    老一辈认为DeepSeek发展快,新模型值得期待
  • 网友1 2026-01-21 10
    科技爱好者觉得DeepSeek新模型可能是V4,架构优化有技术含量
查看“DeepSeek新模型Model1悄然现身 引发科技界关注”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙