DeepSeek新模型Model1悄然现身 引发科技界关注
(图片来自网络)
编辑|Panda
2025年1月20日,DeepSeek(深度求索)正式发布了DeepSeek-R1模型,开启了新开源LLM时代。在Hugging Face发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1是该平台上获赞最多的模型。
如今,刚过一年时间,DeepSeek的新模型又在GitHub悄然现身。这些天,DeepSeek给其FlashMLA代码库推送了不少更新,而在这些更新中,一个名为Model1的模型引起了广大网友的注意。如下截图所示,这个目前还很神秘的Model1不仅出现在了代码与注释中,甚至还有与DeepSeek-V3.2并驾齐驱的文件。这也不禁让网友们开始猜测,这个Model1很可能就是传闻中DeepSeek即将在春节前后发布的新模型的代号。
我们也让相关技术团队分析了DeepSeek的这些代码变更,提取了其中的技术细节,结果如下:
1. 核心架构:回归512维标准。在csrc/api/common.h的DISPATCH_HEAD_DIM宏中,head_dim的分支处理显示,DeepSeek-V3.2沿用d_qk = 576的配置(这是DeepSeek-V3引入的非对称MLA设计,包含128维RoPE + 448维Latent);而Model1切换到了512维。这表明DeepSeek-V4在MLA架构上进行了「标准化」回归,可能是为了更好地匹配Blackwell (SM100)架构的算力对齐,或者优化了Latent压缩比例。
2. 全面支持Blackwell (SM100)架构:代码库中出现了大量针对NVIDIA下一代Blackwell GPU的专门优化。SM100接口新增了FMHACutlassSM100FwdRun函数,直接指向核心指令集优化。CUDA版本要求方面,README提到在B200上运行需要CUDA 12.9。性能表现方面,在B200上,目前尚未完全优化的Sparse MLA算子已能达到350 TFlops,而在H800 (SM90a)上,Dense MLA的的计算吞吐量高达660 TFlops。
3. 引入「Token-level Sparse MLA」:测试脚本中出现了test_flash_mla_sparse_decoding.py和test_flash_mla_dense_decoding.py。这种设计让Sparse与Dense算子并行工作。同时,Sparse算子使用FP8精度存储KV Cache,但在计算矩阵乘法时使用bfloat16以保留精度。这意味着Model1在极长上下文场景下,会通过「稀疏化推理」来降低显存压力、提升推理速度。
4. 新机制:Value Vector Position Awareness (VVPA) 与 Engram:虽然diff主要是算子层面的,但结合DISPATCH_MODEL_TYPE的逻辑和社区披露,Model1引入了以下新特性。VVPA(数值向量位置感知)可能解决了传统MLA在长文本下位置信息衰减的问题;Engram机制则是DeepSeek在分布式存储或KV压缩上的新突破,用于配合Model1的高吞吐需求。根据代码中「Model1的定位是一个与V32并列且独立的分支」这一信息,说明它不是V3系列的补丁,而是一个采用了不同架构参数的全新模型。按照DeepSeek的命名惯例,在V3.2之后的旗舰级架构跨越,逻辑上即为V4。
对此,你觉得Model1就是传说中的DeepSeek V4吗?
最新新闻
- 2026年1月28日:昨日社会热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日文化热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日科技热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日体育热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日娱乐热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日财经热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日教育热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日汽车热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:迈阿密国际新援雷吉隆右膝关节受伤 归期待定
- 2026年1月28日:阿森纳联赛阶段11连胜仅丢4球 本赛季前7场率先破门
- 2026年1月28日:交通运输部加强春运公路水路服务保障 推出保畅组合拳
- 2026年1月28日:凡人微光|冰雪热潮中的平凡热爱故事
- 2026年1月28日:冰雪产业焕新:冷资源变热经济,打造全年发展‘旺火’
- 2026年1月28日:2025中国经济关键词:潜力释放 激活超大规模市场优势
- 2026年1月28日:大转折!2025年制造业利润大幅回升,反“内卷”改善价格预期
- 2026年1月28日:2026年中国外贸发展方向:从关键词看新布局
- 2026年1月28日:金沙江鱼儿回家之路:隧洞刷脸、电梯通行,生态保护见成效
- 2026年1月28日:走进“冰雪热”幕后:吉林省冰雪经济背后的劳动者故事
- 2026年1月28日:非洲留学生“小米”变身长沙经贸“纽带”,用直播架起中非经贸之桥
- 2026年1月28日:“一降一增”见证中国外贸破局前行

精彩评论(10)