字节开源Seed-OSS-36B大模型 支持超长上下文512K,技术细节公开
(图片来自网络)
近日,字节跳动Seed团队正式开源其研发的Seed-OSS-36B大模型,该模型支持超长512k上下文窗口,为开发者提供了丰富版本与开源的便利。
该模型包含三种版本:Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据)、Seed-OSS-36B-Instruct(指令微调版),均在Hugging Face和GitHub上可获取,采用Apache-2.0许可证开源。
核心能力与特性:
- 超长上下文支持:原生支持最长512k tokens上下文窗口,可处理超长文档与复杂推理链,相当于1600页文本长度。
- 灵活推理预算:允许用户根据需求动态调整推理长度与过程,提升推理效率,类似近期开源模型的设计思路。
- 多任务优化:在通用能力与推理、智能体任务(如工具使用、问题解决)等方面表现突出,多个测试中达SOTA。
- 研究友好:同时提供含与不含指令数据的预训练模型,为研究社区提供多样化选择。
训练与性能:
该模型使用12万亿(12T)tokens训练,在MMLU-Pro(65.1分)、MATH(81.7分)等基准测试中表现优异;Instruct版在AIME24(91.7%)、LiveCodeBench(67.4分)等任务达开源领域SOTA,并在RULER(128K上下文)测试中取得94.6分,创下开源模型纪录。
模型架构:
Seed-OSS-36B采用因果语言建模等先进架构,包含360亿参数、64层网络,支持15.5万词表,结合分组查询注意力、SwiGLU激活函数等技术,保障性能与效率。
应用建议:推荐推理预算为512 tokens倍数,如512、1K等,未设置时默认无限推理,0表示直接输出答案模式。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2026年1月28日:昨日社会热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日文化热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日科技热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日体育热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日娱乐热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日财经热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日教育热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日汽车热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:迈阿密国际新援雷吉隆右膝关节受伤 归期待定
- 2026年1月28日:阿森纳联赛阶段11连胜仅丢4球 本赛季前7场率先破门
- 2026年1月28日:交通运输部加强春运公路水路服务保障 推出保畅组合拳
- 2026年1月28日:凡人微光|冰雪热潮中的平凡热爱故事
- 2026年1月28日:冰雪产业焕新:冷资源变热经济,打造全年发展‘旺火’
- 2026年1月28日:2025中国经济关键词:潜力释放 激活超大规模市场优势
- 2026年1月28日:大转折!2025年制造业利润大幅回升,反“内卷”改善价格预期
- 2026年1月28日:2026年中国外贸发展方向:从关键词看新布局
- 2026年1月28日:金沙江鱼儿回家之路:隧洞刷脸、电梯通行,生态保护见成效
- 2026年1月28日:走进“冰雪热”幕后:吉林省冰雪经济背后的劳动者故事
- 2026年1月28日:非洲留学生“小米”变身长沙经贸“纽带”,用直播架起中非经贸之桥
- 2026年1月28日:“一降一增”见证中国外贸破局前行

精彩评论(10)