字节开源Seed-OSS-36B大模型 支持超长上下文512K,技术细节公开
(图片来自网络)
近日,字节跳动Seed团队正式开源其研发的Seed-OSS-36B大模型,该模型支持超长512k上下文窗口,为开发者提供了丰富版本与开源的便利。
该模型包含三种版本:Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据)、Seed-OSS-36B-Instruct(指令微调版),均在Hugging Face和GitHub上可获取,采用Apache-2.0许可证开源。
核心能力与特性:
- 超长上下文支持:原生支持最长512k tokens上下文窗口,可处理超长文档与复杂推理链,相当于1600页文本长度。
- 灵活推理预算:允许用户根据需求动态调整推理长度与过程,提升推理效率,类似近期开源模型的设计思路。
- 多任务优化:在通用能力与推理、智能体任务(如工具使用、问题解决)等方面表现突出,多个测试中达SOTA。
- 研究友好:同时提供含与不含指令数据的预训练模型,为研究社区提供多样化选择。
训练与性能:
该模型使用12万亿(12T)tokens训练,在MMLU-Pro(65.1分)、MATH(81.7分)等基准测试中表现优异;Instruct版在AIME24(91.7%)、LiveCodeBench(67.4分)等任务达开源领域SOTA,并在RULER(128K上下文)测试中取得94.6分,创下开源模型纪录。
模型架构:
Seed-OSS-36B采用因果语言建模等先进架构,包含360亿参数、64层网络,支持15.5万词表,结合分组查询注意力、SwiGLU激活函数等技术,保障性能与效率。
应用建议:推荐推理预算为512 tokens倍数,如512、1K等,未设置时默认无限推理,0表示直接输出答案模式。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年11月5日:Karpathy反思:扩散模型引领LLM生成变革,BERT有望转型为生成引擎?
- 2025年11月5日:智云上海赋能进博会,智能服务守护高效运行
- 2025年11月5日:“智云上海”打造智能信息驿站 为进博会提供科技化保障
- 2025年11月5日:NZXT恩杰推出FX系列高性能风扇:LCP材质与30mm加厚设计引领风冷技术新高度
- 2025年11月5日:美传奇空头斥资10亿做空英伟达与Palantir,PalantirCEO直言‘简直疯了’
- 2025年11月5日:圆通速递等企业在新疆成立新贸易服务公司,业务聚焦智能与新能源领域
- 2025年11月5日:10月车企销量报告:增长创新高成关键词,上汽蝉联第一、吉利跃居第三
- 2025年11月5日:苹果将推出千元以下Mac笔记本,进军低价笔记本市场
- 2025年11月5日:巴媒:内马尔身体数据远低于顶级球员标准
- 2025年11月5日:欧冠对决:拜仁联赛33球对阵阿森纳10场仅丢3球
- 2025年11月5日:开拓者球员杨瀚森被下放G联赛混音队训练后召回
- 2025年11月5日:欧冠交锋:22岁利物浦年轻边卫锁死皇马巨星成官方MVP
- 2025年11月5日:库里谈特雷-杨:自身NBA打法改变受年轻球员关注
- 2025年11月5日:比亚迪腾势Z双门敞篷版谍照曝光,软顶设计引行业关注
- 2025年11月5日:abee迷你液冷AI工作站AI Station 395 Max正式上架,预售价17999元
- 2025年11月5日:陕西8英寸硅光平台正式通线 总投资7.5亿元
- 2025年11月5日:共享单车冬季体验升级 美团等品牌推出‘暖暖手套’
- 2025年11月5日:中国受访者对AI态度全球最乐观 外媒:乐观成产业发展动力
- 2025年11月5日:复旦硕士创业企业获4亿融资 打破日企20年技术垄断
- 2025年11月5日:闪迪推出全球最小1TB USB-C闪存盘 专为MacBook扩容设计

精彩评论(10)