字节开源Seed-OSS-36B大模型 支持超长上下文512K,技术细节公开

2025年8月21日
news

(图片来自网络)

近日,字节跳动Seed团队正式开源其研发的Seed-OSS-36B大模型,该模型支持超长512k上下文窗口,为开发者提供了丰富版本与开源的便利。

该模型包含三种版本:Seed-OSS-36B-Base(含合成数据)Seed-OSS-36B-Base(不含合成数据)Seed-OSS-36B-Instruct(指令微调版),均在Hugging Face和GitHub上可获取,采用Apache-2.0许可证开源。

核心能力与特性:

  • 超长上下文支持:原生支持最长512k tokens上下文窗口,可处理超长文档与复杂推理链,相当于1600页文本长度。
  • 灵活推理预算:允许用户根据需求动态调整推理长度与过程,提升推理效率,类似近期开源模型的设计思路。
  • 多任务优化:在通用能力与推理、智能体任务(如工具使用、问题解决)等方面表现突出,多个测试中达SOTA。
  • 研究友好:同时提供含与不含指令数据的预训练模型,为研究社区提供多样化选择。

训练与性能
该模型使用12万亿(12T)tokens训练,在MMLU-Pro(65.1分)、MATH(81.7分)等基准测试中表现优异;Instruct版在AIME24(91.7%)、LiveCodeBench(67.4分)等任务达开源领域SOTA,并在RULER(128K上下文)测试中取得94.6分,创下开源模型纪录。

模型架构
Seed-OSS-36B采用因果语言建模等先进架构,包含360亿参数、64层网络,支持15.5万词表,结合分组查询注意力、SwiGLU激活函数等技术,保障性能与效率。

应用建议:推荐推理预算为512 tokens倍数,如512、1K等,未设置时默认无限推理,0表示直接输出答案模式。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-08-21 11
    参数量、训练数据、架构设计都很先进,推测未来应用会更广泛。
  • 网友9 2025-08-21 11
    虽然我不懂技术,但感觉以后用手机应用更智能,方便多了。
  • 网友8 2025-08-21 11
    大模型对教育领域有帮助,处理长文本资料更方便,学生也受益。
  • 网友7 2025-08-21 11
    以后写小说能处理超长内容,创作更自由了,期待新功能。
  • 网友6 2025-08-21 11
    大模型发展这么快,以后科技产品能更智能了,期待应用。
  • 网友5 2025-08-21 11
    模型架构和推理预算的设计很实用,以后项目里用的话效率肯定提升。
  • 网友4 2025-08-21 11
    终于有个模型能处理我写的一堆作业啦,支持超长上下文太方便了~
  • 网友3 2025-08-21 11
    开源模型资源宝贵,这参数和训练量值得研究,特别是上下文长度的处理很前沿。
  • 网友2 2025-08-21 11
    大模型发展很快,家里小孩说这技术以后用得着,打算看看应用场景。
  • 网友1 2025-08-21 11
    这太酷了,512k上下文太强大,以后处理长文档方便了!
查看“字节开源Seed-OSS-36B大模型 支持超长上下文512K,技术细节公开”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙