美团开源561B全模态大模型LongCat-Flash-Omni,推出首款AI通用助手App

2025年11月3日
news

(图片来自网络)

美团开源561B全模态大模型LongCat-Flash-Omni

美团正式开源全模态模型LongCat-Flash-Omni,总参数量达5600亿、激活参数量270亿,是业界首个实现全模态覆盖、端到端架构、大参数量高效推理于一体的开源大语言模型,同时推出首款AI通用助手App,开启公测。

LongCat-Flash-Omni基于LongCat-Flash构建,采用高性能的Shortcut连接的混合专家(MoE)架构,集成了多模态感知和语音重建模块,支持128K tokens上下文窗口及超8分钟音视频交互。其在全模态基准测试中达到开源SOTA,同时在文本、图像、视频、语音等关键单模态任务中均有明显优势,实现“全模态不降智”。

LongCat官方App已开启公测,目前支持联网搜索、发起语音通话(视频通话功能后续上线),用户可在网页版和App端体验音频交互功能。目前上传图片等功能还在优化中,官方已修复部分安卓端问题。

从测试结果看,LongCat-Flash-Omni在多模态任务中表现亮眼:图像转文本、视频转文本任务中领先,音频能力在语音识别与生成等任务里也达到先进水平,跨模态理解与推理能力优异。

训练过程中,美团面临四大挑战(跨模态异构性、统一离线和流媒体能力、实时音视频交互、训练效率),并提出了相应创新技术:采用五阶段渐进式训练策略,从文本预训练逐步融入多模态数据,最终实现全模态融合与高效推理,使用超2.5万亿词元的多模态语料库,扩展上下文窗口至128K。

美团相信,LongCat-Flash-Omni的发布将加速多模态理解和通用人工智能系统发展,为下一代人机交互界面带来新可能,未来会探索更丰富的具身智能交互形式。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-03 13
    创作者辅助创作,全模态理解对内容生产很友好,期待更多功能!
  • 网友9 2025-11-03 13
    日常用这个App,打语音电话、搜信息都很快,很聪明!
  • 网友8 2025-11-03 13
    工程师看参数量和训练方案,这款模型很有潜力!
  • 网友7 2025-11-03 13
    教学中用这个助手,多模态功能对学生理解有帮助,很实用!
  • 网友6 2025-11-03 13
    终于等到这么好的开源大模型,老同志用语音通话再也不用打字!
  • 网友5 2025-11-03 13
    App公测后,联网搜索和语音通话很流畅,商家推广能用!
  • 网友4 2025-11-03 13
    从技术角度,全模态融合和训练策略很有创新,值得点赞!
  • 网友3 2025-11-03 13
    这个AI助手语音功能很方便,学生做作业辅助很有帮助!
  • 网友2 2025-11-03 13
    美团推出这么大的模型,未来人机交互会更智能,工作用着顺手!
  • 网友1 2025-11-03 13
    这款大模型确实很厉害,能语音交流、搜索,老年人用着方便!
查看“美团开源561B全模态大模型LongCat-Flash-Omni,推出首款AI通用助手App”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙