LongCat-Flash-Omni开源发布,开启全模态实时交互新纪元

2025年11月3日
news

(图片来自网络)


11月3日,LongCat-Flash系列迎来重磅升级,全新家族成员LongCat-Flash-Omni正式发布并开源,同时LongCat官方App同步上线公测。


当前,新发布的App已支持联网搜索、语音通话等功能,视频通话等功能则将在后续逐步上线;Web端也新增了图片、文件上传和语音通话等功能,为用户带来更丰富的交互体验。



从技术架构来看,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础,集成了高效多模态感知模块与语音重建模块,在总参数达5600亿(激活参数270亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者拓展多模态应用场景提供了更高效的技术选择。


值得关注的是,这是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型,也是首次在开源范畴内实现对标闭源模型的全模态能力。凭借创新的架构设计与工程优化,LongCat-Flash-Omni让大参数模型在多模态任务中能实现毫秒级响应,有效解决了行业内推理延迟的痛点。



具体来看,该模型在一体化框架中整合了离线多模态理解与实时音视频交互能力,采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由大语言模型(LLM)直接处理输入并生成文本与语音token,再通过轻量级音频解码器重建为自然语音波形,从而实现低延迟的实时交互。所有模块均基于高效流式推理设计,视觉编码器、音频编解码器等轻量级组件参数量约为6亿,延续了LongCat-Flash系列的创新型高效架构设计,实现了性能与推理效率间的最优平衡。


此外,LongCat-Flash-Omni突破了“大参数规模与低延迟交互难以兼顾”的行业瓶颈,在大规模架构基础上实现了高效实时音视频交互。模型总参数达5600亿(激活参数270亿),依托LongCat-Flash系列创新的ScMoE架构(含零计算专家)作为LLM骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,最终实现低延迟、高质量的音视频处理与流式语音生成。模型可支持128K tokens上下文窗口及超8分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具备明显优势。



关于全模态模型训练的核心挑战之一——“不同模态的数据分布存在显著异质性”,LongCat团队采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。综合评估结果表明,LongCat-Flash-Omni在综合性的全模态基准测试(如Omni-Bench、WorldSense等)上达到了开源最先进水平(SOTA),并在文本、图像、音频、视频等各项模态的能力位居开源模型前列,实现“全模态不降智”的结果。



从各模态能力来看:


  • 文本:LongCat-Flash-Omni延续了该系列卓越的文本基础能力,且在多领域呈现领先性能,相较于系列早期版本未出现文本能力衰减,部分领域还实现了性能提升。

  • 图像理解:该模型性能(RealWorldQA 74.8分)与闭源全模态模型Gemini-2.5-Pro相当,优于开源模型Qwen3-Omni,多图像任务优势显著。

  • 音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写维度评估,Instruct Model层表现突出。ASR在LibriSpeech、AISHELL-1等数据集优于Gemini-2.5-Pro;语音到文本翻译(S2TT)在CoVost2表现强劲;音频理解在TUT2017、Nonspeech7k等任务达当前最优;音频到文本对话在OpenAudioBench、VoiceBench表现优异,实时音视频交互评分接近闭源模型,类人性指标优于GPT-4o。

  • 视频理解:视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩Gemini-2.5-Pro与Qwen3-VL。

  • 跨模态理解:性能优于Gemini-2.5-Flash(非思考模式),比肩Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense基准测试上展现显著优势,印证高效多模态融合能力。




在端到端交互方面,LongCat团队构建了一套专属评测方案,包含定量用户评分(250名用户参与)与定性专家分析(10名专家,200个对话样本)。定量结果显示,LongCat-Flash-Omni在开源模型中展现显著优势,自然度与流畅度评分比当前最优开源模型Qwen3-Omni高出0.56分;定性结果显示,该模型在副语言理解、相关性与记忆能力维度与顶级模型持平,但在实时性、类人性与准确性维度仍有优化空间,团队将在未来工作中进一步改进。


(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-03 13
    希望未来能优化得更好,期待更新后更多功能!
  • 网友9 2025-11-03 13
    视频和音频能力都很强,以后 multimedia 应用的可能更多了!
  • 网友8 2025-11-03 13
    端到端交互评分领先,说明用户感受更好,开心!
  • 网友7 2025-11-03 13
    基准测试表现那么好,说明实用性很高,以后工作可能用得到!
  • 网友6 2025-11-03 13
    全模态处理让不同场景都适用,训练策略也挺创新的,很看好!
  • 网友5 2025-11-03 13
    大参数量还能低延迟,技术突破确实很振奋,科技发展太快了!
  • 网友4 2025-11-03 13
    作为普通用户,感觉以后和AI交互更自然流畅了,很期待!
  • 网友3 2025-11-03 13
    学人工智能的朋友有福了,新模型性能这么强,未来应用场景肯定广泛!
  • 网友2 2025-11-03 13
    长Cat这个系列越做越好,全模态实时交互太有用了!
  • 网友1 2025-11-03 13
    这个开源大模型很厉害,以后多模态交互肯定方便很多呀!
查看“LongCat-Flash-Omni开源发布,开启全模态实时交互新纪元”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙