LongCat-Flash-Omni开源发布,开启全模态实时交互新纪元
(图片来自网络)
11月3日,LongCat-Flash系列迎来重磅升级,全新家族成员LongCat-Flash-Omni正式发布并开源,同时LongCat官方App同步上线公测。
当前,新发布的App已支持联网搜索、语音通话等功能,视频通话等功能则将在后续逐步上线;Web端也新增了图片、文件上传和语音通话等功能,为用户带来更丰富的交互体验。
从技术架构来看,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础,集成了高效多模态感知模块与语音重建模块,在总参数达5600亿(激活参数270亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者拓展多模态应用场景提供了更高效的技术选择。
值得关注的是,这是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型,也是首次在开源范畴内实现对标闭源模型的全模态能力。凭借创新的架构设计与工程优化,LongCat-Flash-Omni让大参数模型在多模态任务中能实现毫秒级响应,有效解决了行业内推理延迟的痛点。
具体来看,该模型在一体化框架中整合了离线多模态理解与实时音视频交互能力,采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由大语言模型(LLM)直接处理输入并生成文本与语音token,再通过轻量级音频解码器重建为自然语音波形,从而实现低延迟的实时交互。所有模块均基于高效流式推理设计,视觉编码器、音频编解码器等轻量级组件参数量约为6亿,延续了LongCat-Flash系列的创新型高效架构设计,实现了性能与推理效率间的最优平衡。
此外,LongCat-Flash-Omni突破了“大参数规模与低延迟交互难以兼顾”的行业瓶颈,在大规模架构基础上实现了高效实时音视频交互。模型总参数达5600亿(激活参数270亿),依托LongCat-Flash系列创新的ScMoE架构(含零计算专家)作为LLM骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,最终实现低延迟、高质量的音视频处理与流式语音生成。模型可支持128K tokens上下文窗口及超8分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具备明显优势。
关于全模态模型训练的核心挑战之一——“不同模态的数据分布存在显著异质性”,LongCat团队采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。综合评估结果表明,LongCat-Flash-Omni在综合性的全模态基准测试(如Omni-Bench、WorldSense等)上达到了开源最先进水平(SOTA),并在文本、图像、音频、视频等各项模态的能力位居开源模型前列,实现“全模态不降智”的结果。
从各模态能力来看:
- 文本:LongCat-Flash-Omni延续了该系列卓越的文本基础能力,且在多领域呈现领先性能,相较于系列早期版本未出现文本能力衰减,部分领域还实现了性能提升。
- 图像理解:该模型性能(RealWorldQA 74.8分)与闭源全模态模型Gemini-2.5-Pro相当,优于开源模型Qwen3-Omni,多图像任务优势显著。
- 音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写维度评估,Instruct Model层表现突出。ASR在LibriSpeech、AISHELL-1等数据集优于Gemini-2.5-Pro;语音到文本翻译(S2TT)在CoVost2表现强劲;音频理解在TUT2017、Nonspeech7k等任务达当前最优;音频到文本对话在OpenAudioBench、VoiceBench表现优异,实时音视频交互评分接近闭源模型,类人性指标优于GPT-4o。
- 视频理解:视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩Gemini-2.5-Pro与Qwen3-VL。
- 跨模态理解:性能优于Gemini-2.5-Flash(非思考模式),比肩Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense基准测试上展现显著优势,印证高效多模态融合能力。
在端到端交互方面,LongCat团队构建了一套专属评测方案,包含定量用户评分(250名用户参与)与定性专家分析(10名专家,200个对话样本)。定量结果显示,LongCat-Flash-Omni在开源模型中展现显著优势,自然度与流畅度评分比当前最优开源模型Qwen3-Omni高出0.56分;定性结果显示,该模型在副语言理解、相关性与记忆能力维度与顶级模型持平,但在实时性、类人性与准确性维度仍有优化空间,团队将在未来工作中进一步改进。
最新新闻
- 2025年11月3日:特斯拉简配策略成行业鲶鱼,中国新能源品牌应对挑战
- 2025年11月3日:360开源视觉语言对齐模型FG-CLIP2 屡破行业测试标杆
- 2025年11月3日:中兴通讯AI家庭产品矩阵亮相,对话负责人解析家端AI理念
- 2025年11月3日:快手双十一皮草节上线,首日皮草GMV同比增长286%
- 2025年11月3日:章泽天蜕变:从“奶茶妹妹”到独立女性 给嫁豪门女性上了一课
- 2025年11月3日:文荣奖红毯:郭宇欣健康身材成焦点,‘白幼瘦’审美引热议
- 2025年11月3日:全国首个奶酪检验检测数据集在上海数据交易所挂牌上链——食品质检数字化新突破
- 2025年11月3日:马伊琍49岁获国际影视肯定,官媒官宣事业新巅峰!
- 2025年11月3日:周杰伦与权志龙IP合作遭质疑 网友吐槽合作模式存疑
- 2025年11月3日:九旬老戏骨李明启谈容嬷嬷角色:承认救场属善意,呼吁网友理性对待
- 2025年11月3日:游本昌四天沉默见证真实人品,金靖发声撑腰成焦点
- 2025年11月3日:悬疑剧《树影迷宫》开播6集热度破8900,刘琳演技点燃观众,悬疑题材迎来新标杆
- 2025年11月3日:海内外专家共议增强抗战叙事 构建人类共同历史记忆
- 2025年11月3日:吉利拟借用沈阳原上汽通用工厂补充银河产能 涉汽车产业资源整合
- 2025年11月3日:马来西亚华裔姐弟海外探索中华文化,成为中马文化连接纽带
- 2025年11月3日:全球媒体聚焦:欧洲媒体称“十五五”规划为连接过去未来的重要纽带
- 2025年11月3日:第八届进博会特稿:乘开放东风 享共赢机遇——中国高水平开放为世界经济注入「东方暖流」
- 2025年11月3日:美联储政策两难 美国经济“裱糊”困境
- 2025年11月3日:双11直播电商转型:从流量博弈到价值沉淀,新标配引领品质化新阶段
- 2025年11月3日:文化中国行|运河之下建起‘水下立交桥’:古水利与现代工程的融合

精彩评论(10)