攻克视频生成难题!合工大、清华、智谱开源「多图像参考生视频」框架Kaleido
(图片来自网络)
近年来,视频生成技术发展迅猛,基于扩散模型(Diffusion Model)的文本到视频(T2V)/图像到视频(I2V)等技术不断突破,商业化系统可生成专业级视频,但“主体到视频(S2V)”生成任务更受关注,目标是给定参考图像生成主体一致、背景可控的动态视频,适用于数字人、电商广告等场景。
但现有开源S2V模型存在不足:多主体场景下难以保持一致性,难解耦背景。为此,合肥工业大学、清华大学和智谱团队提出开源框架Kaleido。
核心创新点:
- 数据与条件策略:构建高质量多样化数据流水线(多类主体采样、跨配样本生成、背景擦除增强),提出Reference Rotary Positional Encoding(R-RoPE)条件注入机制,优化多参考图像条件融合。
- 训练策略:两阶段训练(预训练+监督微调),在200万+50万高质量数据上优化。
实验结果亮眼:主体一致性、背景解耦等指标领先,美学质量在开源模型中排名第一,用户调查获高分。但在极端场景(复杂背景、多主体)和长视频一致性仍需优化。
未来将研究轻量化机制、长视频优化等,拓展到多任务统一框架,推动开源视频生成技术发展。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年10月28日:腾势N8L正式发布 售价29.98万起
- 2025年10月28日:中国移动重大人事调整:陈忠岳任董事长、党组书记
- 2025年10月28日:62岁倪夏莲宣布复出 望冲击2028年洛杉矶奥运会
- 2025年10月28日:一图速览‘十五五’时期战略任务和重大举措
- 2025年10月28日:来粤创作,正当其时!广东向全球内容创作者发出邀约
- 2025年10月28日:雄安新区首支AIGC城市主题曲《我们的雄安》发布,科技与音乐奏响未来之城
- 2025年10月28日:十五五民生蓝图:就业、收入、教育等将迎哪些红利?
- 2025年10月28日:前国脚批裁判判罚太牵强 申花比赛争议引热议
- 2025年10月28日:WTT蒙彼利埃冠军赛陈幸同0-3失利遭遇首轮游
- 2025年10月28日:陕西文物焕活力 非遗正青春——高质量发展看陕西
- 2025年10月28日:习主席等十余年前种下的APEC伙伴林今郁郁葱葱,生态合作成果彰显
- 2025年10月28日:渤海湾大国重器:新质生产力推动智能制造新高度
- 2025年10月28日:国际人士点赞纪念台湾光复80周年:意义重大
- 2025年10月28日:党的二十届四中全会将建设现代化产业体系等任务列首位,传递哪些发展信号?
- 2025年10月28日:港澳台人士反响:牢记台湾光复历史 坚决反对分裂
- 2025年10月28日:新华社评论员:牢牢把握高质量发展这个主题——四论学习贯彻党的二十届四中全会精神
- 2025年10月28日:中国-东盟自贸区3.0升级 为区域经济注入新动能
- 2025年10月28日:“十五五”经济发展首位任务:建设现代化产业体系,发展实体经济
- 2025年10月28日:全球媒体聚焦 | 中国-东盟自贸区3.0版议定书签署 外媒关注合作升级
- 2025年10月28日:中国男性健康日:这些‘男’题并不难解

精彩评论(10)