攻克视频生成难题！合工大、清华、智谱开源「多图像参考生视频」框架Kaleido

2025年10月28日

（图片来自网络）

近年来，视频生成技术发展迅猛，基于扩散模型（Diffusion Model）的文本到视频（T2V）/图像到视频（I2V）等技术不断突破，商业化系统可生成专业级视频，但“主体到视频（S2V）”生成任务更受关注，目标是给定参考图像生成主体一致、背景可控的动态视频，适用于数字人、电商广告等场景。

但现有开源S2V模型存在不足：多主体场景下难以保持一致性，难解耦背景。为此，合肥工业大学、清华大学和智谱团队提出开源框架Kaleido。

核心创新点：

数据与条件策略：构建高质量多样化数据流水线（多类主体采样、跨配样本生成、背景擦除增强），提出Reference Rotary Positional Encoding（R-RoPE）条件注入机制，优化多参考图像条件融合。
训练策略：两阶段训练（预训练+监督微调），在200万+50万高质量数据上优化。

实验结果亮眼：主体一致性、背景解耦等指标领先，美学质量在开源模型中排名第一，用户调查获高分。但在极端场景（复杂背景、多主体）和长视频一致性仍需优化。

未来将研究轻量化机制、长视频优化等，拓展到多任务统一框架，推动开源视频生成技术发展。