攻克视频生成难题!合工大、清华、智谱开源「多图像参考生视频」框架Kaleido

2025年10月28日
news

(图片来自网络)

近年来,视频生成技术发展迅猛,基于扩散模型(Diffusion Model)的文本到视频(T2V)/图像到视频(I2V)等技术不断突破,商业化系统可生成专业级视频,但“主体到视频(S2V)”生成任务更受关注,目标是给定参考图像生成主体一致、背景可控的动态视频,适用于数字人、电商广告等场景。

但现有开源S2V模型存在不足:多主体场景下难以保持一致性,难解耦背景。为此,合肥工业大学、清华大学和智谱团队提出开源框架Kaleido。

核心创新点:

  • 数据与条件策略:构建高质量多样化数据流水线(多类主体采样、跨配样本生成、背景擦除增强),提出Reference Rotary Positional Encoding(R-RoPE)条件注入机制,优化多参考图像条件融合。
  • 训练策略:两阶段训练(预训练+监督微调),在200万+50万高质量数据上优化。

实验结果亮眼:主体一致性、背景解耦等指标领先,美学质量在开源模型中排名第一,用户调查获高分。但在极端场景(复杂背景、多主体)和长视频一致性仍需优化。

未来将研究轻量化机制、长视频优化等,拓展到多任务统一框架,推动开源视频生成技术发展。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-10-28 11
    视频生成技术越来越智能,这次的多图像参考框架很有前瞻性。
  • 网友9 2025-10-28 11
    开源项目值得支持,让技术更普及,希望更多场景能用上。
  • 网友8 2025-10-28 11
    在多主体视频生成上解决了一致性和背景问题,这对行业很重要。
  • 网友7 2025-10-28 11
    技术进步让创意更轻松,Kaleido的框架很创新,期待后续优化。
  • 网友6 2025-10-28 11
    终于有好的开源工具了,之前要复杂的技术现在能轻松实现了。
  • 网友5 2025-10-28 11
    开源模型发展很快,这次在S2V领域取得进展,未来肯定有用处。
  • 网友4 2025-10-28 11
    多图像参考生视频技术突破,对数字艺术创作很有帮助,值得称赞。
  • 网友3 2025-10-28 11
    Kaleido解决了关键难题,以后做创意视频更专业了,赞!
  • 网友2 2025-10-28 11
    开源框架很厉害,让更多人能做高质量视频,推动行业进步。
  • 网友1 2025-10-28 11
    这个技术太棒了,以后做数字人、虚拟场景会方便很多,期待应用落地!
查看“攻克视频生成难题!合工大、清华、智谱开源「多图像参考生视频」框架Kaleido”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙