可灵视频 3.0 模型使用指南
📌
视频 3.0:音画同步升级,主体一致性增强,支持多镜头叙事
在可灵视频 O1 和可灵视频 2.6 的基础之上,可灵 3.0 系列模型基于深度融合的统一模型训练框架,实现了更原生的多模态输入和输出,将音画同步能力和主体一致性控制能力融合,并且突破了时长限制。
在支持更长视频生成(15s)的同时,可灵 3.0 系列模型支持原生直出音画,并实现了高度灵活的分镜控制能力与更精准的语义响应精度,为 AI 影像内容注入生命力,整体画面真实感显著提升,人物演绎更具表演张力。基于新一代的统一多模态大模型,可灵视频 2.6 模型升级为视频 3.0,可灵视频 O1 模型升级为视频 3.0 Omni,带来可控性与叙事力的全面进化。
📎
可灵视频 3.0 Omni 使用指南:可灵视频 3.0 Omni 使用指南
可灵视频 3.0 能力升级
可灵视频 3.0 模型亮点
1)智能分镜:AI导演入驻,一键直出电影感
告别单镜头堆砌,让AI读懂你的剧本。全新智能分镜系统,能敏锐捕捉Prompt中的场景流转,自动调度景别与机位——从经典的对话正反打,到进阶的台词跨分镜、画外音,各类高阶视听语言模型均能精准响应。无需繁琐后期,一次生成,即是一场成熟的影像叙事,让复杂的视听表达对每一位创作者触手可及。
2)全球首创 图生视频 + 主体参考:锁定视觉核心,主角始终如一
依托底层模型多模态特征的深度理解,支持在图生视频基础上,额外添加多图主体/视频主体,对画面中的特定元素进行二次锚定,让模型能像专业的选角导演一样,牢牢锁定主角、道具与场景特征。任凭镜头如何推拉摇移,视觉主体始终稳定如一。
3)全能音画:角色定向驱动,语言无界混说
音画同步能力重磅升级,实现文本与视觉角色的精准映射。多人同框下,想让谁说,就谁来说,彻底解决指代混乱难题。
同时支持多语种(中、英、日、韩、西)及地道方言和口音的演绎,甚至多语混说。无论是职场中的双语切换,还是生活流的方言对白,口型与神态均自然流畅,毫无违和感。
4)原生级文字:字形精准,信息无损
无论是保留原图中的招牌、字幕细节,还是生成全新的文字内容,模型都能确保字迹清晰、结构严谨。不仅提升视频的物理真实感,更直接满足电商广告等多场景对文字信息的高保真需求。