Veo3.1是Google DeepMind于2026年1月推出的AI视频生成模型,具备强大的语义理解和多模态参考能力。
核心功能
- 音频同步: 在生成影像的同时同步合成环境音、对话,实现唇形与声音的自然匹配
- 深度语义理解: 凭借Gemini的语言处理能力,能够精准执行包含专业镜头语言(如推轨变焦、低角度追踪)的复杂指令
- 参考图锁定: 支持上传1-3张参考图片(人物草图、产品照或场景设定),提取材质、色调与特征作为“视觉锚点”,确保角色和场景一致性
单次生成时长约8秒,但支持通过“Extend”功能进行场景延伸,可将片段串联成1分钟以上的叙事视频。