Veo 3.1

Veo3.1是Google DeepMind于2026年1月推出的AI视频生成模型,具备强大的语义理解和多模态参考能力。

核心功能

  • 音频同步: 在生成影像的同时同步合成环境音、对话,实现唇形与声音的自然匹配
  • 深度语义理解: 凭借Gemini的语言处理能力,能够精准执行包含专业镜头语言(如推轨变焦、低角度追踪)的复杂指令
  • 参考图锁定: 支持上传1-3张参考图片(人物草图、产品照或场景设定),提取材质、色调与特征作为“视觉锚点”,确保角色和场景一致性

单次生成时长约8秒,但支持通过“Extend”功能进行场景延伸,可将片段串联成1分钟以上的叙事视频。