Gemini Omni：Google 新发布的 AI 视频模型（官方演示 + 使用方式）

Gemini Omni 是 Google 新发布的 AI 视频模型，能把任意输入变成视频。汇总官方全部演示视频、Gemini Omni Flash 能力、是否免费以及 API 开放时间。

Google 在 I/O 上把 Gemini Omni 端了出来。一句话说清楚：你给它几乎任何输入——图片、音频、视频、文字，甚至一张随手画的草图——它给你高质量视频。

这听起来和过去两年每一个视频模型的说辞没区别。但这次不太一样，原因在 Demo 里。Google 连发了五条帖子，我们把视频都扒了下来，直接放给你看，省得你看二手转述的转述。

先认识一下 Gemini Omni

发布预告。一个模型，任意输入，输出视频。

"Meet Gemini Omni——我们的新 AI 模型，能从任意输入创造一切，从视频开始。" —— @Google

这一段值得慢下来看。大多数视频模型学的是画面"长什么样"。Google 的说法是，Gemini Omni 还会推理这个世界"怎么运转"——它把对物理的直觉和 Gemini 的真实世界知识结合在一起。所以倒出来的液体会自然落下，重量落在该落的地方，画面是在"按规律走"，而不是单纯渲染。

照片级真实已经是基本盘，"行为像真实世界"才是新门槛。 —— @Google

图片、音频、视频、文字一起喂给它都行。或者给它一张草图，让它照着你的想法生成。名字里的 "omni" 才是重点：输入这一侧是完全敞开的，不是一个孤零零的提示词框。

图片、音频、视频、文字混着输入，或者直接画。 —— @Google

对大多数人来说，真正戳中的是这条。你靠"说话"来剪自己的素材。换个机位、改个视角、把光打得更电影感——可以来回好几轮。每一句指令都接着上一句走，所以人物保持一致，物理不崩，画面还记得前面发生过什么。塞满关键帧的时间线，变成了你和它的一来一回。

多轮编辑，画面始终记得上下文。 —— @Google

正式上线的版本叫 Gemini Omni Flash，分批开放：

也就是说，创作者先上手，而 API——对要在它上面做开发的人来说最关键的那块——会稍晚一点。（Google 的开放说明帖）

这次押的是"物理 + 推理"这条线。能生成一段好看的五秒片子的模型一大把。但能在你连续四轮重新调度镜头时还把人物保持住的，没几个。如果这种一致性在发布样片之外也站得住，那真正的变化是剪辑流程，而不是生成本身。

它也指向了 Agent 工作正在往哪走。有意思的单位不再是"一次提示词"，而是一段能记住状态的多轮会话——这恰好就是大家已经在 Kollab 里跑的那种活：给模型上下文，多轮迭代，把这条线一直拉得连贯。一个原生就能对视频这么干的模型，会让这类工作流变得具体得多。

别等 API，现在就用最新的视频 AI 开做

Kollab 已经把最新的视频模型放进同一个工作区，就是上面说的那种多轮、记得上下文的用法，开箱即用。

Gemini Omni 是什么？

Google 新发布的 AI 模型，能从任意输入（图片、音频、视频、文字或草图）生成高质量视频，并通过对话编辑已有视频。在 Google I/O 上公布。

Gemini Omni 免费吗？

Gemini Omni Flash 本周起在 YouTube Shorts 和 YouTube Create app 里免费。完整能力先开放给 Gemini app 和 Flow by Google 里的 Google AI Plus、Pro、Ultra 订阅用户。

Gemini Omni 的 API 什么时候开放？

Google 表示，面向开发者和企业的 API 会在面向消费者开放之后的未来几周内推出。

Gemini Omni 和其他视频模型有什么不同？

它把对物理的直觉和 Gemini 的真实世界推理结合起来，并支持多轮对话式编辑——在多条指令之间保持人物和画面状态一致。

素材来源：@Google 在 #GoogleIO 的官方帖子 —— 发布、物理、任意输入、对话式编辑、开放时间。视频用于评论与引用，版权归 Google 所有。