Gemini Omni:Google 新发布的 AI 视频模型(官方演示 + 使用方式)
Gemini Omni 是 Google 新发布的 AI 视频模型,能把任意输入变成视频。汇总官方全部演示视频、Gemini Omni Flash 能力、是否免费以及 API 开放时间。
Google 在 I/O 上把 Gemini Omni 端了出来。一句话说清楚:你给它几乎任何输入——图片、音频、视频、文字,甚至一张随手画的草图——它给你高质量视频。
这听起来和过去两年每一个视频模型的说辞没区别。但这次不太一样,原因在 Demo 里。Google 连发了五条帖子,我们把视频都扒了下来,直接放给你看,省得你看二手转述的转述。
先认识一下 Gemini Omni
发布预告。一个模型,任意输入,输出视频。
它懂物理,不只是懂画面
这一段值得慢下来看。大多数视频模型学的是画面"长什么样"。Google 的说法是,Gemini Omni 还会推理这个世界"怎么运转"——它把对物理的直觉和 Gemini 的真实世界知识结合在一起。所以倒出来的液体会自然落下,重量落在该落的地方,画面是在"按规律走",而不是单纯渲染。
任意输入进,视频出来
图片、音频、视频、文字一起喂给它都行。或者给它一张草图,让它照着你的想法生成。名字里的 "omni" 才是重点:输入这一侧是完全敞开的,不是一个孤零零的提示词框。
剪辑变成了一场对话
对大多数人来说,真正戳中的是这条。你靠"说话"来剪自己的素材。换个机位、改个视角、把光打得更电影感——可以来回好几轮。每一句指令都接着上一句走,所以人物保持一致,物理不崩,画面还记得前面发生过什么。塞满关键帧的时间线,变成了你和它的一来一回。
什么时候、在哪能用
正式上线的版本叫 Gemini Omni Flash,分批开放:
今天 —— 全球 Google AI Plus、Pro、Ultra 订阅用户,在 Gemini app 和 Flow by Google 里。
本周,免费 —— YouTube Shorts 和 YouTube Create app。
未来几周 —— 开发者和企业客户,通过 API。
也就是说,创作者先上手,而 API——对要在它上面做开发的人来说最关键的那块——会稍晚一点。(Google 的开放说明帖)
一点判断
这次押的是"物理 + 推理"这条线。能生成一段好看的五秒片子的模型一大把。但能在你连续四轮重新调度镜头时还把人物保持住的,没几个。如果这种一致性在发布样片之外也站得住,那真正的变化是剪辑流程,而不是生成本身。
它也指向了 Agent 工作正在往哪走。有意思的单位不再是"一次提示词",而是一段能记住状态的多轮会话——这恰好就是大家已经在 Kollab 里跑的那种活:给模型上下文,多轮迭代,把这条线一直拉得连贯。一个原生就能对视频这么干的模型,会让这类工作流变得具体得多。
常见问题
Gemini Omni 是什么?
Google 新发布的 AI 模型,能从任意输入(图片、音频、视频、文字或草图)生成高质量视频,并通过对话编辑已有视频。在 Google I/O 上公布。
Gemini Omni 免费吗?
Gemini Omni Flash 本周起在 YouTube Shorts 和 YouTube Create app 里免费。完整能力先开放给 Gemini app 和 Flow by Google 里的 Google AI Plus、Pro、Ultra 订阅用户。
Gemini Omni 的 API 什么时候开放?
Google 表示,面向开发者和企业的 API 会在面向消费者开放之后的未来几周内推出。
Gemini Omni 和其他视频模型有什么不同?
它把对物理的直觉和 Gemini 的真实世界推理结合起来,并支持多轮对话式编辑——在多条指令之间保持人物和画面状态一致。
素材来源:@Google 在 #GoogleIO 的官方帖子 —— 发布、物理、任意输入、对话式编辑、开放时间。视频用于评论与引用,版权归 Google 所有。