Gemini Omni:GoogleのAI動画モデル、デモ動画&使い方まとめ
Gemini OmniはGoogleの新しいAIモデルで、あらゆる入力を動画に変換します。公式デモ、Gemini Omni Flashの機能、無料で使えるか、APIのリリース時期をすべて解説。
Googleが I/O のステージで Gemini Omni を発表しました。一言で言えばシンプル:画像、音声、動画、テキスト、ラフなスケッチなど、あらゆる入力を受け取り、高品質な動画に変換するモデルです。
ここ2年でよく聞かれる動画モデルの売り文句と同じに聞こえるかもしれません。でも違います。その証拠がデモです。Googleは立て続けに5本の投稿を公開しました。自分の目で判断できるよう、クリップをそのままお届けします。
Gemini Omni を紹介
お披露目の瞬間。1つのモデル、あらゆる入力、そして動画を出力。
ピクセルだけでなく、物理を理解する
ここが一番重要なポイントです。ほとんどの動画モデルはシーンの「見た目」を学習します。しかしGoogleの主張は、Gemini Omniは世界の「仕組み」を推論するというものです。直感的な物理感覚とGeminiの現実世界の知識を組み合わせることで、液体を注げば自然に落ち着き、重さは重さらしく着地し、映像が単なるレンダリングではなく「振る舞い」を見せます。
あらゆる入力を受け付け、動画を出力
画像、音声、動画、テキストを組み合わせて入力できます。スケッチを渡してビジョンを実現することも。「omni(オムニ)」という名前がすべてを物語っています。入力の幅は広く開かれており、単一のプロンプトボックスに縛られていません。
編集は会話になった
多くの人にとって最も印象的な機能がこれです。自分の映像に「話しかける」だけで編集できます。アクションのリフレーム、視点の変更、映像をよりシネマティックな照明に — 複数ターンにわたって。各指示は前の指示を積み重ね、キャラクターの一貫性が保たれ、物理法則も維持され、シーンは直前の流れを記憶します。キーフレームだらけのタイムラインが、対話式のやり取りに変わります。
いつ、どこで使えるか
出荷されるティアは Gemini Omni Flash で、段階的にロールアウトされます:
本日より — 世界中のGoogle AI Plus、Pro、Ultraサブスクライバー向け。Gemini アプリ および Flow by Google で利用可能。
今週中、無料で — YouTube Shorts および YouTube Create アプリ。
数週間以内 — 開発者・企業向けにAPIで提供。
クリエイターが先行してハンズオンでき、APIは — 上で構築する側にとって重要な部分 — 少し遅れて登場します。(Googleのロールアウト投稿)
率直な感想
物理×推論というアプローチがこのモデルの賭けです。きれいな5秒クリップを生成できるモデルは山ほどあります。しかし、4回連続でショットを交渉しながらキャラクターの一貫性を保てるモデルはほとんどいません。ローンチリールの外でもその一貫性が保たれるなら、本当の変革は「生成」ではなく「編集ワークフロー」にあります。
エージェント作業の行き先も示唆しています。面白い単位は単一のプロンプトではなく、状態を記憶するマルチターンセッションになる — まさに人々がすでに Kollab の中で行っている作業の形です:モデルにコンテキストを与え、複数ターンで反復し、スレッドを一貫させる。動画でそれをネイティブにこなせるモデルは、これらのワークフローをより具体的なものにします。
FAQ
Gemini Omni とは何ですか?
Googleの新しいAIモデルで、画像・音声・動画・テキスト・スケッチなどあらゆる入力から高品質な動画を生成し、会話を通じて既存動画を編集します。Google I/Oで発表されました。
Gemini Omni は無料ですか?
Gemini Omni Flashティアは今週より YouTube Shorts および YouTube Create アプリで無料提供されます。フルアクセスはGemini アプリとFlow by GoogleでGoogle AI Plus、Pro、Ultraサブスクライバーに先行提供されます。
Gemini Omni APIはいつ利用可能になりますか?
Googleによると、コンシューマー向けロールアウトの後、数週間以内に開発者・企業向けAPIアクセスが提供される予定です。
Gemini Omni が他の動画モデルと違う点は何ですか?
直感的な物理理解とGeminiの現実世界の推論を組み合わせ、複数ターンの会話編集において、指示をまたいでキャラクターとシーンの状態を一貫して保ちます。
出典:#GoogleIO での @Google の公式投稿 — 発表、物理、あらゆる入力、会話編集、ロールアウト。クリップはコメントおよび参考目的で埋め込み;著作権はすべてGoogleに帰属します。