ChatGPT Image 2 + Seedance：画像を短い動画に変換するシンプルなワークフロー

数分でテキストから動画へ — GPT Image 2とSeedance 2が2段階のAIパイプラインを形成します。実例とすぐに使えるプロンプトも含まれています。

長い間、画像を動画に変換することは賭けのようなものでした。うまくいくかどうかはほとんど運次第で、顔のズレ、物体の歪み、スタイルの崩壊などは、すべて当たり前のことでした。しかし、今は状況が異なります。GPT Image 2は、イラスト、ポスター、シーンの静止画など、意図的な構図を持った静止画像を生成でき、Seedance 2は映画的なカメラワークを用いて、それらを物理的に説得力のある方法で生き生きと動かすことができます。これらを組み合わせることで、テキストの説明からわずか数分でショート動画を作成できるパイプラインが完成します。カメラも、スタッフも、編集ソフトも一切必要ありません。

本記事では、これら2つのモデルを紹介し、すぐに使えるプロンプトを用いた2つの実例を解説するとともに、Kollabが単一のチャットウィンドウ内でこれらをどのように統合するかを示します。

2つの主要モデル

ChatGPT Image 2

GPT Image 2は、プロンプトの背後にあるシーン、関係性、意図を理解した上で、それに応じて画像をレンダリングします。「日差しの差し込むカフェで本を読む女性、リネンのテーブルクロス、通りすがりの人々にわずかなモーションブラー」と描写すれば、その特定の編集的な瞬間が得られます。ありふれたカフェのストック写真でも、無難で特徴のないポートレートでもなく、あなたが描写したまさにその一コマです。

画像内のテキストを描画する際の精度（以前のモデルでは完全に機能しなかった領域）は、ポスターデザイン、ソーシャルメディア用グラフィック、ブランド資産の作成において、真に実用的なレベルに達しています。単一のプロンプト内で、複数の被写体が存在するシーン、一貫した照明、スタイルの参照にも対応可能です。動画制作ワークフローにおいて最も重要な点は、構図的に安定したキーフレーム（水平線がまっすぐで、被写体が地面にしっかり固定され、意図的な余白が確保されたもの）を生成できることです。これはまさに、アニメーションモデルが入力として必要とするものです。

Seedance 2

以前の動画モデルと比較して、Seedance 2は時間的な一貫性が著しく向上しています。顔のズレが少なく、色持ちが良く、物体の動きが物理法則に従ってより説得力を持って再現されます。キーフレーム画像（例えば、パン屋のカウンターの静止画など）を与えると、物体の関係性を維持し、環境の動きを自然に見せる能力が向上しています。ペストリーは皿の上に残り、蒸気の挙動は現実的であり、手の動きには実際の物理的な重みを感じさせます。

このモデルは、ソーシャルメディアコンテンツの中核である雰囲気やライフスタイルの動きを表現するのに特に優れています。微妙なレンズのズームイン、手持ちカメラのような質感、立ち上る蒸気、舞い落ちる花びら、揺らめく光、液体の注ぎ込み、テーブルに何かを置く手。こうした微細な動きのディテールは、入念に生成された静止画を、まるで実際に撮影されたかのような映像へと変貌させます。ブランドコンテンツやソーシャルメディア向けのショート動画において、この違いは極めて重要です。

出力時間は5～10秒です。これは、プラットフォーム動画のループ再生、Reelsのオープニング、広告クリエイティブ、自動再生用カバー動画に最適な長さです。一瞬の瞬間を印象づけるには十分な長さであり、ループ再生しても飽きさせないほど短い長さです。

実例2つ

以下の2つの例には、初代モデルでの使用に最適化された、そのまま使えるプロンプトが含まれています。

例01 — 静かな読書の一瞬：カジュアルなスナップ写真 → 映画のような雰囲気

スマホのカメラが捉えるのは「瞬間」であり、「静止画」ではありません。光は平坦で、構図は不自然、背景は雑然としています。しかし、そのシーンが醸し出す雰囲気——本に没頭する少女、ガラス越しに差し込む午後の光、時間が止まったような世界——は、きちんと保存する価値があります。そこでGPT Image 2の出番です。感情的な瞬間を描写すれば、意図が込められた写真が手に入ります。そしてSeedanceがその静止画を生き生きとした記憶へと変えます。ページがゆっくりとめくられ、光の柱の中をほこりの粒が漂い、ゆったりとした息遣いが、その瞬間を演出されたものではなく、現実のものとして感じさせます。

ステップ1 — ChatGPT Image 2

プロンプト例： 大きな窓際の小さなカフェのテーブルで、静かに本を読んでいる、長い黒髪の若い女性の自然なスナップ写真。ポーズをとっていないiPhoneや手持ち撮影のような瞬間を切り取った、リアルでドキュメンタリー風の写真。窓から差し込む暖かい午後の日差しで、照明はわずかに不均一、自然な影、光の中にほのかな埃が舞っている。リラックスした姿勢、カジュアルな服装、少し乱れた髪。背景の人や物がぼやけており、居心地の良いカフェの雰囲気。ソフトな被写界深度、穏やかなフィルムの粒子感、落ち着いた暖色系、リアルな肌の質感、不完全なフレーミング。16:9。

ChatGPT Image 2 + Seedance：画像を短い動画に変換するシンプルなワークフロー image

ステップ2 — Seedance 2

サンプルプロンプト： 提供された画像をビジュアルおよびシーンの参考として、自然でリアルな動きを取り入れた8秒間のシネマティックなカフェVlogを作成してください。iPhoneで手持ち撮影したようなカメラワーク、暖かい午後の日差し、居心地の良い本物のカフェの雰囲気。若い女性が静かに本を読み、ゆっくりとページをめくり、少し姿勢を正し、テーブルの上で優しく手を動かす様子を描いてください。微かな髪の動き、日差しの中を舞うほこり、そして背景の活動は柔らかくぼかされています。リアルで自然な雰囲気、ドキュメンタリー風、浅い被写界深度、柔らかなフィルムグレイン、落ち着いた温かみのある色調、滑らかで自然な動き。劇的なカメラワークやコマーシャル調の演出は避けてください。

事例 02 —ベーカリーブランドのコンテンツ：ポスター → 商品リール

小規模な飲食ブランドがソーシャルメディアで競争するために、写真家やフードスタイリスト、制作チームを雇う必要はありません。必要なのは、人々を店へと誘い込むようなコンテンツです。温かみのある光、魅力的な質感、そしてクロワッサンがまるでオーブンから取り出したばかりのように見えるような、自然な動きです。GPT Image 2がポスターを担当します：ハイエンドなフードフォトグラフィーの構図、適切な素材の質感、画像に直接レンダリングされたブランドコピー。 Seedanceは「生き生きとした動き」を担当します。ペイストリーから立ち上る湯気、テーブルにコーヒーカップを置く手、開店前の早朝の光が醸し出す独特の雰囲気などです。

この組み合わせ——デザインされた静止画のポスターと動画リールの組み合わせ——こそが、フードブランドのエンゲージメントを高めるコンテンツ形式です。2つの素材、2つのプロンプト、制作予算はゼロ。ポスターはフィード画像やストーリーズに投稿し、動画はリールや広告クリエイティブに使用します。両方を運用し、どのフォーマットにオーディエンスが反応するかを確認しましょう。

ステップ1 — ChatGPT画像2

プロンプト例： 「Golden Crumb」というアットホームなベーカリー向けの、高級感のあるソーシャルメディア用ポスターを作成してください。柔らかな朝日が差し込む窓際の木製テーブルの上に、クロワッサン、イチゴのクリームケーキ、素朴なパンを配置してください。日本のミニマリズムとモダンなライフスタイルブランディングを融合させ、温かみのあるクリーム色とベージュのトーン、すっきりとしたエディトリアルレイアウトで表現してください。テキストとして「Golden Crumb」と「毎朝焼きたて」を含めてください。ハイエンドなフードフォトグラフィースタイル、紙の質感をほのかに感じさせるもの、アスペクト比4:5。

ステップ2 — Seedance 2

サンプルプロンプト： 10秒間の居心地の良いベーカリーの朝のVlog。iPhoneで手持ち撮影したようなスタイルで、温かみのある自然光と柔らかなベージュトーンを表現してください。オーブンから取り出されたばかりのクロワッサン、セラミックプレートに盛られた完成したストロベリーショートケーキ、そして細身の女性の手に運ばれてテーブルに置かれたラテアートのカプチーノを映し出します。清潔感のある和風ベーカリーの雰囲気、リアルな食品の質感、浅い被写界深度、滑らかで自然なカットの切り替え、穏やかで居心地の良いソーシャルメディア用リールの美学を表現してください。

Kollabの活用

この一連のプロセスは、Kollabのチャットウィンドウ1つで実行可能です。APIキーも、ツールの切り替えも、手動でのファイル転送も不要です。Kollabは、GPT Image 2、Seedance 2、ウェブ検索、コード実行、ドキュメント生成といった最先端のモデルを1か所に統合したAIワークベンチです。まず画像生成のプロンプトを送信し、画像が準備できたら動画のプロンプトを送信します。その際、Kollabに対してどの画像を使用するか、またどのように使用するか（最初のフレームとして、またはスタイルの参照として）を指示します。両方のステップはユーザーが主導し、Kollabがモデルへの呼び出しを行い、統一されたタスクパネルですべての出力を管理します。

ライブデモ：漫画キャラクター → アニメーションイントロ

例えば、テック系スタートアップのブランドマスコットとして、漫画風のキツネを作成するとします。Kollab内で直接ChatGPT Image 2にキャラクターの詳細を説明します。パーカー、光るノートパソコン、フラットなイラストスタイル、ネオンブルーのアクセントを一点加えたモランディ・パレットなどです。数秒で画像が生成されます。

キーフレームが完成したら、2つ目のプロンプトを入力します。今度はSeedanceに指示を出します。動きを説明します：ピクピク動く耳、脈打つノートパソコンの画面、揺れるドローストリング。6秒後、静止画に命が吹き込まれます。

2つのプロンプト。同じウィンドウ。チャット画面を離れることなく、キツネはテキストの描写からループするアニメーションへと変貌を遂げました。

初めての動画を作成しよう

どちらのモデルも、現在Kollabで直接利用可能です。会話を開き、思い描いている画像を説明し、その後に動きの説明を続けてください。一連の作業にかかる入力時間は約2分です。

→Kollab で作成を開始

2つの主要モデル

ChatGPT Image 2

Seedance 2

実例2つ

例01 — 静かな読書の一瞬：カジュアルなスナップ写真 → 映画のような雰囲気

事例 02 —ベーカリーブランドのコンテンツ：ポスター → 商品リール

Kollabの活用

ライブデモ：漫画キャラクター → アニメーションイントロ

初めての動画を作成しよう

このテーマをさらに読む

関連記事

ChatGPT Image 2 ガイド：AI生成画像から自動化されたコンテンツワークフローまで

Pitch Deck AI：AIで投資家向けピッチデックを作成する方法

PowerPointの使い方：基礎からAI自動化までの完全ガイド（2026年版）