Gemini Omni: Google의 새 AI 동영상 모델, 데모 & 사용법 완벽 정리

Gemini Omni는 모든 입력을 동영상으로 바꾸는 Google의 새 AI 모델입니다. 공식 데모 전체, Gemini Omni Flash의 기능, 무료 여부, API 출시 일정까지 한 번에 확인하세요.

Google이 I/O 무대에서 Gemini Omni를 공개했습니다. 한 줄로 설명하면 간단합니다. 이미지, 오디오, 동영상, 텍스트, 심지어 러프 스케치까지 — 거의 모든 입력을 받아 고품질 동영상으로 변환하는 모델입니다.

지난 2년간 수없이 들어온 동영상 모델 홍보 문구처럼 들릴 수 있습니다. 하지만 다릅니다. 그 이유는 데모에 있습니다. Google은 연달아 다섯 개의 게시물을 공개했습니다. 요약 글을 읽는 대신 직접 판단할 수 있도록 클립을 그대로 가져왔습니다.

Gemini Omni 소개

공개의 순간. 하나의 모델, 어떤 입력이든, 동영상 출력.

"Gemini Omni를 소개합니다 — 어떤 입력으로도 무엇이든 만들 수 있는 새로운 AI 모델, 동영상으로 시작합니다." — @Google

픽셀이 아닌 물리를 이해한다

이 부분이 핵심입니다. 대부분의 동영상 모델은 장면이 '어떻게 보이는지'를 학습합니다. Google의 주장은 Gemini Omni가 세상이 '어떻게 작동하는지'를 추론한다는 것입니다. 직관적인 물리 감각과 Gemini의 실세계 지식을 결합해, 부은 액체는 자연스럽게 가라앉고, 무게는 있어야 할 곳에 떨어지며, 결과물이 단순 렌더링이 아니라 실제처럼 '행동'합니다.

포토리얼리즘은 이제 기본. 실세계처럼 행동하는 것이 새로운 기준. — @Google

어떤 입력이든, 동영상으로 출력

이미지, 오디오, 동영상, 텍스트를 함께 입력하거나, 스케치를 건네고 비전을 실현할 수 있습니다. 이름의 'omni'가 핵심입니다. 입력 측이 활짝 열려 있고, 단일 프롬프트 박스에 갇혀 있지 않습니다.

이미지·오디오·동영상·텍스트를 조합 — 또는 스케치로. — @Google

편집이 대화가 되다

많은 사람에게 가장 인상적인 기능입니다. 자신의 영상에 '말을 걸어서' 편집합니다. 액션을 리프레임하고, 시점을 바꾸고, 조명을 더 시네마틱하게 — 여러 턴에 걸쳐. 각 지시는 이전 지시 위에 쌓이며 캐릭터 일관성이 유지되고, 물리도 지켜지며, 장면은 직전의 흐름을 기억합니다. 키프레임으로 가득한 타임라인이 자연스러운 대화로 바뀝니다.

장면이 기억을 유지하며 이어지는 멀티턴 편집. — @Google

어디서, 언제 사용할 수 있나

출시되는 티어는 Gemini Omni Flash이며, 단계적으로 롤아웃됩니다:

오늘부터 — 전 세계 Google AI Plus, Pro, Ultra 구독자 대상. Gemini 앱 및 Flow by Google에서 이용 가능.
이번 주, 무료로 — YouTube Shorts 및 YouTube Create 앱.
향후 몇 주 내 — API를 통해 개발자 및 기업 고객에게 제공.

크리에이터가 먼저 체험하고, API는 — 위에서 구축하는 쪽에 중요한 부분 — 조금 뒤에 나옵니다. (Google 롤아웃 게시물)

한 줄 총평

물리×추론 접근법이 이 모델의 승부수입니다. 예쁜 5초 클립을 생성하는 모델은 넘칩니다. 하지만 4번 연속 쇼트를 재협상하면서도 캐릭터 일관성을 유지하는 모델은 거의 없습니다. 런치 릴 밖에서도 일관성이 유지된다면, 진짜 변화는 '생성'이 아니라 '편집 워크플로'에 있습니다.

에이전트 작업이 나아갈 방향도 보여줍니다. 흥미로운 단위는 단일 프롬프트가 아니라 상태를 기억하는 멀티턴 세션이 됩니다 — 사람들이 이미 Kollab 안에서 하고 있는 작업의 형태입니다: 모델에 컨텍스트를 주고, 여러 턴에 걸쳐 반복하며, 스레드를 일관되게 유지하는 것. 동영상에서 이를 기본으로 처리하는 모델은 이런 워크플로를 훨씬 더 구체적으로 만들어줍니다.

API를 기다리지 말고 — 지금 바로 최신 동영상 AI로 만들어보세요

Kollab은 최신 동영상 모델을 하나의 워크스페이스에 모아, 위에서 소개한 멀티턴 컨텍스트 유지 플로우를 그대로 제공합니다. 설정 없이 바로 시작하세요.

Kollab에서 창작 시작하기 →

FAQ

Gemini Omni란 무엇인가요?

이미지·오디오·동영상·텍스트·스케치 등 어떤 입력으로도 고품질 동영상을 생성하고, 대화를 통해 기존 동영상을 편집하는 Google의 새 AI 모델입니다. Google I/O에서 발표되었습니다.

Gemini Omni는 무료인가요?

Gemini Omni Flash 티어는 이번 주부터 YouTube Shorts 및 YouTube Create 앱에서 무료로 제공됩니다. 풀 액세스는 Gemini 앱과 Flow by Google에서 Google AI Plus, Pro, Ultra 구독자에게 먼저 출시됩니다.

Gemini Omni API는 언제 이용 가능한가요?

Google에 따르면 소비자 롤아웃 이후 수주 내에 개발자 및 기업용 API 액세스가 제공될 예정입니다.

Gemini Omni가 다른 동영상 모델과 다른 점은 무엇인가요?

직관적인 물리 이해와 Gemini의 실세계 추론을 결합하며, 멀티턴 대화 편집에서 지시를 거쳐도 캐릭터와 씬 상태를 일관되게 유지합니다.

출처: #GoogleIO 에서의 @Google 공식 게시물 — 공개, 물리, 어떤 입력이든, 대화 편집, 롤아웃. 클립은 논평 및 참고 목적으로 임베드되었으며, 모든 권리는 Google에 귀속됩니다.

Gemini Omni 소개

픽셀이 아닌 물리를 이해한다

어떤 입력이든, 동영상으로 출력

편집이 대화가 되다

어디서, 언제 사용할 수 있나

한 줄 총평

FAQ

이 주제 더 살펴보기

관련 글

2026년 월드컵 TikTok 전략: 지금 어떤 콘텐츠가 인기를 얻고 있나요?

저는 ‘1인 미디어’로서 2026년 월드컵을 취재했습니다――다음은 제가 사용하는 AI 도구 세트입니다

기존의 ‘세컨드 브레인’ 대 AI ‘세컨드 브레인’: Kollab이 지식 기반을 미래를 내다보는 지능형 존재로 변화시키는 방식