Gemini Omni: Google의 새 AI 동영상 모델, 데모 & 사용법 완벽 정리
Gemini Omni는 모든 입력을 동영상으로 바꾸는 Google의 새 AI 모델입니다. 공식 데모 전체, Gemini Omni Flash의 기능, 무료 여부, API 출시 일정까지 한 번에 확인하세요.
Google이 I/O 무대에서 Gemini Omni를 공개했습니다. 한 줄로 설명하면 간단합니다. 이미지, 오디오, 동영상, 텍스트, 심지어 러프 스케치까지 — 거의 모든 입력을 받아 고품질 동영상으로 변환하는 모델입니다.
지난 2년간 수없이 들어온 동영상 모델 홍보 문구처럼 들릴 수 있습니다. 하지만 다릅니다. 그 이유는 데모에 있습니다. Google은 연달아 다섯 개의 게시물을 공개했습니다. 요약 글을 읽는 대신 직접 판단할 수 있도록 클립을 그대로 가져왔습니다.
Gemini Omni 소개
공개의 순간. 하나의 모델, 어떤 입력이든, 동영상 출력.
픽셀이 아닌 물리를 이해한다
이 부분이 핵심입니다. 대부분의 동영상 모델은 장면이 '어떻게 보이는지'를 학습합니다. Google의 주장은 Gemini Omni가 세상이 '어떻게 작동하는지'를 추론한다는 것입니다. 직관적인 물리 감각과 Gemini의 실세계 지식을 결합해, 부은 액체는 자연스럽게 가라앉고, 무게는 있어야 할 곳에 떨어지며, 결과물이 단순 렌더링이 아니라 실제처럼 '행동'합니다.
어떤 입력이든, 동영상으로 출력
이미지, 오디오, 동영상, 텍스트를 함께 입력하거나, 스케치를 건네고 비전을 실현할 수 있습니다. 이름의 'omni'가 핵심입니다. 입력 측이 활짝 열려 있고, 단일 프롬프트 박스에 갇혀 있지 않습니다.
편집이 대화가 되다
많은 사람에게 가장 인상적인 기능입니다. 자신의 영상에 '말을 걸어서' 편집합니다. 액션을 리프레임하고, 시점을 바꾸고, 조명을 더 시네마틱하게 — 여러 턴에 걸쳐. 각 지시는 이전 지시 위에 쌓이며 캐릭터 일관성이 유지되고, 물리도 지켜지며, 장면은 직전의 흐름을 기억합니다. 키프레임으로 가득한 타임라인이 자연스러운 대화로 바뀝니다.
어디서, 언제 사용할 수 있나
출시되는 티어는 Gemini Omni Flash이며, 단계적으로 롤아웃됩니다:
오늘부터 — 전 세계 Google AI Plus, Pro, Ultra 구독자 대상. Gemini 앱 및 Flow by Google에서 이용 가능.
이번 주, 무료로 — YouTube Shorts 및 YouTube Create 앱.
향후 몇 주 내 — API를 통해 개발자 및 기업 고객에게 제공.
크리에이터가 먼저 체험하고, API는 — 위에서 구축하는 쪽에 중요한 부분 — 조금 뒤에 나옵니다. (Google 롤아웃 게시물)
한 줄 총평
물리×추론 접근법이 이 모델의 승부수입니다. 예쁜 5초 클립을 생성하는 모델은 넘칩니다. 하지만 4번 연속 쇼트를 재협상하면서도 캐릭터 일관성을 유지하는 모델은 거의 없습니다. 런치 릴 밖에서도 일관성이 유지된다면, 진짜 변화는 '생성'이 아니라 '편집 워크플로'에 있습니다.
에이전트 작업이 나아갈 방향도 보여줍니다. 흥미로운 단위는 단일 프롬프트가 아니라 상태를 기억하는 멀티턴 세션이 됩니다 — 사람들이 이미 Kollab 안에서 하고 있는 작업의 형태입니다: 모델에 컨텍스트를 주고, 여러 턴에 걸쳐 반복하며, 스레드를 일관되게 유지하는 것. 동영상에서 이를 기본으로 처리하는 모델은 이런 워크플로를 훨씬 더 구체적으로 만들어줍니다.
FAQ
Gemini Omni란 무엇인가요?
이미지·오디오·동영상·텍스트·스케치 등 어떤 입력으로도 고품질 동영상을 생성하고, 대화를 통해 기존 동영상을 편집하는 Google의 새 AI 모델입니다. Google I/O에서 발표되었습니다.
Gemini Omni는 무료인가요?
Gemini Omni Flash 티어는 이번 주부터 YouTube Shorts 및 YouTube Create 앱에서 무료로 제공됩니다. 풀 액세스는 Gemini 앱과 Flow by Google에서 Google AI Plus, Pro, Ultra 구독자에게 먼저 출시됩니다.
Gemini Omni API는 언제 이용 가능한가요?
Google에 따르면 소비자 롤아웃 이후 수주 내에 개발자 및 기업용 API 액세스가 제공될 예정입니다.
Gemini Omni가 다른 동영상 모델과 다른 점은 무엇인가요?
직관적인 물리 이해와 Gemini의 실세계 추론을 결합하며, 멀티턴 대화 편집에서 지시를 거쳐도 캐릭터와 씬 상태를 일관되게 유지합니다.
출처: #GoogleIO 에서의 @Google 공식 게시물 — 공개, 물리, 어떤 입력이든, 대화 편집, 롤아웃. 클립은 논평 및 참고 목적으로 임베드되었으며, 모든 권리는 Google에 귀속됩니다.