Kollab의 Veo 3.1: Google의 1위 동영상 모델을 내장, 바로 실행 가능

Veo 3.1은 Video Arena 1위 모델입니다. Kollab에는 기본 동영상 모델로 내장되어 있으며, 8초를 넘는 체인 생성, image-to-video, 네이티브 오디오를 지원합니다. Vertex AI 설정은 필요 없습니다.

몇 주 전 Google DeepMind가 Veo 3.1을 공개했고, 리더보드는 빠르게 반응했습니다. Arena.ai는 Veo 3.1을 Video Arena에서 사상 최초로 1400점을 넘은 모델이라고 소개했습니다. Veo 3.0 대비 단일 릴리스에서 30점이 올랐고, text-to-video와 image-to-video 보드 모두에서 1위를 차지했습니다.

Google DeepMind의 Veo 3.1 공개, 2025년 10월 15일 — @GoogleDeepMind on X

이 분야를 지켜봐 왔다면 이것이 무엇을 의미하는지 바로 알 수 있습니다. 상한선이 한 단계 올라갔습니다.

Kollab에는 이미 Veo 3.1이 기본 동영상 모델로 연결되어 있습니다. GCP 프로젝트를 만들 필요도, Vertex AI 서비스 계정을 다룰 필요도, 중간의 서드파티 크레딧 리셀러를 거칠 필요도 없습니다. 어떤 작업에서든 프롬프트를 입력하면, 리더보드에서 이야기되는 동일한 veo-3.1-generate-001 모델이 작업을 실행합니다.

이 글에서는 Veo 3.1에서 무엇이 달라졌는지, X와 Reddit의 크리에이터들이 실제로 무엇을 만들고 있는지, 그리고 Kollab이 그 위에 추가한 두 가지 기능――8초 제한을 넘어 체인 생성하는 것, 워크스페이스 안의 어떤 이미지든 첫 프레임으로 사용하는 것――을 설명합니다.

Veo 3.1의 새로운 점

Google DeepMind의 출시 포스트는 간결합니다. "영화 제작자, 스토리텔러, 개발자를 위한 창의적 제어 기능을 개선했으며, 그중 많은 부분에 오디오가 포함된다." 중요한 부분은 세 가지입니다.

빠져 있던 곳마다 오디오가 들어갔습니다. Bilawal Sidhu는 출시 당일 이렇게 정리했습니다. "Google은 사용자의 의견을 듣고 오디오가 빠져 있던 모든 곳에 오디오를 추가했다. 동영상에 오브젝트를 삽입할 수 있고, 곧 제거도 가능해질 것이다." 네이티브 환경음, 대사, 효과음이 같은 생성 패스에서 만들어집니다.
모션, 음성, 시작·종료 프레임 제어가 좋아졌습니다. 인증 크리에이터 el.cine은 Higgsfield에서 하루 동안 테스트한 뒤 "카메라 모션, 일관성, 음성, 놀라운 시작 및 종료 프레임에서 큰 개선"이 있었다고 평가했습니다. 이어진 포스트에서는 더 직접적으로 "Sora 2는 재미용이고, Veo 3.1은 실제 영화/광고 제작용"이라고 말했습니다.
캐릭터 일관성을 위한 다중 이미지 참조. Google이 "Ingredients"라고 부르는 기능은 여러 참조 이미지를 하나의 생성에 넘기는 방식입니다. 덕분에 캐릭터, 의상, 제품을 여러 샷에서 일관되게 유지하는 워크플로가 실제로 가능해졌습니다.

그 결과 Veo 3.1은 Video Arena에서 1400점을 돌파했습니다. 이전 모델인 Veo 3.0은 약 1370점에 머물렀습니다. 이 차이는 6개월 만에 만들어졌습니다.

Arena.ai: Veo 3.1이 text-to-video와 image-to-video 보드 모두에서 1위, Veo 3.0 대비 +30

크리에이터들은 무엇을 하고 있나

가장 강한 신호는 벤치마크가 아닙니다. 첫 3주 동안 사람들이 실제로 만든 결과물입니다.

el.cine은 10월 23일에 이렇게 말했습니다. "Google Veo 3.1이 광고 대행사를 끝냈다. 이제 몇 초 만에 스튜디오급 광고를 만들고, 배우, 의상, 제품, 환경의 일관성을 유지할 수 있다." 좋아요 1,288개, 조회수 10만 회. 댓글에는 실제 클라이언트 미팅을 잡는 사람들이 보입니다.

el.cine의 Veo 3.1 광고 데모 — X에서 좋아요 1,288개, 조회수 10만 회

HeyGen의 제품 팀은 Veo 3.1을 통해 *"외형부터 음성까지 아이덴티티가 완벽하게 일관된 멀티씬 동영상을 만들 수 있게 됐다"*고 말했습니다. 예전에는 바로 이 부분이 자주 무너졌습니다.

HeyGen의 Veo 3.1 멀티씬 일관성 데모

a16z의 Justine Moore는 Nano Banana → Veo 3.1 → ElevenLabs Studio를 이어 붙여 이미지-동영상-오디오까지 이어지는 엔드투엔드 파이프라인을 만들었습니다. 작업의 형태가 "클립 하나 렌더링하기"에서 "시퀀스 구성하기"로 바뀌고 있습니다.
바이럴 신호도 있습니다. Reddit r/singularity에서는 Veo 3.1로 만든 Will Smith Spaghetti 리메이크가 3,521 upvotes를 받았습니다. 참고로 이 프롬프트는 2023년부터 비공식 AI 동영상 벤치마크 역할을 해왔습니다. Veo 3.1은 그것을 처음으로 덜 어색하게 만든 모델입니다.

Sora 2, Kling, Runway, Higgsfield로 동영상을 만들어 왔다면, Veo 3.1은 크리에이터들이 실제 상업 작업에 쓰기 시작한 모델입니다.

사람들이 계속 불만을 말하는 두 가지

Veo 3.1이 모든 문제를 해결하는 것은 아닙니다. r/VEO3를 10분만 읽어도 반복되는 패턴이 보입니다.

8초의 하드 제한. Veo 3.1의 모든 클립은 8초에서 멈춥니다. 예외는 없습니다. Google의 Gemini 팀도 공개적으로 "Veo 3.1의 8초 클립은 시작점이며, 계속 확장하기 위해 노력하고 있다"고 인정했습니다. 실제 내러티브, 광고, 트레일러를 만드는 사람에게 8초는 납품물이 아닙니다.
접근 비용. Higgsfield, Arcads, HeyGen, Flow 등 모든 래퍼는 Veo 3.1을 크레딧 단위로 판매하거나, "무제한" 프로모션을 3일 창구로 제한하거나, Extend 체인을 사용자가 직접 지켜보게 만듭니다. Reddit의 "Bye Veo 3.1" 스레드는 usable cut을 얻기 전에 결제부터 된 사람들의 이야기로 가득합니다.

이 둘은 모델 문제가 아니라 워크플로 문제입니다. 그리고 Kollab이 해결한 부분이 바로 여기에 있습니다.

Kollab이 Veo 3.1 위에 더한 것

Kollab의 /veo-3 스킬은 초기 생성과 Extend 모두에서 veo-3.1-generate-001을 기본값으로 사용해 Vertex AI를 직접 호출합니다. 아래 기능은 모두 별도 설정 없이 어떤 Kollab 작업 안에서도 사용할 수 있습니다.

8초 제한을 넘어 자동으로 체인 생성. 하나의 명령어――veo3 chain "your prompt" --target-duration 30――가 첫 8초 세그먼트를 생성한 뒤, 각 클립을 다음 소스로 넘기는 Extend 작업을 발행합니다. 체인당 최대 약 30초까지 만들 수 있습니다. 작업 기록에는 모든 중간 세그먼트와 최종 병합 작업이 남기 때문에, 중간 지점부터 다시 선택할 수도 있습니다.
워크스페이스의 어떤 아티팩트든 image-to-video로 사용. Nano Banana 프레임, GPT Image 2 렌더, 업로드한 사진을 작업에 넣고 --first-frame-ref artifact:<id>로 참조하면 됩니다. 서명 URL을 다룰 필요가 없습니다. 서버가 아티팩트를 해석하고 깨끗한 바이트를 Vertex에 전달합니다.
네이티브 환경음/대사/효과음이 기본 활성화. Veo 3.1의 오디오는 호출마다 토글하는 것이 아니라 skills-server 런타임 설정에서 활성화되어 있습니다.
GCP, 서비스 계정, 폴링 코드가 필요 없습니다. Kollab의 skills-server가 Vertex 인증 정보, 작업 폴링, GCS에서 S3로의 아티팩트 이동, 과금 처리를 담당합니다. 사용자의 작업에는 최종 MP4가 아티팩트로 도착합니다.
모든 세그먼트가 아티팩트로 보존됩니다. 장기 작업 기록에는 각 세그먼트와 최종 영상이 모두 저장됩니다. 체인이 3번째 세그먼트에서 방향을 잘못 잡았다면, 2번째 세그먼트부터 다시 프롬프트하면 됩니다. 처음부터 다시 만들 필요가 없습니다.

모델을 고를 필요가 없습니다. 제공자를 고를 필요도 없습니다. 동영상 런타임을 고를 필요도 없습니다. 원하는 것을 쓰면 Veo 3.1이 생성합니다.

지금 바로 시도할 수 있는 프롬프트 3개

어떤 Kollab 작업에서든 실행할 수 있습니다.

make a Veo 3 video of a slow dawn flyover over a glass greenhouse,
warm natural audio, slight camera push-in

이 프롬프트는 네이티브 오디오가 포함된 8초, 16:9, 1080p 클립을 단일 작업으로 생성합니다.

Kollab에서 이 프롬프트 실행

Kollab을 열고 Veo 3.1로 이 프롬프트를 실행하세요. 별도 설정 없이 네이티브 오디오가 기본으로 켜져 있습니다.

make a Veo 3 video of a slow dawn flyover over a glass greenhouse, warm natural audio, slight camera push-in

작업 열기 →

make a 30-second Google Veo cinematic sequence:
dawn flyover, into the greenhouse, condensation on the glass,
sunrise hitting the orchids

이 프롬프트는 veo3 chain을 실행합니다. 첫 세그먼트와 세 번의 Extend가 이어지고, 스티칭된 최종 영상이 약 6~8분 안에 아티팩트로 저장됩니다.

Kollab에서 이 프롬프트 실행

Kollab을 열고 Veo 3.1로 이 프롬프트를 실행하세요. 별도 설정 없이 네이티브 오디오가 기본으로 켜져 있습니다.

make a 30-second Google Veo cinematic sequence: dawn flyover, into the greenhouse, condensation on the glass, sunrise hitting the orchids

작업 열기 →

animate this hero frame into a 4-second premium product reveal
(referencing the gpt-image-2 artifact in this task)

이것은 워크스페이스 아티팩트를 첫 프레임으로 사용하는 image-to-video입니다. URL도, 재업로드도 필요 없습니다.

Kollab에서 이 프롬프트 실행

Kollab을 열고 Veo 3.1로 이 프롬프트를 실행하세요. 별도 설정 없이 네이티브 오디오가 기본으로 켜져 있습니다.

animate this hero frame into a 4-second premium product reveal (referencing the gpt-image-2 artifact in this task)

작업 열기 →

작업의 단위가 바뀌는 이유

지난 2년 동안 "AI 동영상"은 대체로 "웹사이트에 가서, 모델을 고르고, 크레딧을 사고, 프롬프트를 쓰고, 기다리고, 다운로드하고, 오디오를 추가하려고 다른 도구로 옮기고, 영상을 늘리려고 또 다른 도구로 옮기고, 최종본을 전달하는 것"을 의미했습니다. 다섯 개의 탭, 네 번의 로그인, 세 개의 구독이 필요했습니다.

흥미로운 변화는 세계 최고 수준의 동영상 모델이 이미 일하고 있는 워크스페이스 안에서 자연어 한 줄로 호출되는 순간입니다. 이미지, 스크립트, 이전 테이크, 팀 작업 바로 옆에서 말입니다. 이것은 "도구로서의 AI 동영상"이 아닙니다. 작업이 호출할 수 있는 프리미티브로서의 AI 동영상입니다.

Veo 3.1은 모델입니다. Kollab은 그것을 실제 작업으로 바꾸는 런타임입니다.

Kollab에서 Veo 3.1 실행

GCP 설정 없음. 8초 제한을 넘어서는 체인 생성. 리더보드 1위 동영상 모델이 어떤 Kollab 작업에서도 기본으로 실행됩니다.

작업 열기 →

FAQ

Veo 3.1이란 무엇인가요? Veo 3.1은 Google DeepMind가 2025년 10월 15일 공개한 동영상 생성 모델입니다. text-to-video와 image-to-video 모두에서 Video Arena 1위를 기록했고, Veo 3.0 대비 30점 상승했으며, Video Arena 역사상 처음으로 1400점을 넘었습니다. 네이티브 오디오가 포함된 최대 1080p의 8초 클립을 생성합니다.

Kollab의 Veo 3.1은 Google 공식 모델과 같은 모델인가요? 네. Kollab은 Google API의 동일한 GA 모델인 veo-3.1-generate-001을 Vertex AI로 호출합니다. 생성, Extend, 오디오, 화면비, 해상도는 공식 모델과 동일하게 동작합니다.

Veo 3.1로 8초보다 긴 영상을 만들 수 있나요? 공식 Veo 3.1 API나 Google Vids만으로는 어렵습니다. 모든 클립은 8초로 제한됩니다. Kollab에는 veo3 chain 명령이 있어 Extend 작업을 자동으로 발행하고, 각 세그먼트를 다음 소스로 전달해 체인당 대략 30초까지 만들 수 있습니다.

Google Cloud 프로젝트나 Vertex AI 접근 권한이 필요한가요? 아니요. Kollab의 skills-server가 Vertex AI 인증 정보, 폴링, 아티팩트 업로드를 관리합니다. 사용자는 프롬프트만 작성하면 됩니다.

Kollab의 Veo 3.1은 image-to-video와 Extend를 지원하나요? 네. image-to-video에는 어떤 작업 아티팩트든 --first-frame-ref artifact:<id>로 전달할 수 있습니다. 기존 클립을 이어가려면 veo3 extend "..." --source-video-job-id <previous-job-id>를 사용할 수 있습니다. Chain은 이 둘을 결합합니다.

Higgsfield, HeyGen, Arcads와 무엇이 다른가요? 이 제품들은 Veo 3.1을 크레딧 팩, 클립당 가격, 독립된 인터페이스 뒤에 래핑합니다. Kollab은 스크립트, 이미지, 이전 테이크, 워크스페이스의 나머지 작업과 나란히 있는 어떤 작업에서도 동일한 모델을 직접 호출합니다. 또한 chain과 Extend가 하나의 명령에 내장되어 있습니다.

가격은 어떻게 되나요? Kollab의 Veo 3.1 생성은 워크스페이스의 다른 장기 작업과 마찬가지로 작업 크레딧을 사용합니다. 별도의 크레딧 팩을 구매할 필요도, 서드파티 제한을 받을 필요도 없습니다.

Sources: [@GoogleDeepMind](https://x.com/GoogleDeepMind/status/1978491999029219364) (launch), [Arena.ai](https://x.com/arena/status/1980319296120320243) (leaderboard), [@bilawalsidhu](https://x.com/bilawalsidhu/status/1978497357760311500), [@EHuanglu](https://x.com/EHuanglu/status/1981351877116879196), [@HeyGen](https://x.com/HeyGen/status/1979220312438055018), [@venturetwins](https://x.com/venturetwins/status/1988291582337098219), [@GeminiApp](https://x.com/GeminiApp/status/1998528052901388324), [r/singularity](https://www.reddit.com/r/singularity/comments/1o7psz2/will_smith_eating_spaghetti_in_veo_31/). 인용문은 원 저자에게 귀속되며, 참조는 해설 목적입니다.

Veo 3.1의 새로운 점

크리에이터들은 무엇을 하고 있나

사람들이 계속 불만을 말하는 두 가지

Kollab이 Veo 3.1 위에 더한 것

지금 바로 시도할 수 있는 프롬프트 3개

작업의 단위가 바뀌는 이유

FAQ

이 주제 더 살펴보기

관련 글

2026년 월드컵 TikTok 전략: 지금 어떤 콘텐츠가 인기를 얻고 있나요?

저는 ‘1인 미디어’로서 2026년 월드컵을 취재했습니다――다음은 제가 사용하는 AI 도구 세트입니다

기존의 ‘세컨드 브레인’ 대 AI ‘세컨드 브레인’: Kollab이 지식 기반을 미래를 내다보는 지능형 존재로 변화시키는 방식