博客

Veo 3.1 内置在 Kollab:Google 视频模型新天花板,开箱即用

2026年5月20日zhYANAI Insights7 分钟
cover.png

Google Veo 3.1 在 Video Arena 拿下双榜第一。Kollab 已经把它做成默认视频模型——无需 Vertex AI 配置,支持超 8 秒长视频、原生音频、图生视频。

Veo 3.1Google Veo 3.1Veo 3.1 中文Veo 3.1 评测Veo 3.1 长视频Veo 3.1 8 秒Veo 3.1 ExtendVeo 3.1 图生视频Veo 3.1 vs Sora 2Kollab VeoAI 视频生成

10 月 15 日那个礼拜,Google DeepMind 把 Veo 3.1 推上线。一星期后,Arena.ai 公布了最新一期 Video Arena 榜单:Veo 3.1 成为历史上第一个突破 1400 分的视频模型,相比 Veo 3.0 直接跃了 30 分,文生视频和图生视频双榜第一。

Google DeepMind 2025/10/15 上线 Veo 3.1 的官方发布视频 — @GoogleDeepMind

这个数字背后只有一个意思——天花板被抬高了一格。

我们没有等一周,也没有等创作者讨论散去再决定要不要接。Veo 3.1 现在就是 Kollab 的默认视频模型。你不用单独申请 GCP 项目,不用配 Vertex AI 服务账号,不用去找哪家二道贩子卖 credit。打开任意一个 Kollab 任务,把你要的画面写出来,跑的就是 Arena.ai 榜单上那一行——veo-3.1-generate-001

这篇想说三件事:Veo 3.1 到底升级了什么、海外创作者这三周在用它做什么、以及在 Kollab 里它和你日常工作的距离有多近。

Veo 3.1 升级的是手感,不是数字

Google DeepMind 发布原帖只写了一句话:"Veo is getting a major upgrade. 🚀"——配上一句更克制的注解:为电影人、讲故事的人和开发者增加可控性,"其中很多带音频"。这句话翻译成创作者听得懂的版本,是三件事同时发生:

第一是音频被补齐了。Bilawal Sidhu 在 Veo 3.1 发布当天就总结过:"Google 听进去了,把所有没音频的位置都补上了。你现在还能往视频里插对象,很快也能擦掉。" 这意味着环境音、对白、音效是一次生成里同步出来的,而不是后期再贴一层。

第二是镜头、人物、首尾帧整体上一个台阶。已认证创作者 el.cine 在 Higgsfield 上跑了一天 Veo 3.1 之后写道:"相机运动、连贯度、声音、首尾帧控制都有巨大提升。" 几个小时后他又补了一句更直白的判断:"Sora 2 是拿来玩的,Veo 3.1 才是真正能上电影和广告制作。"

第三是多图参考的"ingredients"。这是让人物在多个镜头里保持同一个人、产品在多个镜头里保持同一个产品的那一格——是 Veo 3.0 时代最容易破功的地方。

数字上的对照很简单:Veo 3.0 大概停在 1370 分,Veo 3.1 一举冲到 1400+。一次大版本,六个月,30 分。

Arena.ai 榜单:Veo 3.1 文生视频 + 图生视频双榜第一,相比 Veo 3.0 跃 30 分
Arena.ai 榜单:Veo 3.1 文生视频 + 图生视频双榜第一,相比 Veo 3.0 跃 30 分

创作者已经在用它接广告了

榜单只是一个信号。更有说服力的是发布三周内,圈子里的人都拿它做了什么。

el.cine 10 月 23 日的那条帖子拿到了 1,288 个赞、100K 浏览,他的判断比榜单更猛:"Google Veo 3.1 把广告公司杀掉了。几秒钟做出制片级广告,演员、服装、产品、环境全部连贯。" 评论区一半是同行约客户单。

el.cine 的 Veo 3.1 广告 demo —— 1,288 赞、100K 浏览

HeyGen 在自家产品里第一时间接入 Veo 3.1,宣传语精准戳中了过去最容易翻车的部分——"现在能做多场景视频了,人物从外形到声音,跨场景完全一致。" a16z 合伙人 Justine Moore 把 Nano Banana、Veo 3.1、ElevenLabs Studio 串成一整条流水线,从静态图到带声画的成片一次走完。

HeyGen 的 Veo 3.1 多场景一致性 demo

Reddit 那边的信号更直观。r/singularity 上一条「Will Smith 吃意面(Veo 3.1 重做版)」拿到了 3,521 个赞。要知道这条 prompt 从 2023 年起就是 AI 视频圈非官方的体检题——Veo 3.1 是第一个把它拍到不再让人发笑的模型。

如果你过去这两年一直在 Sora 2、Kling、Runway、Higgsfield 之间换号、买积分、对帧——Veo 3.1 是创作者真的在接活的那一个。

但 Veo 3.1 有两个让人窝火的地方

去 r/VEO3 翻十分钟,你就会看到这个模型不是"一买就赢"。

第一个是 8 秒硬天花板。 Veo 3.1 单段最多 8 秒。Google 自己的 Gemini 团队在 12 月公开承认过:"Veo 3.1 的 8 秒只是起点⋯⋯我们会继续扩展。" 对任何要做叙事、做广告、做预告片的人来说,8 秒不是"成品",是"片段"。

第二个是接入税。 Higgsfield、Arcads、HeyGen、Flow——每一家都把 Veo 3.1 装进自己的 credit 池里、按生成次数卖、把"无限生成"促销限定在 72 小时窗口、要你手动一段一段去 Extend。r/VEO3 上那条「Bye Veo 3.1」的怨气,绝大多数是被账单先伤一遍才发现剪出来的素材用不了。

这两个问题严格说不是模型的问题,是工作流的问题。我们把它当成工作流来解。

在 Kollab 里,Veo 3.1 长成了一句话

Kollab 的 /veo-3 skill 直接调 Vertex AI,初始生成和 Extend 都用 veo-3.1-generate-001。下面这些能力都在默认配置里,任意 Kollab 任务里直接用:

  • 自动越过 8 秒上限。 一行命令 veo3 chain "你的 prompt" --target-duration 30,Kollab 帮你跑第一段 8 秒,然后用前一段做源、自动派发 Extend,最多接到大约 30 秒。任务历史里每一段中间产物都保留下来,第 3 段不满意,你能直接回到第 2 段重接,不用从头再来。

  • 图生视频,任何工作区文件都能当首帧。 把一张图丢进任务——Nano Banana 出的角色、GPT Image 2 出的产品图、你自己上传的照片——然后 --first-frame-ref artifact:<id>。不用签 URL,不用倒手转存。

  • 音频默认在线。 Veo 3.1 的环境音、对白、音效在 skills-server 运行时层就打开,不需要每次额外配置。

  • 不碰 GCP,不写轮询。 Vertex 凭证、操作轮询、GCS 到 S3 的搬运、计费——都在 skills-server 里。任务这边只看到最终 MP4 进了 artifacts。

  • 每一段都成为可复用素材。 长任务历史里能看到每一段的状态、final job、所有中间片段。这比"网页一个进度条转着圈"靠谱得多。

你不挑模型,不挑供应商,不挑视频运行时。你写你想要的画面,Veo 3.1 把它做出来。

三条 prompt 你现在就能跑

在任何 Kollab 任务里:

拍一段 Veo 3 视频:清晨的玻璃温室,慢速航拍俯瞰,
温暖的环境音,镜头缓推

8 秒、16:9、1080p,自带音频,一次出。

在 Kollab 里跑这条
在 Kollab 里打开这条 prompt,直接用 Veo 3.1 跑,原生音频默认开。
打开任务 →
做一条 30 秒的 Google Veo 影像序列:
清晨航拍 → 穿入温室 → 玻璃上的水汽 → 阳光打在兰花上

这条会触发 veo3 chain,第一段加三段 Extend,自动接缝。6–8 分钟落到 artifacts 里。

在 Kollab 里跑这条
在 Kollab 里打开这条 prompt,直接用 Veo 3.1 跑,原生音频默认开。
打开任务 →
把这张主视觉做成 4 秒高级感产品揭幕动画
(引用任务里那张 gpt-image-2 图)

图生视频,首帧直接引用工作区素材。不用导出链接,不用再上传一次。

在 Kollab 里跑这条
在 Kollab 里打开这条 prompt,直接用 Veo 3.1 跑,原生音频默认开。
打开任务 →

为什么这件事值得写一篇

过去两年,"AI 视频"是这样一套动作——打开一个网站、挑一个模型、买一包积分、写提示词、等队列、下载、换工具上音频、换工具去 Extend、换工具交付。五个标签页、四个登录、三个订阅。

真正有意思的转折,不是某个模型又快了 10%,也不是某个网页又改了一版 UI。是当世界上最强的视频模型,能在你正在干活的那个工作区里,被一句自然语言直接调用——挨着你的脚本、你的图、你之前那几条没用上的素材、你的同事。

那一刻它就不是"AI 视频工具"了。它是你任务可以调用的一个原语。

Veo 3.1 是那个模型。Kollab 是把它接到工作里的运行时。

在 Kollab 里直接跑 Veo 3.1
不用配 GCP,不用买 credit,也不用对着 8 秒硬卡住。榜单第一的视频模型,是任意 Kollab 任务的默认。
打开一个任务 →

常见问题

Veo 3.1 是什么? Veo 3.1 是 Google DeepMind 于 2025 年 10 月 15 日发布的视频生成模型。它在 Video Arena 榜单上拿下文生视频和图生视频双榜第一,比 Veo 3.0 高出 30 分,是 Video Arena 历史上第一个突破 1400 分的视频模型。单段最长 8 秒,最高 1080p,自带原生音频。

Kollab 里的 Veo 3.1 和 Google 官方一样吗? 是同一个。Kollab 直接调 Vertex AI 的 veo-3.1-generate-001 GA 模型,生成、Extend、音频、画幅、分辨率行为和官方一致。

Veo 3.1 单段限制 8 秒,Kollab 怎么做更长的视频? 官方 API 和 Google Vids 都是 8 秒硬限制。Kollab 内置 veo3 chain 命令,自动派发 Extend 任务、用前一段视频做下一段的源,单条链最长接到约 30 秒。每一段中间产物都保留在任务历史里。

需要 GCP 项目或 Vertex AI 权限吗? 不需要。Vertex 凭证、任务轮询、产物上传都在 Kollab 的 skills-server 里。你只写 prompt。

支持图生视频和 Extend 吗? 都支持。任意任务里的 artifact 都可以作为首帧:--first-frame-ref artifact:<id>。要延续已有视频,用 veo3 extend "..." --source-video-job-id <上一段 job id>veo3 chain 把两者结合做长视频。

和 Higgsfield、HeyGen、Arcads 有什么区别? 那些产品把 Veo 3.1 装在自己的 credit 池里、单独的网页里、按生成次数计费。Kollab 直接把同一个模型挂在你正在干活的工作区里——挨着脚本、图、过往素材,并把 chain 和 Extend 做成一条命令。

怎么算钱? 和工作区里其他长任务一样,按任务 credit 走,不用单独再买视频 credit。


素材来源:[@GoogleDeepMind](https://x.com/GoogleDeepMind/status/1978491999029219364)(发布)、[Arena.ai](https://x.com/arena/status/1980319296120320243)(榜单)、[@bilawalsidhu](https://x.com/bilawalsidhu/status/1978497357760311500)、[@EHuanglu](https://x.com/EHuanglu/status/1981351877116879196)、[@HeyGen](https://x.com/HeyGen/status/1979220312438055018)、[@venturetwins](https://x.com/venturetwins/status/1988291582337098219)、[@GeminiApp](https://x.com/GeminiApp/status/1998528052901388324)、[r/singularity](https://www.reddit.com/r/singularity/comments/1o7psz2/will_smith_eating_spaghetti_in_veo_31/)。引用文字版权归原作者,本文为引用与评述。

继续阅读这个主题

从文章继续进入产品说明、竞品对比和工作流示例,快速判断 Kollab 适合哪些团队场景。

相关文章