LongCat－Video：分钟级视频生成，普通人也能玩明白（1/2）

好书推荐：抗战：从血战淞沪到割据东南反派：小跟班你要干嘛抗战：重生川军，杀鬼子续命传说，从纸扎匠开始无尽灰夜快穿：主神独宠的病秧子他是上神金丹证道穿越：我修仙自带BGM 叮咚！天道家的宁宝上线啦大明：开局革职，我教朱棣屠龙术

在ai生成内容（aigc）的赛道里，短视频生成早就不是新鲜事了，但“长视频生成”一直是块难啃的硬骨头——要么生成的视频片段不连贯，要么只能做几秒的短内容，很难满足大家对“分钟级”长视频的需求。而美团这次开源的longcat-video模型，直接把这块硬骨头啃了下来，还把模型免费开放给所有人用。下面咱们就拆成一个个小问题，用最接地气的话把它说清楚。

一、先搞懂核心：longcat-video到底是个啥？

咱们先抛开“模型”“开源”这些专业词，用大白话给它下个定义：longcat-video是美团开发的一款ai工具，能根据文字、图片生成分钟级的长视频，还能给 existing视频续上内容，关键是它免费开放，任何人都能拿来用。

举个生活里的例子：你想做一个“周末露营vlog”，但没素材也不会剪辑，只要在这个模型里输入文字“阳光明媚的湖边，有人搭帐篷、煮咖啡，镜头慢慢扫过湖面的波光”，它就能直接生成1分钟甚至更久的连贯视频；要是你拍了一段露营开头的视频，想接着往下做，把这段视频传给它，它能顺着开头的风格、内容，自动续出后面的画面，不用你手动一点点剪。

它和咱们平时刷到的“ai生成短视频”最大的区别，就在于“长”和“连贯”。以前很多ai生成视频只能做10秒、20秒，而且前一秒是湖边，后一秒可能突然跳到树林，逻辑断了；但longcat-video能做到1分钟以上，整个视频的场景、人物动作、画面风格都是顺的，就像真人精心剪辑出来的一样。

二、三大核心功能：文生、图生、视频续写，覆盖大多数视频需求

longcat-video最实用的地方，就是把三种常见的视频生成需求“打包”了，不管你是没素材、有素材想拓展，还是想用图片当蓝本，它都能搞定。咱们一个个说清楚每个功能咋用、适合啥场景。

1. 文生视频：“你说我做”，文字描述直接变视频

这是最“懒人友好”的功能——不用拍任何素材，只要把你脑子里的画面用文字写出来，ai就帮你把文字变成视频。

（1）具体咋操作？

举个简单的步骤：

- 第一步：打开模型（后面会说在哪找），找到“文生视频”入口；

- 第二步：输入文字描述，比如“秋天的公园，金黄的银杏叶飘落，一个小女孩穿着红色外套在树下捡叶子，镜头跟着她的脚步移动，背景有老人在打太极”；

- 第三步：选一下视频时长（比如1分钟）、画面清晰度，点“生成”；

- 第四步：等一会儿，ai就生成好完整的视频了，要是不满意，还能调整文字描述再生成。

（2）适合啥场景？

- 自媒体博主：想做“治愈系风景视频”“情感文案短片”，不用扛着相机拍素材，文字描述就能出片，省时间又省力气；

- 学生党：做课件、演讲稿需要视频素材，比如讲“四季变化”，输入文字就能生成对应视频，比找现成素材更贴合内容；

- 普通人记录生活：想给家人做一个“生日祝福视频”，但没来得及拍素材，输入“生日蛋糕上插着蜡烛，家人围在一起唱生日歌，画面暖色调”，就能生成专属视频。

（3）为啥比其他文生视频工具好？

以前很多工具生成的视频，要么时长短（最多30秒），要么画面“跳戏”——比如前半段是小女孩捡叶子，后半段突然出现别的公园，逻辑不连贯；但longcat-video能做到1分钟以上，而且画面里的“银杏叶”“红色外套”“老人打太极”这些元素会一直连贯出现，镜头移动也自然，就像真人拍的一样。

2. 图生视频：“以图为蓝本”，一张图片变动态视频

要是你有一张喜欢的图片，想让它“动”起来变成视频，这个功能就派上用场了——ai会根据图片的风格、内容，生成一段和图片匹配的动态视频。

（1）具体咋操作？

比如你有一张“海边日落”的图片：

- 第一步：在模型里选“图生视频”，上传这张日落图；

- 第二步：可以补充一句文字描述（可选），比如“让海浪慢慢拍打着沙滩，夕阳慢慢下沉，天空从橙色变成粉色”；

- 第三步：选时长，点生成；

- 第四步：生成的视频里，海边、日落的风格和原图一致，还会加上“海浪波动”“夕阳移动”的动态效果，不是简单的图片循环播放。

（2）适合啥场景？

- 摄影师：想给静态照片做“动态延展”，比如一张静物照，能生成“物品慢慢旋转、光影变化”的视频，让作品更有层次感；

- 设计师：做海报、宣传图时，需要配套的短视频素材，比如一张产品图，能生成“产品360度展示、背景渐变”的视频，不用再单独做动画；

- 普通人晒圈：拍了一张好看的旅行照，想发个更特别的朋友圈，用这个功能把照片变成动态视频，比静态图更吸睛。

（3）核心优势：风格不跑偏

很多图生视频工具会“篡改”原图风格——比如原图是清新的海边日落，生成的视频可能变成浓艳的色彩；但longcat-video能精准匹配原图的色调、构图，动态效果是在原图基础上“延伸”，不是“重构”，保证视频和图片的风格统一。

3. 视频续写：“无缝衔接”，给现有视频加长度

这个功能对经常做视频的人来说太实用了——要是你拍了一段视频，但觉得不够长，或者想接着前面的内容拓展，不用再手动拍素材、剪辑，ai直接帮你“续上”，而且衔接得特别自然。

（1）具体咋操作？

比如你拍了一段“猫咪在阳台晒太阳”的10秒视频，想续成1分钟：

- 第一步：选“视频续写”，上传这段10秒的视频；

- 第二步：补充描述（可选），比如“猫咪伸了个懒腰，走到猫抓板旁边磨爪子，然后跳上窗台看窗外的小鸟”；

- 第三步：选续写后的总时长（比如1分钟），点生成；

- 第四步：生成的1分钟视频里，前10秒是你拍的内容，后面50秒是ai续的，猫咪的动作、阳台的场景和前面完全衔接，不会出现“突然换背景”“猫咪变样子”的情况。

（2）适合啥场景？

- 短视频创作者：拍了一段开头视频，没灵感接着拍，ai帮你续内容，不用中断创作；

- vlog博主：旅行时只拍了部分片段，想做完整vlog，用续写功能补全内容，不用回头再拍；

- 企业做宣传：已有一段产品介绍视频，想加一段“用户使用场景”，ai直接续写，不用再组织拍摄团队。

（3）关键亮点：连贯不生硬

以前的视频续写工具，很容易出现“衔接断层”——比如前面是猫咪在阳台，续写的部分突然变成客厅；但longcat-video能“记住”原视频的场景、人物（或动物）、画面风格，续写的内容和原视频就像“无缝焊接”，普通人根本看不出哪段是原视频、哪段是ai续的。

三、背后的“黑科技”：统一架构+强化学习，为啥能做到“长且连贯”？

可能有人会好奇：为啥别的模型做不到分钟级连贯视频，longcat-video能做到？这背后靠两个核心技术——“统一架构”和“强化学习优化”。咱们不用懂专业术语，用生活里的例子把它讲明白。

1. 统一架构：相当于“一个团队干三件事”，效率高还不混乱

咱们先理解“非统一架构”的问题：以前很多ai模型，文生视频、图生视频、视频续写是三个分开的“小团队”，各自有自己的工作逻辑——文生视频团队只懂“文字变画面”，图生视频团队只懂“图片变动态”，续写团队只懂“接尾巴”。这样一来，不仅效率低，还容易出问题：比如用图生视频再续写，两个团队的逻辑不一样，生成的视频就会不连贯。

而longcat-video用的是“统一架构”，相当于把这三个“小团队”合并成一个“大团队”，有统一的工作逻辑——不管是文字、图片还是视频输入，这个团队都用一套“方法论”处理，能精准衔接不同任务。

举个例子：你先用图片生成一段“咖啡制作”的视频，再让ai续写这段视频。统一架构下，ai能“记住”图片的风格（比如复古风）、咖啡制作的步骤（磨豆、煮咖啡），续写时会顺着这个风格和步骤往下做（比如倒咖啡、加奶泡）；要是非统一架构，续写团队可能不知道图片的风格，直接生成现代风的画面，就会不连贯。

这种统一架构，不仅让三个功能的生成效果更稳定，还让模型体积更小、运行更快——以前三个团队要占三个办公室，现在一个团队占一个办公室，空间省了，效率还高了。

2. 强化学习优化：相当于“让ai不断练手，越做越好”

“强化学习”简单说就是“ai通过不断尝试，找到最好的方法”，就像咱们学做饭——第一次炒青菜可能炒糊，第二次调整火候，第三次调整时间，慢慢就知道“怎么炒才好吃”，ai也是这么学的。

本章未完，点击下一页继续阅读。

新书推荐：重生2000：高考状元为国争光假千金回村后，靠制药带飞全村躺平奈良？我黑影兵团平推忍界我魔尊？却遭七名美女徒弟背刺！穿越四合院我变成傻柱洪荒：我，三清首徒，道祖徒孙登临剑神之巅劲爆！绝色炮灰被男主宠上天了开局来到十日终焉火影：宇智波狂笑四杰，摸尸变强