李飞飞访谈：AI下一站——能“懂3D世界”的世界模型（1/2）

好书推荐：抗战：从血战淞沪到割据东南反派：小跟班你要干嘛抗战：重生川军，杀鬼子续命传说，从纸扎匠开始无尽灰夜快穿：主神独宠的病秧子他是上神金丹证道穿越：我修仙自带BGM 叮咚！天道家的宁宝上线啦大明：开局革职，我教朱棣屠龙术

最近ai圈的大佬李飞飞在访谈里分享了关于ai发展的核心观点，很多人听完觉得“高深莫测”——一会儿说“通用ai还很遥远”，一会儿提“世界模型是下一个方向”，还有“3d空间智能”“可自由导航的3d世界”这些专业词，让人摸不着头脑。

其实李飞飞的核心意思特别好懂：现在咱们用的ai（比如chatgpt、豆包）虽然能写文案、答问题，但本质上是“只会读文字、看图片的学霸”，根本不懂真实世界的3d空间逻辑；而未来的ai要想更实用，得先学会“看懂3d世界、构建3d世界”，这就是“世界模型”要干的事。她创办的公司worldlives已经做出了全球首个大型世界模型产品marble，能根据文字或图片生成可自由走的3d场景，这事儿在游戏、机器人、虚拟制造等领域用处极大。

今天咱们就用最通俗的大白话，把李飞飞的访谈观点拆解开讲，从“现在的ai差在哪”“世界模型到底是啥”“能落地到哪些场景”这几个方面，让不管是懂技术还是不懂技术的人，都能把这件事看透。

一、先搞懂前提：现在的ai再强，也“看不懂真实世界”

李飞飞说“当前语言模型进步显着，但离通用ai还很远”，这句话戳中了现在ai的核心痛点——咱们觉得ai很聪明，其实它只是“文字游戏高手”，根本没有对真实世界的“空间认知”。

咱们先举个生活化的例子：你跟现在的ai说“帮我设计一个100平米的两居室，客厅要朝南，卧室带飘窗，厨房挨着餐厅”，ai能给你写一堆文字描述，甚至画一张2d户型图，但它根本不知道“朝南的客厅阳光怎么照进来”“卧室飘窗的高度该多少才实用”“厨房和餐厅之间留多大过道才方便上菜”——因为它不懂3d空间的物理逻辑，不知道“上下左右、前后远近”的真实关系，更不懂人和空间的互动。

再比如，你给ai看一张“沙发放在客厅中间”的图片，让它“把沙发挪到墙角，再放一张茶几在沙发前面”，ai能生成一张修改后的2d图，但它不知道“沙发挪到墙角后，会不会挡住插座”“茶几的尺寸和沙发能不能匹配”“人坐在沙发上能不能够到茶几”——这些都是真实世界里的3d空间逻辑，现在的ai完全没概念。

李飞飞之所以这么说，是因为她当年创建的imag数据集，是深度学习革命的“基石”——正是因为有了这个包含海量图片的数据集，ai才学会了“识别图片里的东西”（比如区分猫和狗、沙发和茶几），但这只是“2d平面识别”，不是“3d空间理解”。

简单说，现在的ai就像“纸上谈兵的将军”：熟读兵书（文字、图片数据），能把战术说得头头是道，但从来没上过真实战场（3d物理世界），不知道地形、距离、障碍物这些实际因素会影响决策。而李飞飞认为，ai要想往通用智能走，第一步就得从“纸上谈兵”变成“实地作战”，先学会理解3d空间，这就是“世界模型”的核心意义。

二、核心解读：世界模型到底是啥？和语言模型有啥本质区别？

李飞飞说“世界模型将成为ai发展的下一个重要方向”，还强调它和语言模型“有本质区别”。很多人会问：“不都是ai模型吗？差别能有多大？”

其实用一句话就能说透：语言模型是“处理文字信息的ai”，世界模型是“理解3d空间、构建3d世界的ai” ——一个专注于“文字逻辑”，一个专注于“物理空间逻辑”，完全是两个不同的赛道。

咱们用“大白话对比表”，把两者的区别讲得明明白白：

1. 核心能力：一个“读文字”，一个“懂空间”

- 语言模型（比如gpt、豆包）：核心能力是“理解文字、生成文字”。你给它一段文字，它能读懂意思；你让它写文案、写报告、答问题，它能快速输出文字答案。它就像一个“超级文案+知识库”，擅长处理所有和文字相关的事，但只要涉及3d空间、物理互动，它就歇菜了。

- 世界模型（比如marble）：核心能力是“理解3d空间关系、构建可交互的3d世界”。你给它一句文字“一个有山有水的公园，里面有长椅、滑梯和喷泉”，它能生成一个完整的3d公园场景；你让它“在公园门口加一个大门，在滑梯旁边种三棵树”，它能精准修改，而且你还能“走进”这个3d场景里，自由走动、查看细节——就像玩3d游戏一样。它就像一个“3d世界造物主+导航员”，擅长把文字、图片变成可交互的3d空间。

2. 思考逻辑：一个“靠文字联想”，一个“靠物理规律”

- 语言模型的思考逻辑是“文字接龙+联想”：比如你问“下雨了该怎么办”，它会从训练数据里找到“下雨→带伞、穿雨衣、躲雨”这些文字关联，然后组合成答案。它根本不知道“雨是从天上掉下来的”“伞能挡住雨”这些物理规律，只是靠文字之间的关联来回答。

- 世界模型的思考逻辑是“物理规律+空间推理”：比如你让它生成“下雨的公园”，它不仅会在3d场景里加上“雨滴下落”的效果，还会考虑“雨滴落在长椅上会往下流”“地面湿了会有反光”这些物理规律；如果你让“虚拟人”在雨里走，它还会让虚拟人“撑起伞”，避免被雨淋——这都是基于对物理世界的理解，而不是文字联想。

3. 输出结果：一个“给静态文字\/图片”，一个“给动态3d世界”

- 语言模型的输出是“静态的”：不管是写文案、画2d图，还是答问题，输出的结果都是“不能互动的”。比如它给你画的2d户型图，你不能进去走，也不能调整家具位置；它给你写的旅行攻略，你只能看文字，不能“身临其境”。

- 世界模型的输出是“动态可交互的”：它生成的是3d世界，你可以用鼠标、键盘控制视角，在里面自由导航——比如走进3d公园的大门，绕着喷泉走一圈，坐在长椅上看滑梯，甚至可以调整太阳的角度，看看不同时间的光影效果。这种“可交互性”，是语言模型完全做不到的。

4. 应用场景：一个“办公、娱乐”，一个“生产、实操”

- 语言模型的应用场景主要是“轻量级的文字处理”：比如写工作报告、社交媒体文案、回答咨询、翻译文档等，都是和“信息传递”相关的场景，不用涉及物理世界的互动。

- 世界模型的应用场景主要是“重量级的实操场景”：比如游戏开发（生成3d游戏地图）、机器人导航（让机器人看懂真实环境）、虚拟制造（在3d空间里模拟生产流程）等，都是需要“和物理空间互动”的场景。

简单总结：语言模型解决的是“信息层面”的问题，让人和ai的信息交流更顺畅；世界模型解决的是“物理层面”的问题，让ai能看懂、构建、互动真实世界。李飞飞认为，只有把这两种模型结合起来，ai才能真正走向通用智能——比如未来的ai助手，既能听懂你的文字指令，又能在3d世界里帮你完成实操任务（比如设计房子、模拟生产、控制机器人干活）。

三、实操拆解：世界模型是怎么工作的？用文字就能生成3d世界？

李飞飞提到她创办的worldlives公司，用18个月就做出了全球首个大型世界模型产品marble，能“根据文字和图片提示生成可自由导航的3d世界”。很多人会好奇：“这到底是怎么实现的？难道ai真能‘无中生有’造3d世界？”

其实marble的工作原理一点都不神秘，核心就是“三步走”，和咱们平时画画、做手工的逻辑差不多，只是把“人动手”变成了“ai自动做”：

第一步：读懂“指令”——把文字\/图片变成“3d需求清单”

首先，marble要先理解你给的提示——不管是文字还是图片，它都会先拆解成“3d世界的关键要素”，就像你要做手工前，先列好“需要什么材料、做什么形状、颜色是什么”。

比如你输入文字提示“一个复古风格的咖啡馆，面积50平米，有吧台、木质桌椅、复古吊灯，墙面是浅棕色，地板是深色木地板”，marble会拆解成这样的“3d需求清单”：

- 空间大小：50平米，长方体结构；

- 核心物体：吧台（材质：木质，颜色：深棕色，位置：进门左侧）、桌椅（10套，材质：木质，颜色：浅棕色，位置：吧台对面）、复古吊灯（8个，材质：金属+玻璃，颜色：金色，位置：天花板均匀分布）；

- 环境细节：墙面颜色（浅棕色）、地板材质（深色木地板）、风格（复古）。

如果你给的是一张“海边小屋”的图片，marble会先识别图片里的关键元素（小屋、大海、沙滩、椰子树），再还原它们的3d关系（小屋在沙滩上，大海在小屋前方，椰子树在小屋旁边），然后形成“3d需求清单”。

这一步的关键是：marble不仅能识别“有什么东西”，还能理解“这些东西在3d空间里的位置关系”，这是语言模型做不到的——语言模型只能告诉你“海边小屋有沙滩和大海”，但不知道“沙滩在小屋前面，大海在沙滩前面”。

第二步：构建“骨架”——生成3d空间的基础结构

理解需求后，marble会先搭建3d世界的“骨架”，也就是空间结构和物体的大致形状，就像盖房子先搭钢筋水泥框架，再砌墙。

比如构建复古咖啡馆的“骨架”：

- 先画一个50平米的长方体空间，确定墙面、天花板、地板的位置；

- 再在空间里放置“简化版物体”：用长方体代表吧台，用小长方体+平板代表桌椅，用圆柱体+球体代表吊灯；

- 确定物体的相对位置：吧台在进门左侧，桌椅在中间区域，吊灯在天花板下方，确保物体之间不重叠（比如桌椅不会穿过吧台，吊灯不会碰到桌子）。

这一步的核心是“空间推理”：marble要确保所有物体的大小、位置都符合物理逻辑——比如吧台的高度大概1.2米，桌椅的高度大概0.7米，吊灯离地板的高度大概2.5米，这些都是基于真实世界的物理尺寸，不会出现“吧台比人还高”“桌椅嵌在墙里”的离谱情况。

第三步：填充“细节”——让3d世界更真实，还能自由导航

最后，marble会给“骨架”填充细节，让3d世界变得逼真，同时开启“导航功能”，让你能在里面自由走动。

比如填充咖啡馆的细节：

- 材质和纹理：给吧台加上木质纹理，给墙面加上浅棕色涂料质感，给地板加上深色木纹，给吊灯加上金色金属光泽；

- 光影效果：模拟自然光从窗户照进来，在地面形成光斑；吊灯发光，照亮桌椅区域，产生阴影；

- 小装饰：在吧台上加咖啡机、杯子，在墙上挂复古海报，在桌子上放花瓶，让场景更生动；

- 导航功能：设置“虚拟摄像头”，你可以用鼠标控制摄像头移动，就像自己走进咖啡馆一样——往前走、往后退、左转、右转，甚至可以凑近吧台看咖啡机的细节，或者坐在椅子上看墙上的海报。

整个过程下来，从输入文字到生成可导航的3d世界，只需要几分钟。而且marble还能根据你的新指令修改场景——比如你说“把吧台移到进门右侧，再加两个靠窗的座位”，它会快速调整物体位置，同时保持空间逻辑和光影效果的一致性，不会出现“靠窗座位挡住窗户”“移动后的吧台和桌椅重叠”的问题。

李飞飞之所以说这是“重要突破”，是因为以前生成3d世界需要专业的建模师，用3dmax、maya等软件手动制作，一个简单的场景就要花几天时间；而现在有了世界模型，普通人不用懂建模，只要会写文字、会传图片，就能快速生成3d场景，大大降低了3d内容创作的门槛。

四、落地前景：世界模型能用到哪些地方？这些行业要变天了

本章未完，点击下一页继续阅读。

新书推荐：我重生了，这一世我嘎嘎乱杀天剑囚笼只为遇见你那些年一起走过的日子修仙不？！星辰予你：误撩学长后我全网火了财务自由：女大重返校园当网红散修的日常熊出没：天选之子问道：玄门劫我在一人之下活成传说