李飞飞访谈:AI下一站——能“懂3D世界”的世界模型(1/2)

最近ai圈的大佬李飞飞在访谈里分享了关于ai发展的核心观点,很多人听完觉得“高深莫测”——一会儿说“通用ai还很遥远”,一会儿提“世界模型是下一个方向”,还有“3d空间智能”“可自由导航的3d世界”这些专业词,让人摸不着头脑。

其实李飞飞的核心意思特别好懂:现在咱们用的ai(比如chatgpt、豆包)虽然能写文案、答问题,但本质上是“只会读文字、看图片的学霸”,根本不懂真实世界的3d空间逻辑;而未来的ai要想更实用,得先学会“看懂3d世界、构建3d世界”,这就是“世界模型”要干的事。她创办的公司worldlives已经做出了全球首个大型世界模型产品marble,能根据文字或图片生成可自由走的3d场景,这事儿在游戏、机器人、虚拟制造等领域用处极大。

今天咱们就用最通俗的大白话,把李飞飞的访谈观点拆解开讲,从“现在的ai差在哪”“世界模型到底是啥”“能落地到哪些场景”这几个方面,让不管是懂技术还是不懂技术的人,都能把这件事看透。

一、先搞懂前提:现在的ai再强,也“看不懂真实世界”

李飞飞说“当前语言模型进步显着,但离通用ai还很远”,这句话戳中了现在ai的核心痛点——咱们觉得ai很聪明,其实它只是“文字游戏高手”,根本没有对真实世界的“空间认知”。

咱们先举个生活化的例子:你跟现在的ai说“帮我设计一个100平米的两居室,客厅要朝南,卧室带飘窗,厨房挨着餐厅”,ai能给你写一堆文字描述,甚至画一张2d户型图,但它根本不知道“朝南的客厅阳光怎么照进来”“卧室飘窗的高度该多少才实用”“厨房和餐厅之间留多大过道才方便上菜”——因为它不懂3d空间的物理逻辑,不知道“上下左右、前后远近”的真实关系,更不懂人和空间的互动。

再比如,你给ai看一张“沙发放在客厅中间”的图片,让它“把沙发挪到墙角,再放一张茶几在沙发前面”,ai能生成一张修改后的2d图,但它不知道“沙发挪到墙角后,会不会挡住插座”“茶几的尺寸和沙发能不能匹配”“人坐在沙发上能不能够到茶几”——这些都是真实世界里的3d空间逻辑,现在的ai完全没概念。

李飞飞之所以这么说,是因为她当年创建的imag数据集,是深度学习革命的“基石”——正是因为有了这个包含海量图片的数据集,ai才学会了“识别图片里的东西”(比如区分猫和狗、沙发和茶几),但这只是“2d平面识别”,不是“3d空间理解”。

简单说,现在的ai就像“纸上谈兵的将军”:熟读兵书(文字、图片数据),能把战术说得头头是道,但从来没上过真实战场(3d物理世界),不知道地形、距离、障碍物这些实际因素会影响决策。而李飞飞认为,ai要想往通用智能走,第一步就得从“纸上谈兵”变成“实地作战”,先学会理解3d空间,这就是“世界模型”的核心意义。

二、核心解读:世界模型到底是啥?和语言模型有啥本质区别?

李飞飞说“世界模型将成为ai发展的下一个重要方向”,还强调它和语言模型“有本质区别”。很多人会问:“不都是ai模型吗?差别能有多大?”

其实用一句话就能说透:语言模型是“处理文字信息的ai”,世界模型是“理解3d空间、构建3d世界的ai” ——一个专注于“文字逻辑”,一个专注于“物理空间逻辑”,完全是两个不同的赛道。

咱们用“大白话对比表”,把两者的区别讲得明明白白:

1. 核心能力:一个“读文字”,一个“懂空间”

- 语言模型(比如gpt、豆包):核心能力是“理解文字、生成文字”。你给它一段文字,它能读懂意思;你让它写文案、写报告、答问题,它能快速输出文字答案。它就像一个“超级文案+知识库”,擅长处理所有和文字相关的事,但只要涉及3d空间、物理互动,它就歇菜了。

- 世界模型(比如marble):核心能力是“理解3d空间关系、构建可交互的3d世界”。你给它一句文字“一个有山有水的公园,里面有长椅、滑梯和喷泉”,它能生成一个完整的3d公园场景;你让它“在公园门口加一个大门,在滑梯旁边种三棵树”,它能精准修改,而且你还能“走进”这个3d场景里,自由走动、查看细节——就像玩3d游戏一样。它就像一个“3d世界造物主+导航员”,擅长把文字、图片变成可交互的3d空间。

2. 思考逻辑:一个“靠文字联想”,一个“靠物理规律”

- 语言模型的思考逻辑是“文字接龙+联想”:比如你问“下雨了该怎么办”,它会从训练数据里找到“下雨→带伞、穿雨衣、躲雨”这些文字关联,然后组合成答案。它根本不知道“雨是从天上掉下来的”“伞能挡住雨”这些物理规律,只是靠文字之间的关联来回答。

- 世界模型的思考逻辑是“物理规律+空间推理”:比如你让它生成“下雨的公园”,它不仅会在3d场景里加上“雨滴下落”的效果,还会考虑“雨滴落在长椅上会往下流”“地面湿了会有反光”这些物理规律;如果你让“虚拟人”在雨里走,它还会让虚拟人“撑起伞”,避免被雨淋——这都是基于对物理世界的理解,而不是文字联想。

3. 输出结果:一个“给静态文字\/图片”,一个“给动态3d世界”

- 语言模型的输出是“静态的”:不管是写文案、画2d图,还是答问题,输出的结果都是“不能互动的”。比如它给你画的2d户型图,你不能进去走,也不能调整家具位置;它给你写的旅行攻略,你只能看文字,不能“身临其境”。

- 世界模型的输出是“动态可交互的”:它生成的是3d世界,你可以用鼠标、键盘控制视角,在里面自由导航——比如走进3d公园的大门,绕着喷泉走一圈,坐在长椅上看滑梯,甚至可以调整太阳的角度,看看不同时间的光影效果。这种“可交互性”,是语言模型完全做不到的。

4. 应用场景:一个“办公、娱乐”,一个“生产、实操”

- 语言模型的应用场景主要是“轻量级的文字处理”:比如写工作报告、社交媒体文案、回答咨询、翻译文档等,都是和“信息传递”相关的场景,不用涉及物理世界的互动。

- 世界模型的应用场景主要是“重量级的实操场景”:比如游戏开发(生成3d游戏地图)、机器人导航(让机器人看懂真实环境)、虚拟制造(在3d空间里模拟生产流程)等,都是需要“和物理空间互动”的场景。

简单总结:语言模型解决的是“信息层面”的问题,让人和ai的信息交流更顺畅;世界模型解决的是“物理层面”的问题,让ai能看懂、构建、互动真实世界。李飞飞认为,只有把这两种模型结合起来,ai才能真正走向通用智能——比如未来的ai助手,既能听懂你的文字指令,又能在3d世界里帮你完成实操任务(比如设计房子、模拟生产、控制机器人干活)。

三、实操拆解:世界模型是怎么工作的?用文字就能生成3d世界?

李飞飞提到她创办的worldlives公司,用18个月就做出了全球首个大型世界模型产品marble,能“根据文字和图片提示生成可自由导航的3d世界”。很多人会好奇:“这到底是怎么实现的?难道ai真能‘无中生有’造3d世界?”

其实marble的工作原理一点都不神秘,核心就是“三步走”,和咱们平时画画、做手工的逻辑差不多,只是把“人动手”变成了“ai自动做”:

第一步:读懂“指令”——把文字\/图片变成“3d需求清单”

首先,marble要先理解你给的提示——不管是文字还是图片,它都会先拆解成“3d世界的关键要素”,就像你要做手工前,先列好“需要什么材料、做什么形状、颜色是什么”。

比如你输入文字提示“一个复古风格的咖啡馆,面积50平米,有吧台、木质桌椅、复古吊灯,墙面是浅棕色,地板是深色木地板”,marble会拆解成这样的“3d需求清单”:

- 空间大小:50平米,长方体结构;

- 核心物体:吧台(材质:木质,颜色:深棕色,位置:进门左侧)、桌椅(10套,材质:木质,颜色:浅棕色,位置:吧台对面)、复古吊灯(8个,材质:金属+玻璃,颜色:金色,位置:天花板均匀分布);

- 环境细节:墙面颜色(浅棕色)、地板材质(深色木地板)、风格(复古)。

如果你给的是一张“海边小屋”的图片,marble会先识别图片里的关键元素(小屋、大海、沙滩、椰子树),再还原它们的3d关系(小屋在沙滩上,大海在小屋前方,椰子树在小屋旁边),然后形成“3d需求清单”。

这一步的关键是:marble不仅能识别“有什么东西”,还能理解“这些东西在3d空间里的位置关系”,这是语言模型做不到的——语言模型只能告诉你“海边小屋有沙滩和大海”,但不知道“沙滩在小屋前面,大海在沙滩前面”。

第二步:构建“骨架”——生成3d空间的基础结构

理解需求后,marble会先搭建3d世界的“骨架”,也就是空间结构和物体的大致形状,就像盖房子先搭钢筋水泥框架,再砌墙。

比如构建复古咖啡馆的“骨架”:

- 先画一个50平米的长方体空间,确定墙面、天花板、地板的位置;

- 再在空间里放置“简化版物体”:用长方体代表吧台,用小长方体+平板代表桌椅,用圆柱体+球体代表吊灯;

- 确定物体的相对位置:吧台在进门左侧,桌椅在中间区域,吊灯在天花板下方,确保物体之间不重叠(比如桌椅不会穿过吧台,吊灯不会碰到桌子)。

这一步的核心是“空间推理”:marble要确保所有物体的大小、位置都符合物理逻辑——比如吧台的高度大概1.2米,桌椅的高度大概0.7米,吊灯离地板的高度大概2.5米,这些都是基于真实世界的物理尺寸,不会出现“吧台比人还高”“桌椅嵌在墙里”的离谱情况。

第三步:填充“细节”——让3d世界更真实,还能自由导航

最后,marble会给“骨架”填充细节,让3d世界变得逼真,同时开启“导航功能”,让你能在里面自由走动。

比如填充咖啡馆的细节:

- 材质和纹理:给吧台加上木质纹理,给墙面加上浅棕色涂料质感,给地板加上深色木纹,给吊灯加上金色金属光泽;

- 光影效果:模拟自然光从窗户照进来,在地面形成光斑;吊灯发光,照亮桌椅区域,产生阴影;

- 小装饰:在吧台上加咖啡机、杯子,在墙上挂复古海报,在桌子上放花瓶,让场景更生动;

- 导航功能:设置“虚拟摄像头”,你可以用鼠标控制摄像头移动,就像自己走进咖啡馆一样——往前走、往后退、左转、右转,甚至可以凑近吧台看咖啡机的细节,或者坐在椅子上看墙上的海报。

整个过程下来,从输入文字到生成可导航的3d世界,只需要几分钟。而且marble还能根据你的新指令修改场景——比如你说“把吧台移到进门右侧,再加两个靠窗的座位”,它会快速调整物体位置,同时保持空间逻辑和光影效果的一致性,不会出现“靠窗座位挡住窗户”“移动后的吧台和桌椅重叠”的问题。

李飞飞之所以说这是“重要突破”,是因为以前生成3d世界需要专业的建模师,用3dmax、maya等软件手动制作,一个简单的场景就要花几天时间;而现在有了世界模型,普通人不用懂建模,只要会写文字、会传图片,就能快速生成3d场景,大大降低了3d内容创作的门槛。

四、落地前景:世界模型能用到哪些地方?这些行业要变天了

本章未完,点击下一页继续阅读。