OpenAI:从“会聊天的机器人”到改变世界的公司(1/2)

要是你常刷手机、玩电脑,肯定听过“chatgpt”“ai聊天机器人”这些词——但你知道吗?这些火遍全球的技术,背后都站着同一家公司:openai。今天咱们就用最接地气的话,把openai扒得明明白白,从它是“干啥的”,到它咋一步步搞出chatgpt,再到它跟咱们普通人有啥关系,全给你说清楚。

一、先搞懂:openai到底是个“啥玩意儿”?

不少人一听到“openai”,总觉得是“高大上的科技公司”“满是程序员的实验室”——这话没全错,但也不全对。要理解它,咱们先从名字拆起,再讲它的“出身”,保证你听完就懂。

1. 名字里的“open”和“ai”,原来不是你想的那样

“openai”这俩词,拆开来是“open(开放)”和“ai(人工智能)”。但你别以为它叫“开放”,就啥技术都往外漏——这事儿得从头说。

一开始,openai确实想走“开放路线”:2015年刚成立时,它喊的口号是“让人工智能造福全人类,不被少数人垄断”。那时候它更像个“公益性质的实验室”,搞出点技术就分享出来,比如早期的“gpt-1”“dall-e”(能画图画的ai),普通开发者都能拿来用。

但后来变了:2019年之后,openai改成了“有限盈利模式”——简单说,就是“可以赚钱,但不能乱赚钱”。为啥改?因为搞ai太烧钱了!训练一次chatgpt这样的模型,得用成千上万台服务器,电费、硬件费加起来能烧几个亿,光靠捐款根本扛不住。

现在的“open”,更偏向“对人类开放ai的好处”,而不是“把所有技术都公开”。比如你能免费用来聊天、写文案,开发者能通过它的“接口”做小程序,这就是“开放好处”;但它最核心的“模型算法”,就像“祖传秘方”,不会随便往外说——毕竟要是被坏人拿去用,风险太大。

2. openai的“爹”是谁?背后有大佬撑腰

openai能搞出这么牛的技术,不是“凭空冒出来的”,背后有两个关键人物和公司撑着。

第一个是“硅谷钢铁侠”马斯克。2015年openai成立时,马斯克是主要发起人之一,还投了不少钱。那时候他的想法很简单:怕ai发展太快,被谷歌、微软这些大公司垄断,所以搞个“中立的实验室”,盯着ai的发展,别让它“跑偏”。不过后来马斯克撤资了(据说因为和团队理念不合,加上他要忙特斯拉和spacex),但他算是openai的“创始人爸爸”。

第二个是微软。2019年之后,微软成了openai的“最大金主”:前前后后投了上百亿美金,还把自己的“azure云服务器”(简单说就是“超级电脑集群”)借给openai用。你想啊,chatgpt要处理上亿条数据,没有超级电脑根本跑不起来——微软的服务器,就是它的“动力心脏”。

现在的openai,既不是纯公益组织,也不是像谷歌那样的“纯盈利公司”,更像个“戴着镣铐跳舞的科技实验室”:要赚钱养技术,但又得守住“不让ai害人”的底线。

二、openai的“王牌产品”:除了chatgpt,还有这些狠活

提到openai,90%的人第一反应是“chatgpt”——但其实它家不止这一个“王牌”。咱们挑几个和普通人关系最大的,用大白话讲清楚它们能干啥。

1. chatgpt:“会聊天、会干活的机器人”,到底牛在哪?

chatgpt是openai2022年11月推出的,一出来就炸了锅:有人用它写论文,有人让它改简历,甚至有人让它编代码、写剧本——它为啥这么“全能”?

先搞懂它的名字:gpt是“生成式预训练transformer”的缩写,咱们不用记这么复杂,你就理解成“一个提前学了全世界知识的机器人”。它的“牛”,主要在三点:

第一,“能听懂人话,还能聊明白”。以前的ai聊天机器人,比如你手机里的“智能助手”,往往是“你问一句,它答一句,多问两句就卡壳”。但chatgpt不一样:你跟它聊“今天不想上班”,它能接“是不是最近太累了?可以试试先列个简单的工作计划”;你跟它聊“想给女朋友选礼物”,它能根据你说的“女朋友喜欢复古风、预算500块”,给你推荐具体的礼物——就像跟一个“懂你的朋友”聊天,而不是跟“机器人”说话。

第二,“啥活儿都能干,还能举一反三”。比如你让它“写一篇关于‘猫咪为什么爱蹭人’的短文,要口语化,适合发朋友圈”,它写出来的内容会带点小幽默,还会加个可爱的表情;你让它“把这段英文翻译成中文,还要解释里面的俚语”,它不仅翻译准确,还会告诉你“这个俚语在美国年轻人里常用,类似咱们说的‘啥情况啊’”;甚至你让它“帮我修一下这段代码,运行的时候总报错”,它能指出“这里少了个分号,那里循环条件错了”——相当于一个“兼职文案+翻译+程序员”。

第三,“能‘学习’你的习惯”。比如你第一次让它写文案,说“我喜欢简洁的风格,别太长”,下次你再让它写,它会自动按照“简洁”的风格来;你让它“用‘小明’当主角写故事”,后面再让它续写,它会记得“小明”的性格(比如你之前说小明“爱冒险”),不会前后矛盾——就像它“记着你的偏好”。

当然,chatgpt也不是“万能的”:它有时候会“一本正经地说胡话”(比如编造一个不存在的历史事件),也不会“实时更新知识”(比如你问它“2024年最新的电影有哪些”,它可能答不上来,因为它的知识截止到某个时间点),而且它不会“自己思考”——它所有的回答,都是基于之前学过的知识“拼出来的”,不是像人一样“真的理解了”。

2. dall·e:“你说一句话,它画一幅画”的ai画家

除了chatgpt,openai还有个“ai画家”叫dall·e(发音像“达利”,跟那个着名画家同名)。它的功能很简单:你用文字描述一个场景,它就能生成对应的图片。

比如你说“一只穿着西装的柯基,坐在咖啡馆里用笔记本电脑工作,背景是复古风格的街道”,dall·e能给你画出一只萌萌的柯基,穿着合身的小西装,面前放着迷你笔记本,旁边还有一杯咖啡,背景里的街道有旧旧的路灯和店铺——细节拉满,就像真的有人画出来的一样。

它现在已经更新到第三代(dall·e 3),比以前更“聪明”:你要是描述得不够细,它会自动补全细节(比如你说“画一只会飞的猪”,它会默认画成“粉色的小猪,有白色的翅膀,飞在蓝天白云里”);而且它能跟chatgpt联动——你先跟chatgpt聊“我想画一幅‘未来城市里的书店’,要温馨一点”,chatgpt会帮你把描述改得更具体,再直接传给dall·e,生成图片,不用你自己费劲想细节。

现在很多人用dall·e做设计:比如自媒体博主用它做封面图,商家用它设计产品包装,甚至有人用它画漫画分镜——以前得学几年画画才能做到的事,现在说句话就行,这就是ai的魅力。

3. gpt-4:比chatgpt更“聪明”的“超级大脑”

你可能听过“gpt-4”这个词——它其实是chatgpt的“升级版”,2023年3月推出的。如果说chatgpt是“高中生水平”,那gpt-4就是“大学生水平”,主要强在两个地方:

第一,“能看懂图片”。chatgpt只能处理文字,比如你给它发一张照片,它会说“我看不懂图片”;但gpt-4能“看图说话”:你给它发一张“冰箱里的食材照片”,它能告诉你“里面有鸡蛋、西红柿、黄瓜,可以做西红柿炒鸡蛋、拍黄瓜”;你给它发一张“数学题的图片”,它能帮你分析题目,还能写解题步骤——相当于给ai加了“眼睛”。

第二,“处理复杂问题更厉害”。比如你让它“写一份‘小型咖啡店的创业计划书’,要包括成本预算、客源分析、营销方案”,chatgpt可能会写得比较笼统,但gpt-4能给你算具体的数字(比如“房租每月5000元,咖啡豆进货价每斤80元”),还会分“初期、中期、后期”给你提营销建议(比如“初期搞‘买一送一’,中期做会员体系,后期和周边花店合作”);甚至你让它“分析一篇1000字的论文,指出逻辑漏洞”,它能一条一条列出来,还会给你修改建议——就像一个“专业顾问”。

不过gpt-4不是免费的:现在你用的免费版chatgpt,大多是基于“gpt-3.5”(gpt-4的前一代),要想用gpt-4,得花钱开“plus会员”(每月大概20美金),这也是openai赚钱的主要方式之一。

三、openai是咋“从零到一”搞出chatgpt的?说穿了就3步

很多人觉得openai搞出chatgpt是“突然爆发”,其实不是——它花了8年时间,一步一步慢慢磨出来的。咱们用“做饭”来类比,你就能明白它的研发过程有多难。

第一步:“买菜”——收集全世界的“知识食材”

要做一顿大餐,首先得买菜;要训练ai,首先得“喂”它知识。openai训练chatgpt的第一步,就是收集“全世界的文字数据”——相当于把“菜市场里所有的菜都买回家”。

这些数据从哪来?主要有三个渠道:

- 公开的网站:比如维基百科、百度百科、各种新闻网站、博客(只要是没加密、能公开看的文字,都会被收集);

- 书籍和论文:比如图书馆里的经典书籍、学术数据库里的论文(当然,会避开有版权的内容,或者跟版权方合作);

- 对话数据:比如以前人们和其他ai聊天的记录、公开的论坛对话(比如 reddit 上的帖子),用来教ai“怎么聊天”。

收集来的数据有多少?说出来你可能不信:训练gpt-3(chatgpt的前一代)时,用了大概45tb的数据——相当于把10万部电影的文字内容,或者1000亿页小说,全部塞进ai的“大脑”里。

但这些数据不是“直接用”的,还得“洗菜”:比如去掉脏话、错误信息(比如“地球是平的”这种谣言)、重复内容(比如网上反复转载的同一篇文章),不然ai学了坏东西,就会“说胡话”。这一步很枯燥,但很重要——就像你买菜回来,得把烂叶子摘掉、把泥土洗干净,不然做出来的饭会难吃。

第二步:“做饭”——用超级电脑“炒”出ai模型

食材准备好,接下来就是“做饭”——这一步是openai最核心的技术,也是最烧钱的地方。

这里的“锅”,就是“超级电脑”:openai用的是微软azure的云服务器,里面有上万颗“gpu芯片”(相当于电脑的“大脑”)。这些芯片同时工作,才能处理几十tb的数据——你可以理解成“用1000口锅同时炒菜”,速度快,但电费和硬件费也贵得吓人。

这里的“菜谱”,就是“算法”:简单说,就是告诉ai“怎么从数据里学知识”。比如,ai看到“猫”这个词,算法会让它记住“猫有四条腿、会喵喵叫、喜欢吃鱼”;看到“今天天气很好,我想去公园”这句话,算法会让它明白“‘天气好’是‘去公园’的原因”——相当于教ai“怎么理解文字的意思,怎么组织语言”。

这个“做饭”的过程,叫“训练模型”。训练一次gpt-3,大概要花几个星期,电费就得几千万美金;训练gpt-4,成本更高,有人估算得几亿美金——这也是为啥只有微软这样的大公司,才能撑得起openai的研发。

而且“做饭”不是一次就能成功的:比如第一次训练出来的ai,可能会“答非所问”(你问“今天吃啥”,它答“地球是圆的”),这时候工程师就得调整“菜谱”(改算法),再重新“炒一次”(重新训练),有时候得反复几十次,才能让ai“说话正常”。

第三步:“试吃”——让人类教ai“怎么说话更得体”

饭做好了,得有人试吃,看看咸不咸、辣不辣;ai训练好了,也得有人“试聊”,教它“怎么说话更得体”——这一步叫“人类反馈强化学习(rlhf)”,说穿了就是“让人类当ai的老师”。

具体怎么做?openai会找一群“标注员”(普通人也能做,只要通过考核),让他们跟ai聊天,然后给ai的回答打分:

- 如果ai回答得好(比如你问“怎么缓解焦虑”,ai说“可以试试深呼吸、听音乐,要是严重的话建议看医生”),就给高分;

本章未完,点击下一页继续阅读。