Transformer:从“是什么”到“为什么重要”,零基础也能懂(1/2)

提到ai、chatgpt、大语言模型,经常会听到一个词——“transformer”。不少人第一次听会懵:这到底是个啥?是像变压器那样的硬件?还是某个复杂的公式?其实啊,transformer既不是硬件,也不是单一公式,而是ai领域里一套“处理信息的万能模板”。就像咱们盖房子得先有脚手架,做蛋糕得先有配方框架一样,现在市面上90%以上的智能ai,比如能聊天的chatgpt、能写代码的github copilot、能做图文生成的midjourney(背后也用到相关技术),都是在transformer这个“模板”上搭建出来的。

今天咱们就用最接地气的大白话,从“它到底是啥”“它咋干活的”“它为啥这么牛”“它能用到哪儿”这几个角度,把transformer掰开揉碎了讲明白,哪怕你没接触过ai,也能听得明明白白。

一、先搞懂基础:transformer不是“硬件”,是ai的“信息处理脑回路”

在聊transformer之前,咱们得先纠正一个常见的误会:很多人看到“transformer”这个词,会联想到电器里的“变压器”(比如手机充电器里的部件),但二者半毛钱关系没有。ai里的transformer,是一套“如何让机器理解和处理信息”的逻辑规则,说白了就是机器的“脑回路设计图”。

在transformer出现之前,机器处理信息的方式特别“死板”。比如处理一句话“小明给小红送了一本书”,以前的ai会一个字一个字按顺序分析:先看“小明”,再看“给”,再看“小红”……就像咱们看书只能从第一页翻到最后一页,中间漏了一页就看不懂后面的内容。但这种方式有个大问题:它没法同时关注到句子里的“关键联系”——比如“小明”是“送书”的人,“小红”是“收书”的人,“一本书”是送的东西,这些关系得翻完整句话才能理清,效率低还容易出错。

而transformer的出现,就像给机器换了个“更灵活的脑回路”。它能一下子“扫遍”整句话的所有字,同时抓住“谁做了什么、给谁做的、用了什么做的”这些关键关系,理解信息的速度和准确度都翻了好几倍。打个比方:以前的ai处理句子像“串珠子”,一颗一颗按顺序串;transformer处理句子像“织毛衣”,一下子能把所有毛线(字词)的位置和联系都织清楚。

简单说,transformer的核心作用就一个:让机器能像人一样,“全局化”地理解信息之间的关联,而不是像以前那样“一根筋”地按顺序读。不管是处理文字、语音,还是图片、视频,只要把信息转换成机器能懂的格式,transformer都能用上这套“脑回路”来分析——这也是它后来能成为ai领域“万能模板”的根本原因。

二、transformer的“核心秘诀”:就靠两个关键技术,简单到能类比生活场景

transformer之所以能颠覆之前的ai技术,核心就靠两个“绝招”:一个叫“自注意力机制”(self-attention),另一个叫“编码器-解码器结构”(encoder-decoder)。这两个词听起来特别专业,但咱们用生活场景一类比,马上就能懂。

(一)第一个绝招:自注意力机制——机器的“抓重点能力”,像人读句子时找关键

咱们先想个生活场景:当你读“小明在公园给小红送了一本他昨天买的故事书”这句话时,你不会把每个字都看得一样重。你会自动关注到“小明”(谁送)、“小红”(送给谁)、“送”(做了什么)、“故事书”(送什么),至于“在公园”“昨天买的”这些细节,虽然重要,但优先级会低一点——这种“自动抓重点、辨关系”的能力,就是自注意力机制想给机器的。

机器没有人类的“常识”,所以自注意力机制要做的,就是给句子里的每个字词“打分”,告诉机器“哪个词和哪个词关系最铁”。具体怎么打分?咱们用刚才的句子举例子,拆成几个词:小明、在、公园、给、小红、送、了、一本、他、昨天、买、的、故事书。

1. 第一步:给“小明”找“小伙伴”

机器先盯着“小明”这个词,然后逐个看其他词:“小明”和“送”是什么关系?是“送”这个动作的发出者,关系很铁,打8分;“小明”和“小红”是什么关系?是“送”的对象,关系也铁,打读理解高手”

bert的全称是“bidirectional encoder representations from transformers”,翻译过来就是“来自transformer的双向编码器表示”——听着绕,其实它的核心特点就一个:只用力做“编码器”,不做“解码器”,专门负责“理解信息”。

简单说,bert就像一个“阅读理解高手”,你给它一段文字,它能准确理解文字的意思、上下文关系,甚至能回答关于这段文字的问题,但它不会主动“写文字”或“翻译文字”。

比如你给bert一段文字:“小明昨天去超市买了牛奶、面包和鸡蛋,今天早上用牛奶和面包做了早餐”,然后问它“小明昨天买了哪几样东西?”,bert能准确回答“牛奶、面包、鸡蛋”;如果你问它“小明今天早上吃了什么早餐?”,它也能回答“牛奶和面包做的早餐”——这就是它“理解信息”的能力。

bert的“双向”是什么意思?就是它在理解文字时,会同时从“左往右”和“右往左”看。比如理解“小明买牛奶”,它会同时看“小明”后面的“买牛奶”和“牛奶”前面的“小明买”,这样能更全面地理解句子的意思。以前的ai理解文字只能“从左往右”,容易漏掉“右往左”的关联,而bert的“双向理解”让它的准确率更高。

现在bert主要用在哪些地方?

- 搜索引擎:比如你在百度搜“北京最好吃的火锅”,bert能理解“最好吃”是“求推荐”的意思,而不是“问火锅的味道”,从而给你推荐火锅店,而不是解释“火锅为什么好吃”;

- 文本分类:比如把“我今天心情真好”归为“积极情绪”,把“今天倒霉透了”归为“消极情绪”,bert能准确判断;

- 问答系统:比如智能客服,你问“我的快递什么时候到”,bert能理解你问的是“快递时效”,然后调用快递数据给你回答。

(二)gpt:擅长“生成信息”,像个“写作高手”

gpt的全称是“generative pre-trained transformer”,翻译过来是“生成式预训练transformer”——它的核心特点和bert正好相反:只用力做“解码器”,不做“编码器”,专门负责“生成新信息”。

简单说,gpt就像一个“写作高手”,你给它一个“开头”或“主题”,它能顺着这个开头往下写,生成连贯、有逻辑的文字。比如你给gpt一个开头“今天早上我在公园跑步时,突然看到一只小狗”,它能接着写“那只小狗浑身是白色的,尾巴摇得特别欢,好像在跟我打招呼。我蹲下来想摸它,它却调皮地往后退了一步,然后又凑过来闻我的手……”

gpt的“预训练”是什么意思?就是它在正式“干活”之前,已经被开发者喂了海量的文字数据(比如几百万本书、几十亿篇文章),提前学会了“文字的用法、语法、逻辑”。就像一个作家在写小说之前,已经读了很多书,积累了足够的知识和写作技巧——这样等到正式写作时,才能下笔如有神。

现在gpt主要用在哪些地方?

- 聊天机器人:比如chatgpt,你说“给我讲个笑话”,它能生成一个新笑话;你说“帮我写一封请假条”,它能生成一封完整的请假条;

- 文案生成:比如商家用gpt生成产品宣传语、朋友圈文案;

- 代码生成:比如github copilot(基于gpt技术),你输入“写一个python的计算器程序”,它能生成完整的代码。

(三)t5:“理解+生成”都擅长,像个“全能选手”

t5的全称是“text-to-text transfer transformer”,翻译过来是“文本到文本转换transformer”——它的核心特点是同时用好“编码器”和“解码器”,既擅长“理解信息”,又擅长“生成信息”,是个“全能选手”。

简单说,t5能把所有ai任务都变成“文本到文本”的转换任务。比如:

- 翻译:输入“trante english to chinese: i love you”,t5输出“我爱你”(理解“翻译需求”,生成“中文翻译”);

- 摘要:输入“summarize: 小明昨天去超市买了牛奶、面包和鸡蛋,今天早上用牛奶和面包做了早餐,下午还去图书馆借了两本书”,t5输出“小明昨天买了食材,今天早上做了早餐,下午去图书馆借书”(理解“摘要需求”,生成“精简摘要”);

- 问答:输入“question: 小明昨天买了什么? context: 小明昨天去超市买了牛奶、面包和鸡蛋”,t5输出“牛奶、面包和鸡蛋”(理解“问题和上下文”,生成“答案”)。

t5就像一个“万能工具”,不管是需要理解的任务,还是需要生成的任务,它都能搞定。不过它的“全能”也有个小缺点:在某些“专精任务”上,比如纯写作,可能不如gpt;纯阅读理解,可能不如bert——但胜在“啥都会”,适合需要同时处理多种任务的场景,比如智能助手(既需要理解用户的问题,又需要生成回答,还可能需要翻译、摘要)。

五、transformer的“实际用处”:不止能聊天写文案,这些领域都靠它改变

可能有人会说:“transformer听起来很厉害,但跟我有啥关系?”其实不然,现在咱们生活中很多常见的功能、常用的app,背后都有transformer在“干活”。从日常聊天到工作办公,从娱乐消遣到行业生产,transformer已经悄悄改变了很多领域。

(一)日常沟通:让ai聊天更“像人”,智能客服不再“答非所问”

以前的智能客服,比如你问“我的快递到哪儿了”,它可能只会机械地回复“请提供订单号”,如果你接着问“没有订单号怎么办”,它就会卡住,或者重复之前的话——这是因为以前的ai“理解不了上下文”。

而用了transformer的智能客服,能像人一样“连续聊天”。比如:

- 你:“我的快递到哪儿了?”

- 客服:“麻烦提供一下订单号,我帮你查询。”

- 你:“我忘了订单号,只记得昨天买的衣服。”

- 客服:“好的,麻烦提供一下你的手机号,我帮你查找昨天的衣服订单。”

- 你:“手机号是138xxxx1234。”

- 客服:“查到了,你的快递现在在xx快递点,预计今天下午3点前送达。”

这种“能理解上下文、能顺着用户的话回应”的能力,就是transformer的自注意力机制在起作用——它能记住你前面说的“买衣服”“忘订单号”这些信息,不会像以前那样“断片”。

除了智能客服,咱们用的聊天ai(比如chatgpt、豆包)能“陪你聊兴趣、帮你解疑惑”,也是因为transformer能理解你的话题,生成符合语境的回复,不会说“驴唇不对马嘴”的话。

(二)内容创作:从“辅助写”到“自动写”,效率提升好几倍

本章未完,点击下一页继续阅读。