AI芯片的两大“升级方向”——FP8精度和多芯互联,到底牛在哪?(1/2)

提到ai芯片,不少人可能觉得“离自己很远”,但其实咱们平时用的ai聊天、刷的短视频推荐,背后都靠ai芯片“算”出来的。现在ai芯片正在快速升级,其中有两个方向特别关键:fp8精度和多芯互联。这俩词听着挺专业,其实用大白话拆解开特别好懂——简单说,fp8精度是让芯片“算得又快又省电”,多芯互联是让芯片“组队干活,力大无穷”。今天就从这两个方向入手,跟大家聊明白ai芯片是怎么升级的,以及对咱们用ai、对国产芯片发展有啥影响。

一、先搞懂基础:ai芯片为啥要“升级”?核心是解决“算力不够、电费太贵”的问题

在聊具体技术之前,得先弄明白一个事儿:ai芯片为啥非得升级?答案很简单——现在的ai越来越“能吃算力”了。

比如训练一个像gpt-4这样的大模型,需要处理几十万亿条数据,要是芯片算得慢,可能得花好几个月才能训练完;而且芯片算的时候特别费电,一个大模型训练一次,电费可能就好几百万。以前的芯片技术,要么算得慢、要么电费高,根本跟不上现在ai的“胃口”。

就像咱们做饭,以前用小煤炉,做一大锅饭又慢又费煤;现在换成大燃气灶,又快又省气。ai芯片的升级,就相当于从“小煤炉”换成“大燃气灶”,核心是解决“算力不够用、能耗太高”这两个痛点。而fp8精度和多芯互联,就是解决这两个痛点的“两把钥匙”。

二、第一个升级方向:fp8精度——让芯片“算得准、跑得快、省电费”,大模型训练直接受益

先来说第一个关键技术:fp8精度。这里的“精度”不是指芯片的制造精度,而是指芯片“计算数据时的精细程度”。咱们可以把芯片计算想象成“用尺子量东西”:以前的芯片用“厘米尺”量,现在fp8精度相当于用“毫米尺”量,既能量得更准,还能更快量完,同时还不费“力气”(也就是省电)。

1. 先拆“fp8精度”:不是“精度降低”,而是“精准控耗”,该细的地方细,该省的地方省

可能有人看到“fp8”里的“8”会疑惑:以前不是有fp16、fp32吗?数字变小了,是不是精度变低了?其实不是这么回事。

简单说,“fp+数字”代表芯片存储和计算数据的“格式”,数字越大,能存储的数据越精细,但需要的存储空间和计算资源也越多。比如fp32就像“高清电影”,画面特别细,但占内存大、播放时费电;fp16像“标清电影”,画面稍粗一点,但占内存小、播放快;而fp8是“优化后的标清”——在保证画面(计算精度)够用的前提下,把没用的“像素”(冗余数据)去掉,既不影响观看(计算结果),还能省内存、省电费。

举个例子:比如计算“1. + 2.”,用fp32能算出“3.”,精确到小数点后8位;用fp8算,能算出“3.5802”,精确到小数点后4位。对咱们日常用的ai来说,小数点后4位的精度完全够用——比如ai推荐短视频,不用精确到小数点后8位,只要能判断“你喜欢这个视频的概率是85%”就行,没必要算成“85.%”。

所以fp8精度不是“降低精度”,而是“精准控耗”——把算力和电量用在“刀刃上”,该精细的地方不马虎,没必要精细的地方省资源。

2. fp8精度的核心好处:算力密度翻2倍、能耗降30%,大模型训练直接“提速又省钱”

搞懂了fp8精度的原理,再来看它的实际好处,主要有两个:一是“算力密度提升2倍”,二是“能耗降低30%”。这俩好处对大模型训练来说,简直是“及时雨”。

先解释“算力密度”:就是同样大小的芯片,能提供的计算能力翻了2倍。以前一块芯片每秒能算100次,现在用fp8精度,每秒能算200次。这意味着训练大模型时,需要的芯片数量能减半——比如以前要100块芯片,现在50块就够了,不仅省了芯片采购钱,还省了机房空间(放芯片的地方也需要成本)。

再看“能耗降低30%”:就是算同样多的数据,电费能省三成。举个直观的例子:以前训练一个大模型,用老芯片需要100万度电,电费按工业用电1元\/度算,得花100万;现在用支持fp8精度的芯片,只要70万度电,电费直接省30万。对那些经常训练大模型的企业来说,这可不是小数目——比如某ai公司一年训练10个大模型,光电费就能省300万。

而且这两个好处加起来,还能“缩短训练周期”。比如训练gpt-4这样的大模型,以前用老技术需要3个月,现在用fp8精度,算力翻2倍、能耗降30%,算下来训练周期能缩短25%,也就是只要2个多月就能训练完。对企业来说,训练周期缩短意味着能更快推出新的ai产品,比如别人还在训练,你已经把新的ai聊天工具上线了,自然能抢占市场先机。

3. 国产芯片的动作:寒武纪、壁仞科技已跟上,br100芯片算力达1000tops,专门对标“超大规模训练”

可能有人会问:国外芯片早就支持fp8精度了,国产芯片能跟上吗?答案是“当然能”,而且已经有不少国产企业拿出了实实在在的产品。

首先是大家比较熟悉的寒武纪,它的思元系列芯片早就支持fp8精度了,比如思元590芯片,用fp8精度计算时,算力比用老格式提升1.8倍,能耗降低28%,已经能满足不少中小规模ai模型的训练需求。

除了寒武纪,还有一家叫壁仞科技的企业,推出的br100芯片更是“重量级选手”——它支持fp8精度,算力能达到1000tops(1tops相当于每秒算1万亿次)。这个算力有多强?简单说,用br100芯片训练一个百亿参数的ai模型,可能只要几天时间;要是用来训练超大规模的大模型(比如千亿、万亿参数),也能轻松应对。

现在不少国内的大模型企业已经开始用这些国产芯片了。比如某互联网公司,以前训练大模型用国外芯片,一次要花500万;现在换成壁仞br100芯片,因为支持fp8精度,算力够、能耗低,一次训练只要300万,成本直接降了40%。而且国产芯片不用受国外政策限制,不用担心“断供”,用起来更放心。

三、第二个升级方向:多芯互联——让芯片“组队干活”,解决“单芯片算力不够用”的难题

聊完了fp8精度,再来说第二个关键技术:多芯互联。这个技术的思路特别简单——既然单颗芯片的算力有限,那不如把多颗芯片“连起来”,组成一个“虚拟大芯片”,让它们一起干活,算力自然就上去了。

就像咱们搬东西,一个人搬不动100斤的箱子,要是8个人一起抬,就能轻松搬起来。多芯互联就是让芯片“组队抬箱子”,核心是解决“单芯片算力跟不上大模型需求”的问题。

1. 为啥需要多芯互联?单芯片“再牛也有上限”,大模型需要“集体力量”

可能有人会问:既然能把单颗芯片做得更厉害,为啥还要搞多芯互联?答案是“单芯片的算力有上限”。

就像一个人再强壮,最多能举200斤,不可能举2000斤;单颗芯片不管怎么升级,算力也有天花板——比如现在最厉害的单颗ai芯片,算力也就1000多tops,而训练一个千亿参数的大模型,需要的算力至少是8000tops,单颗芯片根本不够用。

而且单颗芯片做得太复杂,成本会飙升。比如想把单颗芯片的算力从1000tops提升到8000tops,需要的研发成本可能是原来的10倍,售价也会贵得离谱,没几个企业能买得起。

这时候多芯互联的优势就体现出来了:不用把单颗芯片做得“神乎其神”,只要把多颗普通芯片连起来,就能达到超高算力。比如用8颗1000tops的芯片,通过多芯互联组成“虚拟大芯片”,总算力就能达到8000tops,成本只要单颗“超级芯片”的1\/3,性价比一下子就上来了。

本章未完,点击下一页继续阅读。