一文读懂华为昇腾芯片:国产AI算力的中流砥柱(1/2)

在当下人工智能飞速发展的时代,芯片就如同ai的“心脏”,为各种智能应用提供着不可或缺的算力支持。华为的昇腾芯片,作为国产ai芯片的杰出代表,备受瞩目。今天,咱们就用最通俗易懂的大白话,来深入了解一下昇腾芯片到底是怎么一回事。

一、昇腾芯片诞生的背景

这几年,人工智能火得一塌糊涂,到处都在搞ai大模型,像chatgpt这类的应用更是让大家看到了ai的巨大潜力。ai大模型的训练和各种ai应用的落地,都需要巨量的计算能力,这就离不开ai芯片。

以前,在ai芯片领域,英伟达的gpu那是占据着主导地位。但是呢,由于众所周知的原因,英伟达的gpu对我们进行了禁售,连阉割版的h20都不卖给我们了。这就好比做饭突然没了锅,ai发展面临着算力短缺的困境。就在这个时候,华为的昇腾芯片挺身而出,成为了国产ai芯片的希望之光,发挥了重要的替代作用,也迎来了巨大的市场机遇。

二、昇腾芯片的家族成员

昇腾芯片是一个庞大的系列,主要包括昇腾310和昇腾910两个子系列 ,它们有着各自不同的特点和用途。

(一)昇腾310:小巧灵活的边缘“助手”

昇腾310是soc小芯片,就跟我们手机芯片差不多大,只有指甲盖那么点儿大 ,功耗也特别低,仅有8w,特别省电。它麻雀虽小,五脏俱全,集成了多个运算单元,包括8个arm a55 core的cpu、ai core、数字视觉预处理子系统等。

它主要面向边缘计算与低功耗终端,就像是一个灵活的小助手,在边缘端帮助完成ai推理任务。比如说,在智能安防摄像头里,昇腾310就能实时对采集到的视频图像进行分析,看看有没有异常行为,而且因为它功耗低,摄像头也不用担心太费电。它的ai core采用了华为自研的达芬奇架构,就像一个高效的计算小能手,能够复杂执行矩阵、向量、标量计算的算子任务,而cpu则负责非矩阵类复杂计算。根据海思官网的披露,昇腾310的fp16算力为8tops,int8算力为16tops,采用12nm工艺制造。

(二)昇腾910:云端的强大“算力担当”

昇腾910可就大多了,和我们的掌心差不多大 ,功耗在300w以上 ,是个“大力士”,主要面向云端高性能计算。它的算力特别强,既能用于ai推理任务,也能用于ai训练任务,是云端的“算力担当”。

华为早期发布的昇腾910,其实应该算是910a 。当时华为还没被完全禁售,所以910a采用了台积电的7nm增强版euv工艺 。芯片内建了32颗达芬奇max核心(达芬奇核心分为max\/lite\/tiny三种,max最完整),支持混合精度计算(fp16\/fp32\/int8),fp16算力为256tfops,最大功耗350w(一开始说是350w,后来变成了310w )。

2020年华为被列入实体清单后,台积电那边的先进工艺用不了了。于是,华为就与中芯国际(smic)合作,采用他们的n+1工艺(等效7nm),推出了910b 。910b优化了架构设计,提升了能效比,芯片尺寸为21.32mmx31.22mm,fp16算力约320tflops,int8算力约640tops 。显存为64gb hbm2e,显存带宽400gb\/s 。910b也分为b1\/b2\/b3 。910b3引入了hbm3e内存,带宽提升至1.2tb\/s,支持万亿参数模型训练。

最近这两年,华为又推出了昇腾910c 。昇腾910c采用中芯国际的7nm(n+2)工艺,晶体管数量达到530亿 。910c采用了类似b200的双die封装设计,就是把两颗独立的芯片die分别放置在各自的中介层,再通过有机基板将两个中介层连接起来 。通过把两颗昇腾910b整合到一起,实现了性能的提升。这种封装方式虽然在芯片间互联带宽上可能低于英伟达的先进封装方案,但好处是成本更低、良率更高,量产速度也更快。

业界估测,910c在fp16精度下的单卡算力能达到800tflops左右,大概是英伟达h100芯片(2022年推出)的80% 。不过,910c的芯片逻辑面积大约比h100多60% 。这也意味着910c在架构效率和设计优化方面,和h100还是存在一定差距的。910c的hbm高带宽内存仍然来自海外厂商(国内dram制造商长鑫存储hbm2e相关技术还需要再等等),但芯片的整体国产化比例据说已经达到90%以上 。

关于910c的消息比较神秘,根据网络上不太确定的信息,910c于2024年四季度推出样片,2025年一季度开始量产,目前已经处于大规模出货阶段,全年销量大概在70 - 80万颗 。也有消息说,2024年910b的出货量约四十万张,今年910b出货量可能与去年持平或略低(约30万张),而910c的出货量预计可能超过40万张 。因此,华为今年910b + 910c的整体出货量可能是70 - 100万张 。出货量和产能也有很大关系,中芯国际n+2工艺良率去年只有20%,今年据说已经达到40 - 50% ,分配给910c的产能貌似是2.6万片晶圆\/月(数据不太确定,仅供参考)。价格方面,910b的均价据说大约是11万\/片,910c可能是18 - 20万\/片 。网上很多文章说910c价格是1800美元,感觉不太靠谱。相比之下,英伟达h100的市场价格,大约是2.5 - 3万美元\/张 。

对了,华为前段时间推出的cloudmatrix 384超节点,由384颗昇腾910c芯片构建,系统性能比英伟达的gb200 nvl72更强 。这就像是“群殴”模式,虽然单芯片的性能比不过人家,但通过系统层面的创新,组成更大规模的集群,也能在一定程度上弥补差距,满足算力需求。

在连接方面,华为自研的s高速互连接口也很厉害。昇腾910集成了s、pcie 4.0和roce v2接口,可以灵活高效地实现横向扩展和纵向扩展 。s对标的是英伟达的nvlink,能够给内核、设备、集群提供系统内存的一致访问 。在单一链路的单向\/双向互联带宽上,s有显着优势,可以有效提升多个al芯片协同训练的能力。

据说910c之后,还有910d ,采用5nm制程,4die封装,支持fp8 。今年5 - 6月份回片,预期2026q2 - q3大规模量产。不过这个消息来源不太可靠,只能仅供参考。再往后,华为可能就会推出昇腾920系列,采用下一代工艺,更先进制程,努力缩小和英伟达的差距。

除了昇腾310和910之外,华为其实还有昇腾610 。昇腾610也称为mdc610,是智能驾驶芯片,用于华为自己的智能驾驶平台(mdc) 。根据资料显示,昇腾610采用了7nm制程,ai算力达到200tops@int8或100tflops@fp16 ,目前已经实现量产。

三、昇腾芯片的架构奥秘

华为昇腾芯片采用了自家独特的达芬奇架构,这可是昇腾芯片的核心技术之一,就像是给芯片赋予了一颗超级“智慧大脑” 。

这个架构专为人工智能计算设计,具有超高的计算能效比。咱们以昇腾910为例,它强大的算力能够满足大规模深度学习计算的需求 。在处理矩阵运算等人工智能常见计算任务时,达芬奇架构就展现出了极高的效率。比如说,在训练一个超大规模的图像识别模型时,需要处理海量的图像数据和复杂的计算,昇腾910凭借着达芬奇架构,能够快速地完成这些矩阵运算,大大缩短了模型训练的时间。

昇腾芯片还具备先进的张量处理单元(tpu) ,这就像是一个专门为神经网络计算打造的“加速引擎” 。它能够加速神经网络中的张量计算,让模型训练和推理的速度大幅提升 。在图像识别任务中,昇腾芯片可以快速处理大量的图像数据,准确识别出目标物体,这主要就得益于其高效的架构设计和强大的计算核心,以及tpu的加速作用。

而且,昇腾芯片在内存子系统等方面也有创新。就拿昇腾950系列来说,它将内存访问颗粒度从512字节减少到128字节 ,实现更精细的内存访问控制,大幅提升了对离散、不连续内存访问场景的支持能力 。配合华为自研的两种hbm内存技术,形成了完整的场景化内存解决方案。

hibl 1.0低成本hbm(昇腾950pr搭载) :在保证128gb容量和1.6tb\/s带宽的基础上,通过材料与封装工艺创新,将推理prefill阶段和推荐业务的硬件投资成本降低40%以上 ,解决了大规模部署的经济性瓶颈。这就好比以前买一台设备要花很多钱,现在通过技术创新,用更少的钱就能达到差不多的效果,让更多企业用得起。

hizq 2.0高性能hbm(昇腾950dt搭载) :实现144gb超大内存容量和4tb\/s带宽,配合2tb\/s的互联带宽,满足大模型训练和长文本推理对高访存带宽的严苛需求 ,为千亿参数模型训练提供了充足的内存支撑。比如在训练一个超大型的语言模型时,需要大量的内存来存储和处理数据,hizq 2.0高性能hbm就能很好地满足这种需求,保证模型训练的顺利进行。

本章未完,点击下一页继续阅读。