基础算力,人工智能的底层支撑(2/2)

3. 数据中心:算力的“仓库+调度站”,又绿色又高效

数据中心就是存放服务器、存储数据、调度算力的地方,相当于算力的“仓库”和“调度站”。现在的数据中心,不只是“堆服务器”,而是往“绿色化”和“集约化”发展,既要提供足够的算力,又要减少能耗、提高效率。

先说说“绿色化”。数据中心里有大量服务器,这些服务器运行时会产生很多热量,需要空调散热,所以耗电特别大——以前的 data center,每提供1单位的算力,可能要消耗1.5单位以上的电(用pue值衡量,pue=总耗电量\/算力耗电量,越接近1越省电)。现在为了减少能耗,都在用“液冷技术”——不是用空调吹,而是用特殊的冷却液直接接触服务器,散热效率比空调高好几倍,能把pue降到1.1以下。

举个例子:阿里在张北建的数据中心,用了液冷技术后,pue只有1.09,也就是说,每提供100度的算力用电,总共只消耗109度电,比传统数据中心省了40%以上的电。这对ai来说很重要,因为ai需要长期占用大量算力,省电就等于省成本,还能减少碳排放,符合绿色发展的要求。

再说说“集约化”。以前的数据中心大多建在大城市,但大城市的土地、电力成本高,而且数据传输距离远,会有延迟。现在都在搞“边缘数据中心”——把小型数据中心建在靠近用户或设备的地方,比如城市的基站旁边、工厂的车间里、高速公路的服务区里。

这样做的好处很明显:数据不用传到远处的大型数据中心,能在本地处理,减少传输延迟。比如在自动驾驶场景里,车辆需要实时处理路况数据(比如前面有没有车、红绿灯是不是红灯),如果数据要传到几十公里外的数据中心,再传回来,哪怕只有1秒的延迟,都可能引发事故。而边缘数据中心就在路边,数据处理的响应时间能控制在毫秒级(1毫秒=0.001秒),相当于“即时反应”,能保证自动驾驶的安全。

现在的数据中心,就是通过“绿色化”降成本、减排放,通过“集约化”缩延迟、提响应,成了算力的“稳定后方”,让算力既能持续输出,又能高效到达需要的地方。

三、算力怎么用得好?边缘计算+调度平台,打破“算力孤岛”

有了算力,也有了硬件支撑,还得解决一个问题:算力不能“浪费”。现在很多地方都有算力,但有的地方算力不够用(比如东部大城市),有的地方算力用不完(比如西部偏远地区),就像有的地方水多泛滥,有的地方水少干旱,这就是“算力孤岛”。要解决这个问题,就得靠算力网络建设——核心是“边缘计算”和“算力调度平台”,一个让算力“靠近用户”,一个让算力“按需分配”。

1. 边缘计算:把算力“搬”到用户身边,减少延迟更安全

边缘计算的思路很简单:不把所有数据都传到远处的大型数据中心,而是把一部分算力“搬”到靠近用户或设备的“边缘”,让数据在本地处理。就像以前买东西要去市中心的大超市,现在小区门口开了便利店,不用跑远路,能更快买到东西。

边缘计算的应用场景特别多,咱们挑几个常见的说说:

第一个是工业生产。比如工厂里的生产线,以前要把设备的运行数据(比如温度、转速)传到总部的数据中心,分析完再传回生产线调整参数,中间有延迟,要是设备出了故障,可能等数据传现在在车间里装边缘计算设备,数据直接在车间处理,一旦发现参数异常,能立刻发出预警,甚至自动调整设备,反应时间从几秒缩短到几十毫秒,大大减少了故障损失。

第二个是智慧交通。除了前面说的自动驾驶,还有交通信号灯控制。以前交通灯是按固定时间切换,比如不管路上有没有车,都是30秒红灯、30秒绿灯,容易造成拥堵。现在在路口装边缘计算设备,能实时采集车流量数据,比如东向西方向车多,就自动延长绿灯时间;南向北方向车少,就缩短绿灯时间,让交通更顺畅,不用等数据传到远处的数据中心再调整。

第三个是智慧医疗。比如远程手术,医生通过机器人给千里之外的病人做手术,这时候数据传输不能有任何延迟——要是医生操作机器人切一刀,数据传过去有0.5秒延迟,机器人可能就切偏了,很危险。边缘计算能把手术数据在本地(比如医院的边缘节点)快速处理,让医生的操作和机器人的动作几乎同步,延迟控制在毫秒级,保证手术安全。

简单说,边缘计算就是让算力“离用户更近”,解决了数据传输延迟的问题,还能减少大量数据传输带来的网络压力,让ai的应用更实时、更安全。

2. 算力调度平台:给算力“建个调度中心”,按需分配不浪费

如果说边缘计算是“把便利店开在小区门口”,那算力调度平台就是“建了个全城物资调度中心”——把各个地方的算力资源整合起来,谁需要就给谁,不浪费一分算力。

最典型的例子就是中国的“东数西算”工程。“东数西算”简单说就是“东部的数据,西部来计算”——东部地区(比如北京、上海、广东)经济发达,ai企业多,算力需求大,经常不够用;而西部地区(比如贵州、内蒙古、甘肃)电力充足、土地便宜,建了很多数据中心,算力有富余但用不完。这时候就需要一个“算力调度平台”,把东部的算力需求和西部的闲置算力匹配起来。

比如东部的一家ai公司要训练一个中等规模的模型,需要100pflops的算力,要是在东部找算力,可能要排队等好几天,还贵;而西部某个数据中心正好有200pflops的闲置算力,调度平台就可以把这个任务分配给西部的数据中心,东部公司不用等,西部的算力也没浪费。

根据数据,2024年“东数西算”配套的全国性算力调度平台,已经实现了跨区域算力调度超1000pflops——相当于把10个大型ai服务器集群的算力,从西部调到了东部,既缓解了东部算力紧张的问题,又让西部的闲置算力产生了价值,真正做到了“按需分配、动态调度”。

除了“东数西算”,很多科技公司也在做自己的算力调度平台。比如阿里云的“飞天算力平台”,能整合阿里在全球的数据中心算力,不管用户在哪个国家、哪个城市,只要需要算力,平台就能自动匹配最近、最便宜的算力资源,让用户不用自己找算力,也不用担心算力浪费。

现在的算力调度平台,就像算力的“智能管家”,通过云计算技术把分散的算力“串”起来,让算力从“各自为战”变成“协同作战”,大大提高了算力的利用效率,也降低了ai企业的算力成本——毕竟对ai企业来说,算力就是钱,能省一点是一点。

四、总结:基础算力是ai的“底气”,越扎实ai走得越远

看到这里,大家应该对基础算力有了清晰的认识:它不是一个抽象的概念,而是由“通用算力+智能算力+超算”组成的协同体系,靠“芯片+服务器+数据中心”提供硬件支撑,再通过“边缘计算+算力调度平台”实现高效利用。

对ai来说,基础算力就像“底气”——底气越足,ai能做的事就越多,能走的路就越远。比如以前ai只能处理简单的语音识别、图像分类,就是因为算力不够;现在有了更强的基础算力,ai能训练千亿参数的大模型,能做自动驾驶、智能医疗、科学研究,甚至开始帮人类解决以前解决不了的复杂问题。

未来,随着ai的不断发展,对基础算力的需求还会越来越大,芯片会更先进、服务器会更强大、数据中心会更绿色、算力网络会更完善——基础算力会像水和电一样,变得越来越普及,也越来越重要,成为推动ai走进各行各业、改变我们生活的核心力量。