新知一下
海量新知
6 3 0 4 2 6 0

商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

量子位 | 人工智能媒体 2022/01/25 14:05

刚刚,商汤又多了一项“亚洲第一”。

就在上海临港,商汤自建的 人工智能计算中心 (AIDC) 交付使用,一举成为亚洲最大的AI超算中心 (至少是之一)

这也是“亚洲营收第一”,“亚洲AI软件第一股”之后,商汤开启的新标签。

不同的是,这次,很硬。

单从算力来看,商汤AIDC总算力达到 3740 Petaflops ,相当于每秒进行374亿亿次浮点运算,374后面16个“0”,可完整训练万亿参数大模型。

这个规模,放在全国、甚至全亚洲已投产的计算中心里都是第一梯队。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

在刚刚过去的2021年,各大城市建设AIDC你争我赶,好不热闹。

北上广深自不必说、南京武汉合肥西安AIDC项目也纷纷上马。

根据国家工信安全智库发布的《新一代人工智能算力基础设施发展研究》,国内AIDC建设整体思路是 政企合作

建设模式多为政府出资招标、政企合资,承建方也多为传统IT基础设施服务商、云服务商。

商汤AI算法起家,仅一期就自投 56亿元 研发建设一个如此重资产的项目属实少见,开了国内先例。

这家AI公司的基础设施建成了什么样子?有什么特别之处?又为何选择自建?

这一系列问题自商汤AIDC项目自2020年3月首次宣布以来都是外界好奇所在。

今天借着正式落成的机会,我们就来一一解答。

耗资56亿元打造出大装置的“基石”

据了解,商汤AIDC占地面积80亩,建筑面积 13万平方米 ,是亚洲最大的超算中心之一。

其中,光是投入运营的一期机柜数量就达到 5000个 ,国产硬件占了50%;后续二期“完成体”建成后,算力会比现在的3740P至少翻一番。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

作为AI算法和平台的底层基础设施,商汤AIDC并非仅仅是一个堆叠大量服务器、AI专用处理器、联网设备等硬件的“物理仓库”,相反自研了不少技术来提升算力:

高性能计算引擎 。这个引擎介于硬件和平台之间,专门用来“压榨”各种芯片,提升它们的计算能力。结合全图优化技术,还能将引擎能力延展到AI模型计算、预处理和后处理阶段。

分布式任务调度系统 。单一芯片以外,多芯片的协同计算能力同样重要,商汤的这一系统便是为此研发,目前在已投入使用的集群中每年调度超过2000万个任务,进一步降低成本。

除了这两大硬件技术以外,商汤还针对数据交换 (输入/输出) 、软硬件协同设计和系统安全进行了设计,在提升模型生产效率、拔高算力的同时,确保用户使用的安全性。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

问题来了,一度以AI算法出名的商汤,为何要投入56亿元自建一个智算中心?

这就要提到AIDC在商汤版图中的定位了——它是整个商汤 大装置 的“基石”。

商汤大装置,类似于 AI版“发电厂” ,包含计算基础设施、深度学习平台和模型层,能够像大规模发电一样,批量化地生产各种AI算法模型 (还能部署、迭代和升级)

AIDC上运行着商汤大装置中的所有AI算法和平台,此次投入使用,相当于将整个大装置的能力完全开放了出来,即整个商汤这些年储备的“AI能力”。

这个能力,本质上是从0到1半自动、自适应化生产AI模型的能力:

一个人无需拥有AI知识,只需要给定模型的输入和输出条件 (端到端,例如输入一段话,输出一幅画) ,商汤大装置就能快速DIY一个AI模型。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

因此,AIDC既能独立作为智算中心、也能作为大装置的基石运行。

从智算中心角度而言,商汤AIDC最近加入了国家 (上海) 新型互联网交换中心,不仅能提供网络服务,本身也能作为算力云平台进行使用。

事实上,在AIDC正式对外开放之前,商汤内部就已经在它基础上,训练出了不少成功的算法案例。

例如,最近刚发布的“ 书生 ”模型 (INTERN) ,覆盖了分类、目标检测、语义分割、深度估计四大视觉核心任务,就是在AIDC上训练出来的。

相较于OpenAI的CLIP,“书生”只需要10%的下游数据,就能超过CLIP基于完整下游数据的任务准确率,很好地hold住了数据量不足的长尾场景、以及通用大模型的需求场景这两大问题。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

而作为大装置的一部分,商汤AIDC在面对产业、科研和政府的“ AI+ ”需求时,又能很好地作为一个物理平台去生产和运行AI模型。

其中,产业中的大量传统行业,就能借助大装置更快地完成 数字化 转型;政府则能利用AI进行城市治理、打造智慧乡村;而针对如今 AI for Science 场景,像生物方向的蛋白质结构预测、或是理化方向的公式推导等,大装置同样能帮助科研机构实现一整套用AI算法完成理论实验的流程。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

当然,这些还都只是从定义上来看,AIDC所能实现的基础能力。

从商汤角度来说,这一整套自建的AIDC,相对于其他的智算中心究竟有什么优势?

“商汤版”AIDC,有何优势?

主要有五大核心竞争力。

其一,高弹性算力。

作为一年AI顶会发表五十余篇论文、有“算法工厂”之称的商汤,从算法角度对于各种模型的硬件训练和需求有自己的话语权。

小到某一特定任务的算法模型,大到百亿参数的通用模型,研究人员都需要在AIDC上运行,这方面的经验商汤已经积累成了一个算法平台,也因此能让AIDC的算力在最大程度上被充分利用。

用商汤副总裁杨帆的话来说就是:“我们的AI算法科学家会对硬件算力提出需求,所以知道这个智算中心最好要做成什么样子。”

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

其二,低算力成本。

一方面,商汤通过提升软件平台的兼容性,来适配各种国产硬件,从而实现成本降低。也就是无论模型在哪个牌子的硬件上训练或推理,商汤的平台都能兼容,这就使得在供应链上能取得话语权,从而降低硬件成本。

另一方面,商汤对于AI数据的存储进行了一个针对性的设计,相比于过去的结构化数据,商汤自研的存储系统能针对性地根据特定类型的任务,提速AI数据的存取。

其三,高安全性。

商汤AIDC针对隐私计算做了大量工作,包括沙箱和多方安全计算等,不仅能做到数据的网络隔离,而且能做到物理隔离。

同时,针对数据使用权进行了一个界定,最大程度上确保客户的数据不被泄露、或是在确保隐私的情况下被合理使用。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

其四,低网络时延。

对于AIDC本身而言,接入国家 (上海) 新型互联网交换中心不仅让访问时延更低,而且意味着整体网络服务成本更低,质量更高;

同时,对于大装置而言,AIDC的集群网络设计基于RDMA (高速通信网络) 技术,又能进一步提升模型训练的速度。

其五,低碳性。

除了性能以外,商汤AIDC的能耗也控制得不错,PUE做到了1.28,这意味着相对于运行服务器等硬件的能耗,支撑数据中心运行的灯光和空调等费用是非常低的。

具体来说,AIDC功耗比国内其他数据中心低10%,相当于每年都能节省约4500万度电 (一台普通手机使用一年,功耗总量也不到10度电)

这也使得商汤AIDC虽然不是最早做的,但却能在行业中站到一个相对领先的位置。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

回望过去的计算中心发展史,这大约并不是一个“偶发性事件”。

诞生于AI时代洪流之中

听上去,AIDC或者叫人工智能计算中心,似乎是一个颇为新鲜的概念。

但其实在它之前, DC (数据中心) IDC (互联网数据中心) 、甚至是 超级计算中心 ,就已经出现在人们的视野中。

被称作“人工智能”计算中心的AIDC,究竟为何会在时代的洪流中脱颖而出?

在新一轮深度学习热潮之前,大数据首先在互联网行业得到发展。

由此催生的IT基础设施便是互联网数据中心 (IDC) ,若再往前追溯,则是大企业内部的数据中心 (DC)

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

从DC到IDC,表面上看只是给数据中心“拉了根网线”,实际上是服务对象的变化、价值的升级。

硬件设施集中在一起,带来数据存储和处理能力增强和边际成本下降,超出企业内部需要的能力后,就可以打包成资源输出给外部客户。

随着互联网行业的崛起、成为过去数年间发展最快的行业之一,行业分工也由此发生细化,出现了专门的数据中心,专门给互联网厂商提供基础设施服务。

然而,在IDC中吃了一波时代红利的人可能没想到,AI的到来会再度催生出名为AIDC的产物。

随着AI大模型的出现,算法对算力的要求越来越高,人们对数据中心的要求不再是只提供基础设施服务,还希望它能够更高速地运行各种AI算法,并落地成各种智能应用。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

服务对象也不再限于互联网行业,还扩展到了更多希望通过“AI+”实现转型的传统领域。

智慧制造、智慧能源、智慧城市都是近一段时间的突出代表。

靠传统IT技术没能做到的产业数字化转型,终于在AI的作用下成了一股不可阻挡的趋势。

根据权威咨询机构国际数据公司 (缩写也是IDC) 预测,算力指数平均每提高1个点,数字经济和GDP将分别增长3.3‰和1.8‰——

AI除了技术的发展,也正在成为拉升经济的重要“战力”。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

但除了数据中心以外,领域内已经有很多现成的超算中心,人工智能计算中心的出现,是否并非必然?

事实上,二者仍然有很大不同。超级计算机主要面对尖端科技发展需要,如天气预测、能源勘探、卫星遥感。

科学和工程计算主要处理结构化的数值数据,对计算精度的要求最高,往往需要使用64位双精度计算,由CPU提供。

而AI面对的,则是大量文本、图像、视频这样的非结构化数据,对精度要求没那么高,对速度和效率更看重,更多靠GPU提供高并行的低精度算力。

AI在训练阶段主要用到32位单精度和16位半精度,在实际应用时的推理阶段,则经常只用16位甚至更低精度来保证运行效率。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

显然,从服务对象和技术自身两方面来看,AI都要求有专门的基础设施,AIDC本身其实是“洪流之下”的一大趋势。

然而要说商汤这次在上海建的AIDC全是顺应时代所然,仍旧不免让人产生疑问:

投入成本 上,他们选择承担自建自投的风险,一出手就是56亿元;

建设方案 上,他们没有照搬已有的智算中心“作业”,而是针对人工智能计算的特点对传统IT基础设施服务能力做了优化和升级。

这背后有些什么考量?

带着这些问题,我们与 商汤联合创始人、副总裁杨帆 聊了聊。

他说建设AIDC这事,还要从2018年说起……

“降低重复成本是永远的追求”

2018年后来被称为“人工智能商业化落地元年”。

那一年,商汤正处于业务拓展期。

大众容易感知到的,是AI双摄、AI美颜落地到OV、小米等各品牌手机上;不容易感知到的,还有智慧园区、智慧城市上更多项目开始起步。

杨帆回忆道,从那时起他们就隐约感到AI需要大算力基础设施这个趋势。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

这个感觉来自技术研发,也来自产业发展。

技术方面 ,从ELMo到BERT,预训练模型的规模越来越大,对更大算力提出要求;产业方面,随着AI在更多场景落地、渗透到更多领域,产业分工开始细化,规模化的基础设施会成为需求。

这种变化,在过去很多行业都曾见过,比如大数据中心、云计算中心。

刚开始,商汤对这个基础设施的轮廓没有勾勒得很明确,是在后面的探索中才逐渐清晰。

从互联网公司、科技数码产品公司到传统工厂、物流、园区、政府,AI开始服务于离技术更远的客户,在这之中,商汤比较看重为客户提供端到端的服务,提供完整解决方案。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

杨帆觉得AI开发平台应该像是操作系统,需要主动去对硬件和应用都搞好兼容,硬件基础设施也不能只是提供一个物理的环境,还要具备提供相应服务的能力:

与IDC的“租地皮”模式不同,AIDC更像“开餐馆”模式。

而决定自投自建,则主要有两方面原因。

一是是商汤看好AIDC未来的前景,希望以“自己吃螃蟹”来表明决心,向外界传递明确的信号;

二是作为一个探索性的项目,完全由自己出资有更大的自主决策权。

建设节奏也能把控得更快,2020年3月,商汤与上海临港签署合作协议,7月拿地开工,22年初就已经投入使用。

商汤AIDC建成后,对不同类型的客户可以提供不同层次的服务:

最基础的就是提供算力和AI算法生产工具体系,也就是深度学习平台;对于希望拿到应用级解决方案的用户,商汤可以提供端到端服务;甚至对于有科研需要的客户,商汤“连科学家也可以作为服务的一种,一并提供”。

商汤最不缺的就是科学家。按截至去年6月末的数据,商汤拥有40位教授,250多位博士,3500多位科学家和工程师,研发人员占比超过三分之二。

研发人员普遍信奉一个格言:

如果一件事需要重复做的次数超过3次,就要创造一个工具来做。

对于科技企业,用工具去提升效率,降低重复性的成本是永远的追求。

商汤把这个工具的概念放大,就成了AI大装置。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

AI的三大要素,都能在大装置中得到进化。

先是数据。 杨帆认为数据作为智能时代最重要的生产要素,与农业时代、工业时代的土地、能源有本质不同。

数据是越用越多的,且可以低成本共享,越多数据放在一起产生的价值是非线性增长。

再说算力。 提供算力的AI芯片,特别是国产GPU芯片在大装置中与算法平台和应用得到适配。

建设大装置所下的大量订单也能帮助国产GPU形成规模化量产能力,摊薄流片成本,加速国产芯片商业化进程。

然后是算法。 算法创新的成本正在因算力和工具的发展急剧下降。

商汤研发人员每年人年均生产商用模型的数量,从2019年0.44个,2020年3.45个,2021年上半年到了5.24个,效率提升11.9倍。

在2021年上半年,商汤拥有的总算力是每秒1.17百亿亿次浮点运算;上海临港AIDC投产之后,这个数值超过每秒4.91百亿亿次浮点运算……算法的生产效率还将进一步提高。

AI算法生产的边际成本降低后,一方面可以降低AI现有服务对象所要付出的成本,另一方面则可以覆盖更多中长尾客户和场景提供定制化的AI能力。

新知达人, 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

目前,商汤AIDC已经 被上海市经济和信息化委员会授予“上海人工智能融合赋能中心”称号

杨帆透露称,现在已投产的部分只是第一期,后续还会扩建,以及随着试运营经验的积累持续改善节能减排,而在上海之外,对更多有AI产业需求的地区,商汤未来也会逐步去覆盖。

今天落成的上海临港AIDC,还只是商汤AI大装置中基础设施部分的起点。

更多“商汤”相关内容

更多“商汤”相关内容

新知精选

更多新知精选