大模型的基础设施如何建先要搭千卡万卡规模的网络架构
生成式人工智能(AI)作为一项划时代的技术,经历了巨大的变革和发展。百度杰出系统架构师王雁鹏在深圳的文心大模型技术交流会上表示,生成式AI最显著的特点是模型规模巨大,过去几年以每年10倍的速度增长。生成式AI的智能计算基础设施是一个庞大而复杂的系统,需要从网络架构、存储、加速层、框架和容错等多个方面进行设计和优化。通过这些努力,可以为大规模的生成式AI应用提供稳定、高效且易用的计算基础设施。以往的AI应用中,许多训练任务都可以在单卡或单机上完成,但在大模型时代,完成一个任务需要使用上千甚至上万张显卡。王雁鹏认为,在如此巨大的计算能力需求下,智能计算基础设施的设计范式发生了转变。

一、要构建万卡规模的大模型基础设施,有四个关键点需要关注:
1.需要构建智能计算集群,能够支持高速互联并具备各种异构算力,如中央处理器(CPU)和图形处理器(GPU)等。这需要保证高效的卡间通信。
2.仅有强大的硬件能力并不足以取得良好效果。优化软件堆栈非常重要,优化的结果将体现在训练和推理性能上的加速。
3.高性价比是一个重要考虑因素。构建这样的系统需要合理的技术选择,不一定选择最昂贵的解决方案。合理分层存储和计算,并追求更高的性价比。
4.易用性是前所未有的挑战。在万卡规模下,稳定运行、弹性容错以及一站式应用的易用平台都是重要问题。

百度智能云副总裁朱勇透露,自百度的文心一言技术在3月16日开始内测以来,通过算法和模型的持续优化,其在企业服务中高频场景下的推理性能已经提升了50倍。为了实现这一结果,王雁鹏从技术角度解释了过去一个月的工作和新的技术范式转变。王雁鹏指出,生成式AI是一项跨越式的技术,和以前的技术有了巨大的变革。其最显著的特点是模型规模庞大,每年以10倍的速度增长。之前的AI应用中,许多训练任务可以在单卡或单机上完成,但在大模型时代,需要上千张或上万张卡来完成一个任务。
增加模型规模并不能很好地提升模型的效果和性能,还需要相应地增加数据量级。大模型的数据量级是指数级增长的,这类似于摩尔定律。以前摩尔定律需要每年翻一番,现在大模型的"摩尔定律"更快,大约每8到10个月翻一番。与原来的摩尔定律不同的是,大模型不仅需要芯片的能力,还需要整个芯片、框架和系统的全栈优化。在这种巨大的算力需求下,智能计算基础设施的设计发生了变革。
二、构建万卡规模的网络架构
在如此大规模下,保证网络的扩展性和避免拥塞是非常困难的。大模型的通信特点是有很多集合通信的操作,这可以分解成同号卡之间的集合通信。为了解决这个问题,需要优化网络架构,在同号卡之间建立高速通信通道,以提高整体网络的吞吐量并消除拥塞和冲突的可能性。
除了计算方面,存储也是另一个关键问题。需要具备大容量和高速度,因此设计了多级存储系统。大量数据存储在对象存储系统中,高速训练时需要充当缓存系统的角色。
三、加速层
对于AI训练来说,计算过程非常复杂,包括IO预处理、IO读取、各种算子的高性能实现和优化,以及通信的优化和显存利用率。需要在训练加速套件中整合整个软件栈。对于推理加速套件来说更加重要。推理过程对大模型来说是一个巨大的挑战。通过集中攻关和软件优化,百度在文心一言发布后的一个月时间内,使推理性能提高了50倍。
四、框架侧的工作,即所谓的4D混合并行
对于如此巨大的计算,如何将其拆分到各个GPU上,并采用不同的并行策略,以获得更好的计算性能。如何将并行策略映射到计算集群的硬件上也是关键。在这方面,投入了大量的工作,实现了自动并行,无论硬件拓扑和硬件组合如何,都能在分布式层面自动实现并行。
容错性也是关键问题。在万卡规模下,错误是不可避免的。集合通信的通信模式天生具有较低的容错性。因此,在通信库层、框架层和调度层做了大量的工作,实现了不同层次的容错,使得拥有千亿参数的大模型训练可以无中断地进行。
科学家正在尝试复活灭绝的动物,结果怎么样了?(克隆技术)
人类现在无法掌握克隆技术从地球诞生到现在,已经经历过了好几次的物种大灭绝,最起码有上百万。、的物种在地球上再也不见了,还有一些是我们人类因为过度的捕捞或者污染而造成的灭绝,其实我们人类的一些行为也是给大自然带来了不少的麻烦,比如说在19年的时候就有一个斑鳖在我国死亡了,这是全世界最后一个,科学家们也非常希望能够挽救这个物种。我要新鲜事2023-05-15 04:59:5000012018最骚流行语 盘他是什么意思
导语:盘他实际上是源自于孟鹤堂和周九良相声中的一个梗,这期节目名字叫做文玩,有很多包袱。其中最有意思的一个词就是“盘他”,盘他还有戏弄的意思,比如别人说一些让人讨厌看不惯的人或者事情,就弄他的意思,和探秘志一起了解一下。盘是什么意思在古代盘古是一个姓氏,比如中国上古五大创世神之一盘古。后来有一种可以装东西的器皿被称之为盘,比如木盘、磁盘以及金属盘等等。我要新鲜事2023-05-09 09:19:070000东北一老汉掏养死小雕,被“神雕”妈妈疯狂报复两年之久?
大家知道雕这个字实在什么地方?相信很多人对神雕侠侣中的大雕没齿难忘,现实生活里面也存在着这样的“神雕”,没有武侠小说里的那么善良,会主动攻击人把人抓成了重伤,更令人惊奇的是伤者居然是同一人!世界上的奇葩事真的多。那到底是怎样的原因让大雕对人类开始下手了?我要新鲜事2023-05-13 19:55:020000世界十大最大鳄鱼 咸水鳄体壮凶残会攻击人类
导语:鳄鱼是一种极其凶猛的动物,有着十分悠久的历史,其中体型最大的就是世界十大最大鳄鱼,它们分别是咸水鳄,尼罗鳄,恒河鳄,马来切喙鳄鱼,食鱼鳄,黑凯门鳄,美洲鳄,尼罗鳄鱼,奥利诺科鳄,非洲狭吻鳄,下面就和探秘志来了解一下吧。1、咸水鳄我要新鲜事2023-05-09 04:05:560000我们往开水里尿尿 可能会被烫伤(马拉高尼效应)
根据马拉高尼效应张力比较弱的液体会被拉回。有一些人想过一些比较奇怪的想法,就是自己要是尿尿的时候往开水里尿会产生什么样的效果?可能大多数人都会觉得不就是尿尿吗?最多也就是污染一盆开水,还能有什么效果,其实并没有这么简单,在我们尿尿的时候尿液和水接触,那可能会被烫伤生殖器,大家没有听错,就是这样的效果,其实这就需要说到马拉高尼效应。马拉高尼效应我要新鲜事2023-05-28 21:09:540000