中国电信天翼 云完成首个国产GPU万卡训练!4000亿参数大模型
快科技9月20日消息,中国电信宣(xuān)布,天翼云自研的国内首个单集(jí)群万卡国产化全功能(néng)预训练云服(fú)务平台,已经正式发布上线,基于华为昇腾芯(xīn)片,并完成了万卡规模Llama3.1-405B大模型训(xùn)练。
Llama3.1-405B作为(wèi)4000亿参数规模的大模型,在息壤训推服务平台的支持下(xià),经过多轮优化,MFU(算力利用率)达到国内领先(xiān)水(shuǐ)平。
另外,700亿参数大模型Llama2-70B在万卡(kǎ)规(guī)模下完成训练,MFU也处于业界领先水平。
据悉,天翼云的这套平台具备万卡(kǎ)纳管和并行训练能力,基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互(hù)联技术、Gang策略与(yǔ)拓扑感知的智算容器调(diào)度,以及慧(huì)聚自研分布式训练框架TeleFormers和平台,实现万卡(kǎ)资源纳(nà)管、万(wàn)卡规(guī)模并行训练。
其中,天翼云自研了AI框架Teleformers,对算子(zi)、通信、数据处理进(jìn)行优(yōu)化,还有并行策略的自适应调整,显著提升了大模型训(xùn)练(liàn)的训练效率。
在目前业内最大参(cān)数规模开(kāi)源(yuán)单(dān)体稠密模型Llama3.1-405B大模型训练测(cè)试中,性能表现(xiàn)达到国际同(tóng)等(děng)水平。
算子(zi)优化(huà)方面,针 对昇腾芯片的特性,在网络结构层面对诸(zhū)多高频算子进(jìn)行了定制化改造,构建了高性能算子集。
比如(rú)matmul算子,利用昇腾芯片的计算亲和性,将算子输(shū)入padding到特(tè)定的维度,大幅提升执 行效率,从而明显缩(suō)短了训练时间。
数据处理和流水线方面,通(tōng)过设置合理(lǐ)的数据分片策略和HPFS条带(dài)化优化,结合数据预取与数据下沉技术,大(dà)幅提升数据(jù)流的处理效率和稳定性;对预处理后的数据(jù)集进行了二次分片并提(tí)供就近(jìn)缓存能力,减(jiǎn)少GPU空(kōng)闲时间。
自适应(yīng)并行(xíng)策略方(fāng)面,基于对3D并行(xíng)中各类计算单元的分析,天翼云设计了(le)多种自适应的3D并行策略,依 据模型规模和硬件资(zī)源的 不同可以(yǐ)自动选择合适的并(bìng)行(xíng)策略,充分利用(yòng)计(jì)算资源和显存资源,缩短模型训练中每轮的迭代(dài)时间。
天翼云国产化万卡智算中心还有多项技(jì)术突破——
天翼云息壤训练服务平台基于软硬(yìng)件协同 设计 ,提供全链路故(gù)障监控、基于主动感知的全链路故障监控和定(dìng)位、CheckPoint秒级多级高速存储系(xì)统、容错优雅调度(dù)和模(mó)型(xíng)编(biān)译 缓存(cún)等系统,将万(wàn)卡规模故障发现和(hé)解决问题缩短到业内前沿的分钟级,大幅提升有效训练时间。
自动断点(diǎn)续训系统(tǒng):
建设丰富的故障库,基于(yú)此构建了多维(wéi)故障感知系统(tǒng),能够快速主动感知相关故(gù)障事件和潜在的故障风险(xiǎn);
通过精准的故障隔(gé)离和调(diào)度手段,快速隔离处理故障节点并重新调度新节点接手任务继续(xù)训练(liàn),实现无人干预式断点续训,有效(x中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型iào)减少GPU闲置(zhì)时间。
高速多级CheckPoint系统(tǒng):
天翼云设计(jì)基于多级存储的高速CheckPoint系统,通过两阶段异(yì)步存储,实现高速写入内存,并最终异(yì)步写入远端系统;
针对断点恢复(fù)场(chǎng)景,提供进程级(jí)故(gù)障(zhàng)原地快恢和远(yuǎn)端快速恢复能力,最终实现对CheckPoint的秒级读写能力,大幅降低断(duàn)点恢复时间、提升训练效率。
全链路检测工具链:
天翼云开发了全链路故障监控工具链,能(néng)够基于主动感知实现全链路的故障监控和定位。
该工具链(liàn)可以主动发现设备故障,并降低训练中断(duàn)的(de)频次,确保中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型训(xùn)练过程的连续性和稳定性(xìng)。
【本文(wén)结束 】如需转载请务必注明(míng)出(chū)处:快科技
责任编辑:上方(fāng)文Q
未经允许不得转载:中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了