中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先
快科(kē)技(jì)9月20日消息,中国电信宣(xuān)布,天翼(yì)云自研的国内首(shǒu)个单集群万卡国产化(huà)全(quán)功能预训练云服务平台,已经正式(shì)发布上线,基(jī)于华为昇腾(téng)芯片(piàn),并完成了万卡规模Llama3.1-405B大模型训练。
Llama3.1-405B作为4000亿参数规模的大 模型,在息壤训(xùn)推(tuī)服务平台的支持下,经过多轮(lún)优(yōu)化,MFU(算力利用率)达到国(guó)内领先水平。
另外,700亿(yì)参(cān)数大模型Llama2-70B在(zài)万卡规模下完成训(xùn)练,MFU也(yě)处于业界领先水平。
据悉,天翼云的这套(tào)平台具备万卡纳管和并行训练能(néng)力,基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先容器调度,以及慧聚(jù)自(zì)研分布式训练框(kuāng)架TeleFormers和平台,实现万卡资源纳管、万卡规模并行训练。
其中,天翼云自研了AI框(kuāng)架Teleformers,对算子、通信、数据(jù)处理进行(xíng)优化(huà),还有并(bìng)行策略的自适应调整,显著提升了大模型训练的训练效率。
在(zài)目前业内最大参数规(guī)模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。
算子优化(huà)方面,针对昇腾芯片的特(tè)性,在网络结构(gòu)层面对诸多高频算子进行了定制化改造(zào),构(gòu)建了高性能算子集。
比如matmul算子,利用(yòng)昇腾芯(xīn)片的计算亲和性,将(jiāng)算子输入padding到特定的维度,大幅提升执行效率,从而明显缩短了训(xùn)练时间。
数据处理和流(liú)水线(xiàn)方面,通过设置合理的数据(jù)分片(piàn)策略和HPFS条(tiáo)带化优化,结合数据预取与数(shù)据下沉技术,大幅提升数据流的处理效率(lǜ)和稳(wěn)定性(xìng);对预处理后的数(shù)据集进行了二次分片并提供就近(jìn)缓存能力,减少GPU空闲时间。
中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先-style="font-L">自(zì)适应并(bìng)行策略方面,基于对(duì)3D并行中各类计算单元(yuán)的分析(xī),天翼云设计了多种自适应的3D并行策略,依据模 型规模和硬件资源的不同可以自动选择(zé)合适(shì)的并行策略(lüè),充分利用计算(suàn)资源和显(xiǎn)存资源,缩短模型训练中每(měi)轮的迭代(dài)时间。
天翼云(yún)国产化万卡(kǎ)智算中心还有多项技术突破——
天翼云息壤训练服务平台基于软硬件协同设计,提供全链路故障监控、基于主动感知(zhī)的(de)全链路故障监控和定位、CheckPoint秒级多(duō)级高速存储系统、容错优雅调度(dù)和模型编译缓存等系统,将万卡规模故障发现和解决问题缩短到业内前沿的分钟级,大幅提升有效(xiào)训练时间。
自动断点续训(xùn)系(xì)统:
建设丰(fēng)富的故障库,基(jī)于此构建(jiàn)了多(duō)维故障感(gǎn)知系统,能够快速主动感知相关故障(zhàng)事件和潜在的故障风险;
通过精准的故障隔离和调度(dù)手段,快速隔离处理故(gù)障节点并重新调度(dù)新节点接手任务继续训练,实现无人干预式断(duàn)点续训,有效减(jiǎn)少GPU闲置时(shí)间(jiān)。
高速多级CheckPoint系统:
天(tiān)翼云设计基于多级存储的高速CheckPoint系统,通过两阶段(duàn)异(yì)步存储,实现高速写入(rù)内存(cún),并最终异步写入远端系统;
针对断点恢复场(chǎng)景,提(tí)供进程级故障(zhàng)原地快恢和远端(duān)快速恢复(fù)能力,最终实现(xiàn)对CheckPoint的秒级读写能力,大幅降低断点恢复时间、提升训练效率。
全链路检测工具链:
天(tiān)翼(yì)云开发(fā)了全链路故(gù)障监控工(gōng)具链,能(néng)够基于(yú)主动感知实(shí)现全(quán)链路的故障监控和定位。
该工(gōng)具链可以主动发现设备故障,并降低训练中断的频次,确保训(xùn)练过程的连(lián)续(xù)性和稳(wěn)定性。
【本文结束】如需(xū)转载请务必注明出处:快科技
责(zé)任编辑(jí):上方文(wén)Q
未经允许不得转载:中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了