中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器

中国电信天 翼云完成首个国产GPU万卡训练!4000亿参数大模型

中国电信天 翼云完成首个国产GPU万卡训练!4000亿参数大模型

快科技(jì)9月20日消息 ,中国电(diàn)信宣布,天(tiān)翼云自研的国内首个单集群万卡国(guó)产化全功(gōng)能预训练(liàn)云服务平台,已经(jīng)正式发布上线,基于华为昇(shēng)腾芯片,并完成(chéng)了万卡规模Llama3.1-405B大模型训练。

Llama3.1-405B作(zuò)为4000亿参数(shù)规模(mó)的大模型(xíng),在息壤训推服务(wù)平台的支持下,经过多(duō)轮优化,MFU(算力利用(yòng)率)达到国内领先水平。

另外,700亿参(cān)数大模型 Llama2-70B在(zài)万(wàn)卡规模下完成训练,MFU也处于业(yè)界(jiè)领先水平。

据悉,天(tiān)翼(yì)云(yún)的这套平台具备万卡纳管(guǎn)和并(bìng)行训练能(néng)力,基于(yú)HPFS PB级并行(xíng)文(wén)件系(xì)统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感(gǎn)知的智算容器(qì)调度,以及慧聚自研分布式训练框架(jià)TeleFormers和平(píng)台,实 现万卡资源纳管、万卡规模并行(xíng)训练。

其(qí)中,天翼云自 研了AI框架(jià)Teleformers,对算子、通信、数据处理进行优化,还有并行策略的自适应调整,显著提升了(le)大模型训练的训练(liàn)效率(lǜ)。

在目前业内最大(dà)参(cān)数规模开源单体稠密模型(xíng)Llama3.1-405B大(dà)模(mó)型训(xùn)练测试中,性能表现达到国际同等水平(píng)。

算子优化方(fāng)面,针对(duì)昇腾芯片的特性,在网络结构(gòu)层面(miàn)对诸多高(gāo)频算(suàn)子进行了定制化改(gǎi)造,构建了高性能算子集。

比如matmul算子,利用昇腾芯片的(de)计算亲和性,将算子输入padding到特定的维度,大幅提升执行效率,从(cóng)而明(míng)显缩短了训练时间。

数据处理和流(liú)水线方(fāng)面,通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提(tí)升数据流的(de)处理效(xiào)率和稳定性;对(duì)预处理后的数据集进行了二次分片并提供就近缓存能力(lì),减(jiǎn中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型)少GPU空闲(xián)时间。

自适应并行策略方面,基于对3D并行中各类计算单元的分(fēn)析,天翼云(yún)设计了多种自适应的(de)3D并行策略,依据模型规模和(hé)硬件资源的不同可以自动选择合适 的并行策略,充分利用计算资源和(hé)显存资源,缩短模型训(xùn)练(liàn)中每轮的迭代(dài)时间 。

天翼云国产(chǎn)化万卡智算中心还有多(duō)项技术突破(pò)——

天翼云息壤训练服务平台基于软硬件协同(tóng)设计,提(tí)供 全链路故障监控、基于主动感(gǎn)知 的全链路故障监控和定位、CheckPoint秒级多级高速(sù)存储系(xì)统、容错(cuò)优 雅调度和模型编译缓存等系统(tǒng),将(jiāng)万卡规模故障发现和解决问题缩短到业内前沿的分钟级,大幅提(tí)升有(yǒu)效训练(liàn)时间(jiān)。

自动断点续训系统:

建(jiàn)设(shè)丰富的故障库,基于此构建(jiàn)了多维故障感知系统,能够快速主动感知相关故障事件和潜在的故障(zhàng)风险(xiǎn);

通(tōng)过精准(zhǔn)的故障隔离和调度手段,快速隔离处(chù)理(lǐ)故(gù)障节点(diǎn)并(bìng)重新(xīn)调度(dù)新节点接(jiē)手 任务(wù)继续训练,实现无人干预(yù)式断点续训(xùn),有效减少GPU闲置时间。

高速多(duō)级CheckPoint系统:

天翼云设计(jì)基于多级存储的高 速(sù)CheckPoint系统(tǒng),通过两阶段异步(bù)存储,实现高速 写入内(nèi)存,并最终异(yì)步写入远端系统;

针对断(duàn)点恢复(fù)场景,提供进程级故障原(yuán)地快(kuài)恢和远端快(kuài)速恢复能力,最终实现对(duì)CheckPoint的(de)秒级读写能力,大幅降低断点恢(huī)复时间、提(tí)升(shēng)训练效率(lǜ)。

全(quán)链路(lù)检 测工具链:

天翼云开发了全链路故(gù)障监(jiān)控工具链,能(néng)够(gòu)基于主动感(gǎn)知实现全链路的故障监控和定位。

该工具链可以主动(dòng)发(fā)现设备故障,并降低训(xùn)练中断的频次(cì),确保训练过程的连续(xù)性和稳定性。

【本文结束(shù)】如需转载请务必注明出处:快科技

责任编辑:上方文Q

未经允许不得转载:中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

评论

5+2=