中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先
快科技9月20日消息,中国电信宣布,天翼云自研的国内首个单集群万卡国产化全(quán)功能预(yù)训练云服务平台,已(yǐ)经(jīng)正式发(fā)布上线,基于华(huá)为昇腾芯(xīn)片,并(bìng)完成了万卡规模Llama3.1-405B大(dà)模型训(xùn)练。
Llama3.1-405B作为4000亿参数规模的大模(mó)型,在息壤训推服务平台的支持下,经过多(duō)轮优化(huà),MFU(算力利用率)达到国内领先水平。
另外,700亿参数大模型Llama2-70B在万(wàn)卡(kǎ)规模下完(wán)成训(xùn)练,MFU也处于业界领先水平。
据(jù)悉,天翼云的这(zhè)套平台具备万卡纳管(guǎn)和并行(xíng)训练能力,基于HPFS PB级并行(xíng)文件(jiàn)系统(tǒng)、CTCCL RDMA高速卡间互联技术、Gang策(cè)略与拓扑感知的智算容器调度(dù),以及慧聚自研分布式训练框架TeleFormers和平台,实现万卡资源纳管、万卡规模(mó)并(bìng)行训练。
其中,天翼 云自研(yán)了AI框架Teleformers,对算子、通信、数据处理(lǐ)进行优(yōu)化(huà),还有并行策略的自适应调整,显著提升了大模型训练的训(xùn)练效率。
在目前业内最大参数 规模开(kāi)源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达(dá)到(dào)国际同等(děng)水平。
算子优化方面,针对昇腾芯(xīn)片的(de)特性,在网(wǎng)络结构层面对诸(zhū)多高频算子进(jìn)行了定制(zhì)化改造,构建了高性(xìng)能算子集。
比如matmul算子,利用昇腾芯片的计算亲和性,将算子输入padding到(dào)特(tè)定的维度,大幅提升执行效率,从而明显缩(suō)短了(le)训练(liàn)时间。
数据处理和流水线方面,通(tōng)过设置合理(lǐ)的数(shù)据(jù)分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数(shù)据集进行(xíng)了二次分片并提供就近缓存能(néng)力(lì),减少GPU空闲时间。
自适(shì)应并行(xíng)策略(lüè)方面,基于对3D并行(xíng)中各类计算单元的分析,天翼云设计了多种自适应的(de)3D并行策略,依据模型规模和硬件资源的不同(tóng)可以自动选择合(hé)适的并行策略,充分利用计算资源和显存资源,缩短模型训(xùn)练中每轮(lún)的(de)迭代时间。
天翼云国产化(huà)万卡智算中心还有(yǒu)多项技(jì)术突破——
天翼云息壤训练服务(wù)平台基于软硬(yìng)件协同设计,提供全链路故障监控、基于(yú)主动感(gǎn)知的全链路(lù)故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调度(dù)和模型编(biān)译缓(huǎn)存等系统,将万卡规模故障(zhàng)发(fā)现和解决问题缩短到业内(nèi)前沿的分钟级,大幅提升有效训练(liàn)时间。
自动断点续训系统:
建设丰(fēng)富(fù)的(de)故障库(kù),基于此构建了多(duō)维故障(zhàng)感知系统,能够快速主动感知相(xiāng)关(guān)故障事件和潜在的故障风险;
通过精准(zhǔn)的故障隔离(lí)和调度手段,快速隔离处理故障(zhàng)节(jié)点(diǎn)并重新(xīn)调度新节点接手(shǒu)任务继续训练,实现无人干预式断点续训,有效(xiào)减少GPU闲置时间。
高速中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先多级CheckPoint系统:
天翼云设计基于多级存储的高速CheckPoint系统,通过(guò)两阶段异步存储(chǔ),实现高速写入内存,并最终异步写入远端系统;
针对断(duàn)点恢(huī)复场景(jǐng),提供进程(c中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先héng)级故障原地快恢和远端快速恢复能(néng)力(lì),最终实现对(duì)CheckPoint的秒级读写能力,大(dà)幅降低(dī)断点恢复时间、提升训练效率。
全链路检测工(gōng)具链:
天翼云开发(fā)了全链路(lù)故障监控工具链(liàn),能够基于主动(dòng)感知实现全链路(lù)的(de)故障监控和定位(wèi)。
该工具链可以(yǐ)主动(dòng)发现设备(bèi)故障,并降低训练中断的频次,确保训练过程的连续性和稳(wěn)定性。
【本文结束】如 需(xū)转载(zài)请务必注明出处:快科技
责任编辑:上方文Q
未经允许不得转载:中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了