资讯|财经!房产|家居|装修|亲子|汽车|游戏|贷款|发稿|建站
上海论坛
东方品牌网

浪潮信息携手淮海智算中心刷新AI大模型训练算力效率记录...

更新于4 天前 418人阅读 0人回复 显示全部楼层 倒序浏览

发表于 4 天前 | 显示全部楼层 |阅读模式
IP属地 : 中国湖北襄阳

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
作为业内专业的算力提供商,浪潮信息在助力打造智算产业生态方面不遗余力,且陆续与行内众多机构,联合优化算力基础设施,持续输出更有的算力服务,造福行业生态。近日,浪潮信息携手淮海智算中心进行了超大规模参数AI大模型训练性能测试,再次刷新AI大模型训练算力效率的记录。

实测数据表明,千亿参数规模的自然语言AI单体大模型在淮海智算中心计算平台上的训练算力效率达53.5%,刷新了业内AI大模型训练算力效率新高。这意味着淮海智算中心将可为国内生成式AI创新团队提供高性能、高效率的AI大模型训练算力服务。

生成式AI需要基于海量的自然语言或多模态数据集,对拥有巨大参数的超大规模AI模型进行训练,其训练所需AI算力当量非常高,如以PD(Petaflops-Day)为单位来衡量,OpenAI的GPT-3大模型训练的算力当量为3640PD,而浪潮“源1.0”大模型的算力当量则为4095PD。

超大规模AI大模型的训练一般必须在拥有成百上千加速卡的AI服务器集群上进行,如何在AI计算集群上获得更高的训练算力效率则会直接影响到模型训练时长以及算力消耗成本,这对于提升生成式AI研发创新效率有着非常重要的影响。据公开资料表明,GPT-3大模型在其V100 GPU集群上的训练算力效率为21.3%,而浪潮“源1.0”的训练算力效率则达到了44.8%。


针对AI大模型训练的计算特点,浪潮信息AI团队对淮海智算中心算力系统进行了专业设计,对集群架构、高速互联、算力调度等方面进行全面优化,在系统架构上,采用单节点集成8颗加速器的AI服务器,节点内加速器间实现超高速P2P通信,节点间建立极低延迟、超高带宽的Infiniband通信网络。在大模型训练技术层面,成功运用了中文巨量AI模型“源1.0”的训练优化经验,对分布式训练策略进行了针对性优化,通过合理设计张量并行、流水并行和数据并行,精准调整模型结构和训练过程的超参数,最终实现了千亿参数规模AI大模型的训练算力效率达到53.5%。
QQ截图20230317093022.png

千亿参数AI模型结构及其实际性能表现

要打造领先的智算枢纽,需要各界的共同协作,淮海智算中心的落地,得益于浪潮信息在算力方面的优势资源及技术支持,也有赖于安徽省宿州市的大力支持。未来,在该智算中心的驱动下,一个技术先进、架构开放、应用丰富、生态完善的国内领先智算枢纽将逐步建立,造福区域经济的发展。
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

便民工具
返回顶部快速回复上一主题下一主题返回列表联系客服手机访问
关于我们 | 联系我们 | 广告服务 | 网站导航 | 诚聘英才 | 友情链接 | 免责申明 |  帮助中心 | 手机访问 | 排行榜 | 小黑屋 | 设首页 | 加收藏
©2011-2023 本站由上海申梦网络科技有限公司运营 东方品牌网 上海论坛 版权所有 沪ICP备11017971号-7    在线客服 举报 郑重声明:本站只提供网上自由交流讨论,所有个人言论并不代表本站立场
快速回复 返回顶部 返回列表