Dianxin kexue (Jun 2024)

面向大模型的智算网络发展研究

  • 郭亮1,2, 王少鹏1, 权伟2, 李洁1

DOI
https://doi.org/10.11959/j.issn.1000-0801.2024147
Journal volume & issue
Vol. 40, no. 6
pp. 137 – 145

Abstract

Read online

近年来,全球进入智能计算的蓬勃发展期,作为具有巨量参数和复杂结构的深度学习模型,大模型训练需要在多卡、多服务器间实现训练参数的快速同步,所以对算力中心网络的带宽、时延、可靠性、可扩展性和安全性等提出更高要求。研究了面向大模型训练的智算网络的需求和相关关键技术,对智算网络的研究成果、标准规范和案例实践进行了分析,以期进一步促进智算网络的发展。

Keywords