大数据 (Jan 2024)

构建支持大模型训练的计算机系统需要考虑的4个问题

  • 郑纬民

DOI
https://doi.org/10.11959/j.issn.2096-0271.2024016
Journal volume & issue
Vol. 10, no. 1
pp. 1 – 8

Abstract

Read online

支持大模型训练的计算机系统有3种类型,其中基于国产AI芯片系统的生态系统不是很好,要想改变这个局面,需要做好AI编译器、并行加速等10个关键软件;基于超级计算机的系统需要做好软硬件协同设计,从而更好地服务于大模型训练。针对如何搭建大模型的基础设施,提出4点平衡设计,以确保系统的性能、可靠性和可扩展性。

Keywords