联想万全异构智算平台


联想万全异构智算平台是一个能高度自动化完成AI全流程开发的平台,可输出高可用算力并不断突破计算效率瓶颈的利器。


用户可自动完成AI计算并发布模型或发布推理服务。此外,平台也为专业的AI开发用户留有手动深入调整计算过程的空间,包括工具和模型的选择,算力配置的调整,对任务的定制化监控等。


wbse3r6glrmiyh39ri0cfdgby7yal6091347.png



大模型场景解决方案


以大模型为基础特征的AI 2.0时代已经到来,“大模型+大算力+大数据”成为新一代人工智能发展的基本范式。


然而,智能计算较通用计算的投入成本、技术门槛更高,广大用户需要一个新的计算开发和管理平台。


挑战一


场景日益丰富,算力复杂多元, 如何选择和匹配合适的算力?


目前已经有五种以上主流算法框架和十种以上算子库来支持不同的应用场景。同时,不同类型的GPU、服务器、存储和网络组成了上百种不同的集群配置,特别是场景、算法和集群之间的选择和验证,不但技术繁杂而且周期长,这都给用户带来了极大的压力。


挑战二


从千卡到万卡,如何减少故障 恢复时间,提升集群的可用性?


以千卡训练集群为例,目前千卡集群每月至少有15次的故障断点,在常规的断点续训手段下,每次恢复训练需要几个小时,产生的额外费用超过百万元,而随着AI集群规模从千卡到万卡,故障中断次数及恢复所需时间呈指数级增长。


挑战三


智能算力基础设施的建设成本极高, 如何改善和最大化AI算力利用率?


AI对算力的需求是无穷尽的,然而随着集群集成的芯片越来越多,我们不得不应对算法效率不高、计算资源不足、互联带宽受限等众多技术挑战。数据显示,当前业内MFU(模型算力利用率)普遍在30%左右,顶尖的集群利用率也只能做到50%,因此这就需要行业突破和解决GPU卡利用率、集群通讯效率、AI故障恢复、算法匹配度等系统性问题。



产品特性


用户智能匹配算力的算力匹配魔方。


基于海量的硬件评测和AI算子算法集成工作,联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库,来标识AI场景、算法、集群配置这三者的匹配关系。用户只需输入场景和数据,算力魔方即可自动加载最优算法,并调度最佳集群配置。


逼近GPU算力极限的GPU内核态虚拟化。


联想研究院开发了在GPU驱动层的内核态虚拟化算法,新算法可以将虚拟化造成的GPU算力损耗降到5%以下,极致情况可以降到1%以下,大幅提升GPU利用率。


提升网络通信效率的联想集合通信算法库。


可实现对多类型网络拓扑的实时感知,并以先进算法使数据在拓扑中以最佳路径进行传输。以千卡规模集群为例,采用集成了联想集合通信库的联想异构智算平台做管理调度,可使网络通信效率提升超10%,并且集群规模越大,效果越显著。


减少AI训练中断时间的AI高效断点续训技术


联想异构智算平台对大量的AI训练故障进行了特征采样,开发了预测AI训练故障的AI模型,实现“用AI来预测AI”。在断点前提前优化备份,由此能将断点续训恢复时间缩减到分钟级,大幅提升训练效率,以千卡集群为例,每月可节约上百万元算力费用支出,让宝贵的AI算力持续可用。


AI与HPC集群超级调度器。


针对混合集群做资源共享需求,联想AI与HPC超级调度器架构于AI和HPC调度之上,能够切换AI和HPC的调度,从而满足科学计算等场景的HPC与AI计算间的调度需求。它可以切换“语言”分别指挥AI和HPC调度器,可跨集群全局动态管理和调度算力资源,一小时内自动完成跨集群资源调度和共享。