一、方案背景与核心挑战
丽蟾科技自主研发的Leaper资源调度管理平台,致力于为企业和科研机构提供高性能的算力支撑和全栈AI开发能力。核心挑战:AI训练和推理面临计算资源消耗大、分布式训练通信瓶颈、模型部署周期长、不同GPU架构之间调度复杂等难题,需要一套从数据准备到推理部署的全链路加速方案来降低AI开发的技术门槛和运营成本。
二、解决方案名称与架构
解决方案名称:基于NVIDIA AI Enterprise的Leaper AI训练推理加速平台
架构概述:丽蟾科技在Leaper上深度集成了NVIDIA AI Enterprise,为用户提供从数据准备、模型训练到推理部署的全面加速支持。通过与NVIDIA AI Enterprise的结合,Leaper实现了分布式训练支持、自动混合精度训练、实时监控与动态调度、数据预处理加速等核心能力。
三、核心技术组件
NVIDIA NCCL优化通信库
通过整合NVIDIA NCCL优化通信库,Leaper支持在大规模GPU集群环境下进行高效分布式训练,解决了多节点通信中的数据同步瓶颈问题。NCCL优化了All-Reduce、All-Gather等集合通信操作,使Leaper在扩展到数百个GPU节点时仍能保持接近线性的加速比。
自动混合精度训练
Leaper具备自动混合精度训练功能,特别结合了NVIDIA Hopper架构的FP8精度计算能力,在大模型推理方向实现了更高的性能、更低的延迟和更高效的显存使用。FP8精度相比传统FP16在相同显存带宽下可提供2倍的张量核心计算吞吐量。
NVIDIA NIM微服务
Leaper已全面整合NVIDIA NIM微服务,覆盖语音AI、智能检索增强生成(RAG)、数字生物学、数字人、大语言模型等多个领域。用户通过Leaper可快速部署经过优化的预训练AI模型,将部署时间从天级缩短到分钟级,显著提升AI应用从实验环境迁移到生产环境的效率。
四、行业应用
Leaper平台已在多个行业领域得到实际验证:在科学研究领域支撑天体物理计算和生物信息学分析的GPU加速;在医疗健康领域实现医疗图像AI分析的快速模型迭代;在能源行业支撑高精度天气预报模型的训练和推理;在制造业实现产线智能质检系统的持续优化;在零售电商领域支撑大规模推荐系统的模型更新和在线推理。Leaper通过NVIDIA NIM实现了跨领域的快速AI模型部署,让不同行业用户都能轻松获得AI能力。
五、客户评价
丽蟾科技董事长吴敏华表示:"NVIDIA AI Enterprise是一套端到端的完整AI工具套件,非常适合运行在云环境中。通过丽蟾自研的Leaper云平台,将NVIDIA最先进的AI能力集成并传递给每一位客户。随着AI技术不断发展,丽蟾科技将继续通过这一集成平台推动更多行业的技术进步与应用落地。"
WeChat
Profile