选择语言
< 返回主菜单

SQZ Talk | 第20期—专题报告“高性能训推一体化系统架构”

2025-07-03

       
2025年6月6日,上海期智研究院第20期“SQZ Talk”学术论坛邀请上海交通大学冷静文教授,带来专题报告“Architecture and System Co-Design for High-performance LLM Inference and Training”。论坛由姜建娟博士主持。


专题报告

图片

冷静文

上海期智研究院PI

上海交通大学教授

       冷静文是上海期智研究院PI,上海交通大学计算机科学与工程系教授。长期从事面向人工智能的智能计算机系统设计研究,聚焦性能、能效与可靠性优化。主持国家自然科学基金及多家头部企业科研项目,在计算机体系结构顶级会议发表论文80余篇,获国内外专利20余项。研究成果曾获IEEE Micro Top Picks、ISCA、DAC、PACT等会议最佳论文奖或提名,并荣获2024年华为奥林帕斯奖、2020年阿里巴巴达摩院青橙奖、2019年微软亚洲研究院青年学者铸星计划等荣誉。

图片

       大语言模型(LLM)等人工智能技术的突破显著提升了算力需求。当前,算力数据中心广泛采用GPU和NPU等处理器作为核心计算引擎,支撑起整个计算基础设施体系。与此同时,AI模型在与用户交互过程中具备持续学习和演化的能力,这使得训练任务与推理任务之间频繁切换成为常态。因此,训练与推理一体化的系统架构将日益普及。相比于传统的训练与推理分离架构,一体化架构在响应速度、运维成本与资源利用率等方面具有天然优势,例如可减少数据传输与存储冗余。然而,这种新型架构也带来了全栈系统层面的挑战,包括数值数据类型、多算子融合、内存管理、任务协同部署等方面。在本次报告中,冷静文教授分享了课题组在训练-推理一体化系统架构上的思考、初步探索与实践,并展望未来进一步释放该架构潜力的研究方向。

图片


        报告结束后,科研人员们就新一代MX数据格式的应用前景,大模型复杂推理(Reasoning)对算力芯片设计的影响,以及如何通过稀疏计算单元设计或片上存储层次重构来适配这类负载特征等问题展开了讨论。

分享到