选择语言
< 返回主菜单

SQZ Talk | 第29期—青年学者论坛-“高性能计算系统架构”

2025-10-30

      2025年10月11日,上海期智研究院第29期“SQZ Talk”学术论坛首次推出青年学者沙龙。沙龙由专题报告和交流讨论两部分组成,特别邀请来自国内高性能计算系统架构领域的6位优秀青年学者来上海期智研究院交流。研究院PI蒋力与研究院兼职研究员刘方鑫担任论坛主席。

图片


专题报告

高鸣宇  研究院PI、清华大学副教授

图片

稀硫张量专用硬件的教据流优化:循环换序与循环分块


高鸣宇教授围绕芯片加速器展开技术分享,报告聚焦稀疏加速器设计,阐述其面临的计算不规则性挑战,包括数据随机访问带来的缓存问题,以及计算层面因非零元素分布不均导致的负载不平衡问题。针对这些问题,高鸣宇教授介绍了两项研究成果。第一项研究针对循环顺序变换,通过抽象出统一框架,支持三种常见循环顺序(内积、外积、行乘),硬件上采用灵活分组方式,软件上根据数据局部性特征动态选择最优执行方式。第二项研究针对分块(tiling)策略,静态分析数据稀疏度特征以确定初始分块参数,运行过程中根据局部数据密度动态调整分块大小和形状,结合哈希函数估算性能参数,动态优化分块策略以提升加速器性能。


金煜阳      清华大学计算机系助理研究员

图片

在系统方向组里做性能工具研究


金煜阳在本次报告中分享在系统方向组做性能工具研究的经历,介绍了团队背景及个人研究方向的转变,从HPC性能分析与优化到ML系统研究,再回归性能工具开发。通过实际项目,如PerFlow和PerFlow-AI,展示了性能工具在解决实际问题中的重要性。此外,金煜阳还分享了指导超算团队的经验,强调了性能分析在优化中的关键作用。最后,探讨了博士生涯规划、研究方向选择及论文与系统落地的平衡问题。


孙庆骁    中国石油大学(北京)副教授

图片

面向LLM与GNN的稀疏Attention优化对比研究


孙庆骁教授在本次报告介绍了面向LLM与GNN的稀疏Attention优化研究。针对LLM场景,采用BSR与bitmap的两级存储格式,集成Row/Block-wise内核,提高推理效率。对于GNN场景,提出SpG-Attention方法,通过ME-SGA并行算法和内核优化技术,实现高效稀疏图注意力计算。实验结果表明,优化后的方法在推理和训练性能上均有显著提升,尤其在处理高度不规则稀疏图时表现出色。未来,将探索稀疏Attention共性模式,实现内核自动融合与代码生成。


赵 涵  上海交通大学助理教授

图片

基于PD空分复用的SLO保障型大模型推理优化


赵涵教授介绍了基于Prefill-Decode空分复用的LLM推理方法。针对大模型推理中的资源配比与负载动态适配问题,现有范式存在资源浪费、KV Cache命中率下降及多轮对话性能受限等不足。为此,报告提出了Drift系统,通过空分复用技术,在单个节点内共置Prefill与Decode,实现计算资源与内存的解耦,以及PD执行的独立与高效同步。实验表明,该方法在保证TBT SLO的同时,大幅加速了P99 TTFT,提高了有效吞吐,并已并入SGLang主线。


杜江溯   中山大学、国家超级计算广州中心副教授


图片

多层次并行大模型推理优化研究


杜江溯教授围绕多层次大模型推理优化展开,指出模型增大对显存资源的高需求,强调多设备推理必要性,介绍张量并行和流水线并行两种主要方法。针对张量并行中计算通信重叠的挑战,提出基础算法、争用缓解、同步方法及实时内核分解等解决方案。同时,提出PD半分离架构,通过时间分离和轮询调度缓解实例间干扰。最后介绍了多实例协同与扩缩容方法,实现高效推理服务,实验结果显示性能显著提升。

赵 进      华中科技大学副教授

图片

                                   高性能时序图处理技术研究

赵进教授聚焦高性能时序图处理技术,指出时序图在金融、社交网络等领域的广泛应用及动态更新的特性,给数据存储、更新及计算带来挑战。赵进教授介绍了动态图存储及更新方法,通过差异化分层索引与混合数据移动策略提升性能,还提出相似性感知与基于时序依赖链的时序图处理方法,前者通过协调实例遍历行为提高局部性,后者通过解耦时序依赖关系提高并行度,有效解决了时序图处理中的冗余数据访问、数据局部性差及并行度低等问题,显著提升了处理效率。

图片

分享到