港科大(广州)斩获国际顶会EuroSys最佳论文奖,中国高校高性能计算研究再突破
2025年3月30日至4月3日,计算机系统领域CCF A类国际顶会EuroSys在荷兰鹿特丹召开。香港科技大学(广州)信息枢纽数据科学与分析学域高性能机器学习实验室的研究成果《SpInfer:利用低稀疏度在GPU上实现高效LLM推理》从全球696篇投稿中脱颖而出,获评EuroSys 2025最佳论文奖,成为中国大陆及港澳地区高校中第三篇获此殊荣的论文(前两篇分别由上海交通大学团队于2015年、2024年完成)。
该研究针对大语言模型(LLM)推理效率难题,创新性地提出一个专为GPU上的稀疏化LLM推理设计的高性能框架,首次将非结构化剪枝的理论优势有效转化为LLM推理的实际性能提升。本届EuroSys投稿量同比激增42%,录用率仅为12.4%,最终仅评选出2项最佳论文奖,其学术含金量可见一斑。
此次获奖标志着港科大(广州)在计算机系统领域实现重要突破。作为建校不足三年的新兴科研力量,我校已在高性能计算、AI系统优化等方向形成鲜明特色,展现出强劲的学术竞争力。

ACM EuroSys (The European Conference on Computer Systems) 是计算机系统领域的国际顶级学术会议,也是中国计算机学会推荐的A类国际学术会议(CCF A),主要关注计算机系统领域的研究与实践,主要包括操作系统、数据库系统、实时系统、网络中间件、分布式、并行或嵌入式计算系统等领域。自2006年创办以来,ACM EuroSys已经出版了众多具有深远影响的学术论文,在国际学术界与工业界形成了广泛影响。
最佳论文奖

论文信息
题目:SpInfer:利用低稀疏度在 GPU 上实现高效的LLM推理
链接:https://dl.acm.org/doi/10.1145/3689031.3717481
论文简介

大语言模型(LLM)展现出了卓越的能力,但其庞大规模在内存和计算成本方面带来重大挑战。虽然非结构化剪枝通过引入稀疏性来减少资源需求提供了有希望的解决方案,但在LLM推理中实现其优势仍然面临困难。这主要是由于索引非零元素的存储开销,以及在低稀疏度(约50%)时稀疏矩阵乘法(SpMM)核心的低效率。
本文提出了SpInfer,这是一个专为GPU上的稀疏化LLM推理设计的高性能框架。SpInfer引入了面向Tensor Core的位图编码(TCA-BME),这是一种新型稀疏格式,通过利用高效的基于位图的索引来最小化索引开销,并为GPU Tensor Core架构优化。此外,SpInfer集成了具有共享内存位图解码(SMBD)的优化SpMM核心和异步流水线设计,以提高计算效率。
实验结果表明,SpInfer在不同稀疏度(30%至70%)下显著优于最先进的SpMM实现(分别比Flash-LLM和SparTA快至2.14倍和2.27倍),在内存效率和端到端推理速度方面都有显著提升(快至1.58倍)。在稀疏度低至30%时,SpInfer就能超越高度优化的cuBLAS,这标志着首次将非结构化剪枝的理论优势有效转化为LLM推理的实际性能提升。
作者信息
- 范睿博,三年级博士生, 香港科技大学(广州)数据科学与分析学域,高性能机器学习实验室;
- 余湘锐,二年级硕士生, 香港科技大学(广州)数据科学与分析学域;
- 董佩杰,二年级博士生, 香港科技大学(广州)数据科学与分析学域,高性能机器学习实验室;
- 李泽宇,二年级博士生, 香港科技大学(广州)数据科学与分析学域,高性能机器学习实验室;
- 巩固,二年级硕士生, 香港科技大学(广州)数据科学与分析学域;
- 王强,副教授,哈尔滨工业大学(深圳)计算机科学与技术学院;
- 王威,副教授,香港科技大学计算机科学与工程系;
- 褚晓文,教授,香港科技大学(广州)数据科学与分析学域,高性能机器学习实验室。
第一作者简介

范睿博,香港科技大学(广州)数据科学与分析学域的三年级博士生(PhD candidate),师从褚晓文教授与王威教授。目前论文被EuroSys、ASPLOS、ICLR、IPDPS等国际顶级会议接收。研究方向为高性能计算,重点聚焦GPU架构性能优化领域。目前主要致力于利用现代GPU架构加速稀疏矩阵运算和大模型推理的相关研究。
曾于2019-2022年在北京大学前沿交叉学科研究院获得硕士学位,本科阶段(2015-2019年)就读于华中科技大学人工智能与自动化学院。
研究愿景是弥合计算机体系结构理论与实际性能优化之间的鸿沟,通过设计能充分发挥现代硬件效能的计算系统,为人工智能、科学计算及大数据处理等领域提供更高效的解决方案。
导师简介

褚晓文,本科毕业于清华大学计算机科学与技术系,博士毕业于香港科技大学计算机科学系;2003年起在香港浸会大学计算机科学系任职助理教授、副教授、正教授;2021年加入香港科技大学(广州)数据科学与分析学域任职正教授,现担任该学域主任;国家重大人才工程入选者。
主要科学研究领域包括分布式系统、高性能计算、机器学习系统、无线网络等,已在国际学术期刊和会议发表学术论文270余篇;谷歌H-index为64,论文引用13900余次;曾获得2025年EuroSys、2024年FL@FM-NeurIPS、2021年IEEE INFOCOM、2021年DASFAA-MUST、2020年IEEE GreenCom、2018年IEEE DataCom、2015年BigCom,以及2010年IEEE CIT等国际会议/研讨会的最佳论文奖;担任或曾担任SCI国际期刊IEEE Transactions on Network Science and Engineering、IEEE Transactions on Cloud Computing、IEEE Internet of Things Journal、IEEE Transactions on Big Data、IEEE Network、IEEE Transactions on Industrial Informatics、ACM/Springer MONET的副编委或客座编委;担任IEEE MetaCom 2025、IEEE/ACM IWQoS 2024、BigCom 2023、GreenCom 2022、HPCC 2021、DSS 2020、Qshine 2019等国际会议的大会主席或程序委员会主席;曾任中国通信学会区块链专业委员会副主任委员;连续多年入选美国斯坦福大学发布的全球前2%顶尖科学家榜单;因在高效通信的分布式机器学习算法方面的贡献当选2025年IEEE Fellow;2025年当选亚太人工智能学会(AAIA)会士。