港科大(廣州)斬獲國際頂會EuroSys最佳論文獎,中國高校高性能計算研究再突破

2025年3月30日至4月3日,計算機系統領域CCF A類國際頂會EuroSys在荷蘭鹿特丹召開。香港科技大學(廣州)信息樞紐數據科學與分析學域高性能機器學習實驗室的研究成果《SpInfer:利用低稀疏度在GPU上實現高效LLM推理》從全球696篇投稿中脫穎而出,獲評EuroSys 2025最佳論文獎成為中國大陸及港澳地區高校中第三篇獲此殊榮的論文(前兩篇分別由上海交通大學團隊於2015年、2024年完成)。

該研究針對大語言模型(LLM)推理效率難題,創新性地提出一個專為GPU上的稀疏化LLM推理設計的高性能框架,首次將非結構化剪枝的理論優勢有效轉化為LLM推理的實際性能提升。本屆EuroSys投稿量同比激增42%,錄用率僅為12.4%,最終僅評選出2項最佳論文獎,其學術含金量可見一斑。

此次獲獎標誌着港科大(廣州)在計算機系統領域實現重要突破。作為建校不足三年的新興科研力量,我校已在高性能計算、AI系統優化等方向形成鮮明特色,展現出強勁的學術競爭力。

ACM EuroSys (The European Conference on Computer Systems) 是計算機系統領域的國際頂級學術會議,也是中國計算機學會推薦的A類國際學術會議(CCF A),主要關注計算機系統領域的研究與實踐,主要包括操作系統、數據庫系統、實時系統、網絡中間件、分佈式、並行或嵌入式計算系統等領域。自2006年創辦以來,ACM EuroSys已經出版了眾多具有深遠影響的學術論文,在國際學術界與工業界形成了廣泛影響。

最佳論文獎

論文信息

題目:SpInfer:利用低稀疏度在 GPU 上實現高效的LLM推理

鏈接:https://dl.acm.org/doi/10.1145/3689031.3717481

論文簡介

大語言模型(LLM)展現出了卓越的能力,但其龐大規模在內存和計算成本方面帶來重大挑戰。雖然非結構化剪枝通過引入稀疏性來減少資源需求提供了有希望的解決方案,但在LLM推理中實現其優勢仍然面臨困難。這主要是由於索引非零元素的存儲開銷,以及在低稀疏度(約50%)時稀疏矩陣乘法(SpMM)核心的低效率。

本文提出了SpInfer,這是一個專為GPU上的稀疏化LLM推理設計的高性能框架。SpInfer引入了面向Tensor Core的位圖編碼(TCA-BME),這是一種新型稀疏格式,通過利用高效的基於位圖的索引來最小化索引開銷,並為GPU Tensor Core架構優化。此外,SpInfer集成了具有共享內存位圖解碼(SMBD)的優化SpMM核心和異步流水線設計,以提高計算效率。

實驗結果表明,SpInfer在不同稀疏度(30%至70%)下顯著優於最先進的SpMM實現(分別比Flash-LLM和SparTA快至2.14倍和2.27倍),在內存效率和端到端推理速度方面都有顯著提升(快至1.58倍)。在稀疏度低至30%時,SpInfer就能超越高度優化的cuBLAS,這標誌着首次將非結構化剪枝的理論優勢有效轉化為LLM推理的實際性能提升。

作者信息

  • 范睿博,三年級博士生, 香港科技大學(廣州)數據科學與分析學域,高性能機器學習實驗室;
  • 余湘銳,二年級碩士生, 香港科技大學(廣州)數據科學與分析學域;
  • 董佩傑,二年級博士生, 香港科技大學(廣州)數據科學與分析學域,高性能機器學習實驗室;
  • 李澤宇,二年級博士生, 香港科技大學(廣州)數據科學與分析學域,高性能機器學習實驗室;
  • 鞏固,二年級碩士生, 香港科技大學(廣州)數據科學與分析學域;
  • 王強,副教授,哈爾濱工業大學(深圳)計算機科學與技術學院;
  • 王威,副教授,香港科技大學計算機科學與工程系;
  • 褚曉文,教授,香港科技大學(廣州)數據科學與分析學域,高性能機器學習實驗室。

第一作者簡介

范睿博,香港科技大學(廣州)數據科學與分析學域的三年級博士生(PhD candidate),師從褚曉文教授與王威教授。目前論文被EuroSys、ASPLOS、ICLR、IPDPS等國際頂級會議接收。研究方向為高性能計算,重點聚焦GPU架構性能優化領域。目前主要致力於利用現代GPU架構加速稀疏矩陣運算和大模型推理的相關研究。

曾於2019-2022年在北京大學前沿交叉學科研究院獲得碩士學位,本科階段(2015-2019年)就讀於華中科技大學人工智能與自動化學院。

研究願景是彌合計算機體系結構理論與實際性能優化之間的鴻溝,通過設計能充分發揮現代硬件效能的計算系統,為人工智能、科學計算及大數據處理等領域提供更高效的解決方案。

導師簡介

褚曉文,本科畢業於清華大學計算機科學與技術系,博士畢業於香港科技大學計算機科學系;2003年起在香港浸會大學計算機科學系任職助理教授、副教授、正教授;2021年加入香港科技大學(廣州)數據科學與分析學域任職正教授,現擔任該學域主任;國家重大人才工程入選者。

主要科學研究領域包括分佈式系統、高性能計算、機器學習系統、無線網絡等,已在國際學術期刊和會議發表學術論文270餘篇;谷歌H-index為64,論文引用13900餘次;曾獲得2025年EuroSys、2024年FL@FM-NeurIPS、2021年IEEE INFOCOM、2021年DASFAA-MUST、2020年IEEE GreenCom、2018年IEEE DataCom、2015年BigCom,以及2010年IEEE CIT等國際會議/研討會的最佳論文獎;擔任或曾擔任SCI國際期刊IEEE Transactions on Network Science and Engineering、IEEE Transactions on Cloud Computing、IEEE Internet of Things Journal、IEEE Transactions on Big Data、IEEE Network、IEEE Transactions on Industrial Informatics、ACM/Springer MONET的副編委或客座編委;擔任IEEE MetaCom 2025、IEEE/ACM IWQoS 2024、BigCom 2023、GreenCom 2022、HPCC 2021、DSS 2020、Qshine 2019等國際會議的大會主席或程序委員會主席;曾任中國通信學會區塊鏈專業委員會副主任委員;連續多年入選美國斯坦福大學發佈的全球前2%頂尖科學家榜單;因在高效通信的分佈式機器學習算法方面的貢獻當選2025年IEEE Fellow;2025年當選亞太人工智能學會(AAIA)會士。

發佈日期
2025年04月10日
分類
科廣新聞
分享到