港科大(廣州)HPC AI融合智算中心上線試運行!
9月25日,香港科技大學(廣州)HPC AI融合智算中心(以下簡稱「智算中心」)已完成聯調測試,並正式投入試運行。
當前,AIGC應用正以驚人的速度發展,2018至2022年,大模型參數量從1億飆升至5400億。毫無疑問,AIGC憑藉強大能力驚艷全世界的背後,是超大算力的加持。
算力,成了最稀缺、最緊俏的「新資源」。
擁抱前沿,快人一步
AIGC涉足教育行業的潛力不容忽視。今年6月初,香港科技大學(廣州)宣布,GPT服務已經完成聯調測試並正式上線,服務全校教職工及學生。作為國內率先在校內全面啟用GPT服務的大學,港科大(廣州)以「敢為天下先」的擔當,擁抱科研進步,投身科研研發更是題中應有之義。

港科大(廣州)推出的GPT-4和ChatGPT服務,正是學校主動擁抱前沿科技,積極探索推動教學、科研及行政管理髮展新方式的有力印證。
無論是AIGC,還是各科研領域的計算分析,都依賴於高質量、成規模的算力。為進一步滿足全校師生科研工作的需求,HPC AI融合智算中心的規劃應運而生。
國際視野,中國速度
莫道君行早,更有早行人。校長特別助理、校長辦公室主任李斌博士談到智算中心從藍圖到運營的過程,感慨頗深。早在2022年年中,港科大(廣州)開學前,倪明選校長在全盤深入思考學校信息化基建工作時,就對算力給予了高度重視。據校長特別助理、校辦主任李斌博士介紹,倪明選校長指出,「首先,作為一所全新的科技大學,信息化設施必須立足於學校的科研和教學需求,採用最先進的技術和設備,以確保在基礎設施建設上處於世界前列;其次,學校要充分利用第三方供應商的成熟資源,汲取百家之長、融會貫通,構建具有港科大(廣州)特色和優勢的信息化基礎設施;第三,要避免資源分散,由學校統籌建設和運營校級一體化的綜合信息化服務平台,為全校師生員工提供服務;第四,要做到綠色環保和低碳清潔。」

9月8日,HPC+AI融合智算中心上線儀式暨元宇宙聯合創新實驗室啟用典禮在香港科技大學(廣州)隆重舉行。
在去年9月學校開學之際,在倪明選校長的倡導下,學校決策:啟動智算中心項目,拓展學校科研算力。校長特別助理、校長辦公室主任李斌博士牽頭統籌該項目,資訊科技處、學校的多個學術部門及科研團隊共同參與該項目。彼時,ChatGPT還沒有震驚世界,算力需求噴發的局面也尚未成型。而正是港科廣管理團隊極富國際視野和前瞻性的「提前落子」,讓學校智算中心在起步階段佔據了一定先發優勢。校長辦公室資訊科技處 (ITD) 處長吳剛忍不住感慨:學校又一次「踩對了節奏」。

資訊科技處(ITD)處長吳剛在巡視智算中心機房
篳路藍縷,以啟山林。雖然啟動較早,但要一步步從底層AI平台的搭建、算力的分配、集成系統的研發、數據中心的施工到聯調測試、正式運行,離不開中國移動、華為、華三等多個校外合作方和校內多個科研團隊的內外部通力合作。其中,信息樞紐院長陳雷教授帶領團隊與學校資訊科技處(ITD)相互配合,進行了深入的算力調研和評估工作,並制定了具體的算力需求指標。同時,團隊還對學校的智算中心集群進行了測試,發現其集群性能出色,在擴散模型訓練等方面表現高效。據陳雷教授透露,元宇宙課室的課程設計和開發的課件也將在第二階段放到智算中心——即元宇宙課程系統雲化。
在智算中心的建設過程中,算力需求井噴,可調度資源緊張,最終能夠按時完成智算中心的搭建和運營,是「中國速度」在香港科技大學(廣州)的再一次體現。
灣區領先,國內一流
香港科技大學(廣州)智算中心擁有強大的計算能力和出色的穩定性,具有高度可擴展性,支持多機多卡、管理異構。核心算力包括通用HPC AI平台和國產AI平台兩大部分:其中,通用HPC AI平台理論算力達到6.35PFlops@FP64,算力組成涵蓋英特爾CPU 14656核、AMD CPU 2560核、NVIDIA A800 GPU卡520張及NVIDIA A40 GPU卡120張,配套內存2.3PB、數據存儲包含SSD 309TB和HDD 3.9PB;國產AI平台理論算力達到19.04PFlops@FP16,算力組成涵蓋ARM CPU 1728核、Atlas 300T Pro GPU卡64張,Atlas 300V Pro GPU卡16張,配套內存1.5TB、數據存儲772TB。

通過智算中心,用戶可快速處理海量數據,進行複雜的科學計算和工程模擬,更好地支持校園師生及科研團隊快速開展科研、教學活動。這樣的綜合算力水平、中外技術融合的多元化平台,讓港科大(廣州)智算中心達到了大灣區領先、國內一流的水平。

但這僅僅只是香港科技大學(廣州)對智算中心發展規劃的第一步,未來從硬件上,學校獨立的數據中心正在進行內部改造,中心可容納算力是目前算力的6-8倍;從軟件上,學校資訊科技處(ITD)也將聯合校內科研團隊和校外合作方,打造適配不同科研需求的算力模型平台,讓這些來之不易的算力能夠最大化、最方便地助力學校乃至整個大灣區的科研需求。
規範管理,多元發展
為了保障智算中心資源得到合理分配及有效利用,學校資訊科技處(ITD)已經做了多方面的準備:通過測試階段已經運行的2400多個任務,智算中心的知識庫已經初具雛形,可以幫助使用團隊了解相關資源信息和規範;同時對於算力資源的管理辦法也同步實施,保障智算中心的有效和穩定運行。

據介紹,本周三,學校資訊科技處(ITD)將聯合校內專家及合作夥伴,組織智算中心宣講暨首次培訓會,也同步組建了HPC AI融合智算中心微信群方便校內各科研團隊進行交流討論。

在智算中心的「任務清單」里,試運行只是一個開始,快速組建運營團隊,年底實現「適配性升級」,不斷針對不同的科研課題優化模型、完善使用體驗,繼續擴大算力規模、打造服務灣區科研的超算中心……這些新任務、新挑戰又將接踵而至,但在「凡事皆可為」的科大精神鼓勵下,香港科技大學(廣州)的每一位成員,都在向著挑戰與機遇並存的人工智能時代,乘風破浪,不斷前行。