陳雷:在港科大(廣州),以大數據研究驅動前沿科技
系列報道「英才訪談」
- 第13篇 -


教授檔案
陳雷教授現任香港科技大學(廣州)信息樞紐數據科學與分析學域主任。他是IEEE(電氣與電子工程師協會)會士,ACM(美國計算機協會)傑出科學家,學術成就廣受業內認可。陳雷教授是IEEE旗下專註計算機領域數據挖掘方向TKDE(Transactions on Knowledge and Data Engineering)期刊主編,VLDB(Very Large Database) Journal前任主編,同時擔任2023年數據庫頂級會議IEEE International Conference on Data Engineering (ICDE)的程序委員會聯席主席,以及VLDB基金會執行委員會秘書長。
數據是什麼樣的?在香港科技大學(廣州)信息樞紐數據科學與分析學域主任陳雷教授看來,數據不是簡單冰冷的數字,而是有着多種形態、可以流動變化的「數據立方體」(Data Cube)。數據中蘊含的信息和價值就像寶藏一般,需要挖掘和開採。在「工業革命4.0」時代,數據科學與分析不僅是一個典型的交叉學科,而且正顯示出驅動前沿科技發展的能量。
從2005年加入香港科技大學,到2019年參與香港科技大學(廣州)的籌設,作為世界數據科學與分析領域的領軍學者,陳雷看到了大數據學科在粵港澳大灣區更為廣闊的研究和應用前景,也在港科大(廣州)這張「白紙」上看到了盡情揮灑的無限可能。
我不喜歡一眼看到頭(predictable)的生活
2005年,陳雷加入香港科技大學。從助理教授、副教授、正教授到講座教授,陳雷的學術道路走得非常順遂。在大數據學科領域,他的研究成果在多個國際頂尖的學術期刊和學術會議上發表,並獲得諸多榮譽,例如:2015年SIGMOD會議『Test-of-Time Award』,獲獎論文(陳雷為第一作者)已被引用超過1500次;2022年VLDB「最佳論文獎」(Best Regular Paper Award)。陳雷帶領團隊獲得多項國家級基金資助,並與華為、微軟等世界知名企業建立了長期合作關係。
同時,在陳雷的帶領下,香港科技大學推出了全香港首個授課型大數據技術課程(MSc of Big Data Technology)。這個項目憑藉雄厚的師資實力、科學合理的課程設置、與業界的緊密合作,已成為港科大最受歡迎、學生就業情況最好的研究生課程之一。
一路順風順水,為什麼要來港科大(廣州)、從零開始?陳雷說,他考慮了兩方面的情況。「大概從2018、2019年開始,我就感覺到,內地城市、特別是科技企業比較集中的城市,公眾對數據智能化的接受程度很高。這樣的環境下,數據來源非常豐富,為研究提供了堅實基礎,也孕育出很多研究課題。」陳雷說,舉個簡單的例子,香港至今還有很多場所是不接受電子支付的,只收實體貨幣;但在內地,電子支付已經成為常態。相比之下,電子支付的廣泛應用可以產生大量的消費數據,對其進行挖掘,能夠對消費者的行為模式進行更精準的分析。
「同時,來自產業的需求也在急速增加。不僅騰訊、阿里巴巴等互聯網頭部企業重視大數據,很多傳統行業的企業也在做數字化轉型,他們都希望與高校開展聯合科研,也願意為學生提供實習機會。我當時就想,如果在內地、特別是在大灣區的內地城市有一個平台,開展科研、交流、學生培養,會便利得多,很多想法也可以落地實現。」陳雷說,因此,在2019年,港科大(廣州)創新的融合學術架構尚在討論和完善之時,他就義無反顧地加入了籌建團隊。
「我不喜歡predictable的生活。」陳雷說,在港科大(廣州),有任何想法都可以立刻放手去做。這裡平台廣闊,機會無限。

以數據驅動跨學科研究 創下建校以來多個「第一」
從加入港科大(廣州)至今,陳雷帶領團隊,為學校實現了許多「第一次」的突破。
2021年8月,陳雷率領團隊為仍在籌建中的港科大(廣州)贏得了數據庫領域國際頂級會議VLDB的2024年主辦權。這將是港科大(廣州)首次承辦頂級學術會議,也將是VLDB會議第二次到中國內地舉辦。2022年,陳雷主持申報的「多模態數據驅動與知識融合的可解釋性知識圖譜推理技術」項目獲得2022年度國家自然科學基金重點支持項目—企業創新發展聯合基金資助,資助經費(直接經費部分)254萬元。這是香港科技大學(廣州)首次獲得國家自然科學基金該類型項目的資助。
香港科技大學(廣州)融合學科的學術架構也為數據科學開闢了新的可能性。「比如,碳捕集與封存研究,需要尋找合適的材料。傳統的研究方法是將碳捕集的材料拿到實驗室測試,以了解它的性能和應用效果,時間和經費成本都比較高。我和社會樞紐的李佳教授一起討論,正在嘗試用數據驅動、用AI來模擬和預測碳捕集材料的性能,不僅可以節約時間金錢,還能尋求最優解。」陳雷介紹,所謂的「數據驅動」,就在於AI的模擬並不是「無中生有」,而是要先用數據增強的方式,讓AI去學習此前積累的數據,才能進行科學的模擬和預測。沒有數據的支撐,人工智能、模擬測算都將會是無源之水。
數據驅動前沿科技發展,也體現在人工智能等多個領域。陳雷介紹,以目前最「火」的Chat GPT為例,就是用海量數據預訓練模型,讓人工智能具備了分析、處理信息,與人進行實時、複雜的互動的能力。另一方面,數據又制約着人工智能的能力邊界。「比如,Chat GPT所用的訓練數據只截止到2021年,所以AI的『知識』也就只到2021年,這從另一個方面凸顯了數據在人工智能學科中的基礎性作用。」
陳雷團隊與上海交通大學團隊合作,目前正在進行一項「大數據+金融科技」的跨學科研究項目——智能量化交易。以先進的數學模型替代人為的主觀判斷,通過對歷史數據的學習來制定投資策略。「公司發佈的所有信息,包括財報、公告、新聞報道,都被納入動態知識圖譜的表徵學習,隨着市場的動態不斷更新。」陳雷介紹。
「數據科學的魅力,也正在於它是不可預知的(unpredictable)。」陳雷說,物理、化學等基礎學科的很多問題有「唯一解」,但數據科學沒有「唯一解」,而是永遠在尋找「最優解」。

學域師資強大背景多元 今年首招本科生
目前,數據科學與分析學域已招聘到15位全職教授,成為港科大(廣州)目前發展最快的學域之一,而且師資背景多元,實力雄厚。
比如,褚曉文教授的研究興趣在 GPU 計算、分佈式機器學習、雲計算和無線網絡等方面,近年來特別關注高性能機器學習,取得了一系列有影響力的成果。羅瓊教授對人工智能在科學上的應用(AI for science),科學數據處理(Scientific Data)的研究非常深入。王煒教授研究方向是高維數據建模和查詢,數據庫與人工智能技術融合(DB+AI),知識圖譜和自然語言處理等,發表了多篇高水平論文。
「招募優秀人才的時候,我常說,這裡是一張白紙,請大家一起來創業!」陳雷說。而讓老師們感到驚喜的是,越接觸港科大(廣州),越能感受到學校對人才的重視和全方位支持。學校提供了充足的科研啟動經費、充分的實驗室場地,大型高性能計算機服務器等設備,為數據科學相關科研的順利開展奠定了堅實的基礎。學校的人才服務處、人力資源處、科研處等行政部門為相關的人才、科研項目申報提供專業協助。生活方面,學校對教授們的關懷也細緻入微。
陳雷談到,國家高度重視、大力支持粵港澳大灣區的發展,而且大灣區已經具備了全產業鏈的應用環境,這裡的創新活力正在吸引全世界的優秀人才。在這樣的環境中,科研工作者很容易找到自身研究興趣和產業結合的突破口,從而擴大科研的影響力。「科研成果影響大眾生活帶來滿足感和發表學術論文帶來的滿足感是不一樣的。我相信,處於大灣區核心的港科大(廣州)能夠提供這樣的機會。」
2023年,港科大(廣州)將面向廣東、河南、山東、四川等4個內地省份,以及中國港澳台地區招收本科生。「數據科學與大數據技術」是我校首批招收本科生的三個專業之一。
陳雷介紹,學域踐行港科大(廣州)的「跨學科」理念,緊扣社會和產業的發展需求,讓學生有更多到產業界學習和實踐的機會。目前,數據科學與分析學域已吸納約20位來自業界的導師,包括來自阿里巴巴、京東、騰訊、位元組跳動、貝殼、微軟、韓國電信等知名企業的技術專家及高級管理人員。
去年9月29日,香港科技大學(廣州)與中國移動通信集團廣東有限公司廣州分公司簽署戰略合作簽約儀式。如今,雙方的合作即將瓜熟蒂落,元宇宙聯合創新實驗室近日即將掛牌。陳雷正是這一實驗室的領軍科學家。

同時,陳雷團隊也向學校的教務委員會(Senate)提交了Data-Centric Artificial Intelligence 的授課式研究生項目計劃。不同於美國、英國及中國香港地區等普遍一年的授課制研究生項目,該項目計劃讓學生第一年在學校進行數據科學和AI等相關知識的學習,第二年到業界跟隨產業導師學習。
對於有意報考數據科學專業的同學,陳雷給出了建議。「希望學生有比較紮實的數學基礎,對數據感興趣,比如數據的模式(pattern)、數據的關聯(linkage)、數據的組合優化,等等。更希望學生有科學挑戰的精神,我們一起去發掘數據的寶藏!」
「科技是第一生產力、人才是第一資源、創新是第一動力,深入實施科教興國戰略、人才強國戰略、創新驅動發展戰略,開闢發展新領域新賽道,不斷塑造發展新動能新優勢。」這是國家重大戰略方向和部署。
國之所需,吾之所向。香港科技大學(廣州)長期面向全球招聘領軍學者、青年英才。歡迎有志之士加入我校,共同創建「中國特色、世界一流」的高水平大學!