陈雷:在港科大(广州),以大数据研究驱动前沿科技

系列报道“英才访谈”

- 第13篇 -

教授档案

陈雷教授现任香港科技大学(广州)信息枢纽数据科学与分析学域主任。他是IEEE(电气与电子工程师协会)会士,ACM(美国计算机协会)杰出科学家,学术成就广受业内认可。陈雷教授是IEEE旗下专注计算机领域数据挖掘方向TKDE(Transactions on Knowledge and Data Engineering)期刊主编,VLDB(Very Large Database) Journal前任主编,同时担任2023年数据库顶级会议IEEE International Conference on Data Engineering (ICDE)的程序委员会联席主席,以及VLDB基金会执行委员会秘书长。

数据是什么样的?在香港科技大学(广州)信息枢纽数据科学与分析学域主任陈雷教授看来,数据不是简单冰冷的数字,而是有着多种形态、可以流动变化的“数据立方体”(Data Cube)。数据中蕴含的信息和价值就像宝藏一般,需要挖掘和开采。在“工业革命4.0”时代,数据科学与分析不仅是一个典型的交叉学科,而且正显示出驱动前沿科技发展的能量。

从2005年加入香港科技大学,到2019年参与香港科技大学(广州)的筹设,作为世界数据科学与分析领域的领军学者,陈雷看到了大数据学科在粤港澳大湾区更为广阔的研究和应用前景,也在港科大(广州)这张“白纸”上看到了尽情挥洒的无限可能。

我不喜欢一眼看到头(predictable)的生活

2005年,陈雷加入香港科技大学。从助理教授、副教授、正教授到讲座教授,陈雷的学术道路走得非常顺遂。在大数据学科领域,他的研究成果在多个国际顶尖的学术期刊和学术会议上发表,并获得诸多荣誉,例如:2015年SIGMOD会议‘Test-of-Time Award’,获奖论文(陈雷为第一作者)已被引用超过1500次;2022年VLDB“最佳论文奖”(Best Regular Paper Award)。陈雷带领团队获得多项国家级基金资助,并与华为、微软等世界知名企业建立了长期合作关系。

同时,在陈雷的带领下,香港科技大学推出了全香港首个授课型大数据技术课程(MSc of Big Data Technology)。这个项目凭借雄厚的师资实力、科学合理的课程设置、与业界的紧密合作,已成为港科大最受欢迎、学生就业情况最好的研究生课程之一。

一路顺风顺水,为什么要来港科大(广州)、从零开始?陈雷说,他考虑了两方面的情况。“大概从2018、2019年开始,我就感觉到,内地城市、特别是科技企业比较集中的城市,公众对数据智能化的接受程度很高。这样的环境下,数据来源非常丰富,为研究提供了坚实基础,也孕育出很多研究课题。”陈雷说,举个简单的例子,香港至今还有很多场所是不接受电子支付的,只收实体货币;但在内地,电子支付已经成为常态。相比之下,电子支付的广泛应用可以产生大量的消费数据,对其进行挖掘,能够对消费者的行为模式进行更精准的分析。

“同时,来自产业的需求也在急速增加。不仅腾讯、阿里巴巴等互联网头部企业重视大数据,很多传统行业的企业也在做数字化转型,他们都希望与高校开展联合科研,也愿意为学生提供实习机会。我当时就想,如果在内地、特别是在大湾区的内地城市有一个平台,开展科研、交流、学生培养,会便利得多,很多想法也可以落地实现。”陈雷说,因此,在2019年,港科大(广州)创新的融合学术架构尚在讨论和完善之时,他就义无反顾地加入了筹建团队。

“我不喜欢predictable的生活。”陈雷说,在港科大(广州),有任何想法都可以立刻放手去做。这里平台广阔,机会无限。

2022年,在悉尼举办的数据库领域国际顶级会议VLDB 2022上,陈雷及其团队的学术论文获得大会最佳研究论文奖。图为陈雷代表项目团队做特邀报告

以数据驱动跨学科研究 创下建校以来多个“第一”

从加入港科大(广州)至今,陈雷带领团队,为学校实现了许多“第一次”的突破。

2021年8月,陈雷率领团队为仍在筹建中的港科大(广州)赢得了数据库领域国际顶级会议VLDB的2024年主办权。这将是港科大(广州)首次承办顶级学术会议,也将是VLDB会议第二次到中国内地举办。2022年,陈雷主持申报的“多模态数据驱动与知识融合的可解释性知识图谱推理技术”项目获得2022年度国家自然科学基金重点支持项目—企业创新发展联合基金资助,资助经费(直接经费部分)254万元。这是香港科技大学(广州)首次获得国家自然科学基金该类型项目的资助。

香港科技大学(广州)融合学科的学术架构也为数据科学开辟了新的可能性。“比如,碳捕集与封存研究,需要寻找合适的材料。传统的研究方法是将碳捕集的材料拿到实验室测试,以了解它的性能和应用效果,时间和经费成本都比较高。我和社会枢纽的李佳教授一起讨论,正在尝试用数据驱动、用AI来模拟和预测碳捕集材料的性能,不仅可以节约时间金钱,还能寻求最优解。”陈雷介绍,所谓的“数据驱动”,就在于AI的模拟并不是“无中生有”,而是要先用数据增强的方式,让AI去学习此前积累的数据,才能进行科学的模拟和预测。没有数据的支撑,人工智能、模拟测算都将会是无源之水。

数据驱动前沿科技发展,也体现在人工智能等多个领域。陈雷介绍,以目前最“火”的Chat GPT为例,就是用海量数据预训练模型,让人工智能具备了分析、处理信息,与人进行实时、复杂的互动的能力。另一方面,数据又制约着人工智能的能力边界。“比如,Chat GPT所用的训练数据只截止到2021年,所以AI的‘知识’也就只到2021年,这从另一个方面凸显了数据在人工智能学科中的基础性作用。”

陈雷团队与上海交通大学团队合作,目前正在进行一项“大数据+金融科技”的跨学科研究项目——智能量化交易。以先进的数学模型替代人为的主观判断,通过对历史数据的学习来制定投资策略。“公司发布的所有信息,包括财报、公告、新闻报道,都被纳入动态知识图谱的表征学习,随着市场的动态不断更新。”陈雷介绍。

“数据科学的魅力,也正在于它是不可预知的(unpredictable)。”陈雷说,物理、化学等基础学科的很多问题有“唯一解”,但数据科学没有“唯一解”,而是永远在寻找“最优解”。

陈雷在“生成式人工智能在教学中的运用”学术研讨会上发表观点

学域师资强大背景多元 今年首招本科生

目前,数据科学与分析学域已招聘到15位全职教授,成为港科大(广州)目前发展最快的学域之一,而且师资背景多元,实力雄厚。

比如,褚晓文教授的研究兴趣在 GPU 计算、分布式机器学习、云计算和无线网络等方面,近年来特别关注高性能机器学习,取得了一系列有影响力的成果。罗琼教授对人工智能在科学上的应用(AI for science),科学数据处理(Scientific Data)的研究非常深入。王炜教授研究方向是高维数据建模和查询,数据库与人工智能技术融合(DB+AI),知识图谱和自然语言处理等,发表了多篇高水平论文。

“招募优秀人才的时候,我常说,这里是一张白纸,请大家一起来创业!”陈雷说。而让老师们感到惊喜的是,越接触港科大(广州),越能感受到学校对人才的重视和全方位支持。学校提供了充足的科研启动经费、充分的实验室场地,大型高性能计算机服务器等设备,为数据科学相关科研的顺利开展奠定了坚实的基础。学校的人才服务处、人力资源处、科研处等行政部门为相关的人才、科研项目申报提供专业协助。生活方面,学校对教授们的关怀也细致入微。

陈雷谈到,国家高度重视、大力支持粤港澳大湾区的发展,而且大湾区已经具备了全产业链的应用环境,这里的创新活力正在吸引全世界的优秀人才。在这样的环境中,科研工作者很容易找到自身研究兴趣和产业结合的突破口,从而扩大科研的影响力。“科研成果影响大众生活带来满足感和发表学术论文带来的满足感是不一样的。我相信,处于大湾区核心的港科大(广州)能够提供这样的机会。”

2023年,港科大(广州)将面向广东、河南、山东、四川等4个内地省份,以及中国港澳台地区招收本科生。“数据科学与大数据技术”是我校首批招收本科生的三个专业之一。

陈雷介绍,学域践行港科大(广州)的“跨学科”理念,紧扣社会和产业的发展需求,让学生有更多到产业界学习和实践的机会。目前,数据科学与分析学域已吸纳约20位来自业界的导师,包括来自阿里巴巴、京东、腾讯、字节跳动、贝壳、微软、韩国电信等知名企业的技术专家及高级管理人员。

去年9月29日,香港科技大学(广州)与中国移动通信集团广东有限公司广州分公司签署战略合作签约仪式。如今,双方的合作即将瓜熟蒂落,元宇宙联合创新实验室近日即将挂牌。陈雷正是这一实验室的领军科学家。

​右一为陈雷

同时,陈雷团队也向学校的教务委员会(Senate)提交了Data-Centric Artificial Intelligence 的授课式研究生项目计划。不同于美国、英国及中国香港地区等普遍一年的授课制研究生项目,该项目计划让学生第一年在学校进行数据科学和AI等相关知识的学习,第二年到业界跟随产业导师学习。

对于有意报考数据科学专业的同学,陈雷给出了建议。“希望学生有比较扎实的数学基础,对数据感兴趣,比如数据的模式(pattern)、数据的关联(linkage)、数据的组合优化,等等。更希望学生有科学挑战的精神,我们一起去发掘数据的宝藏!”

“科技是第一生产力、人才是第一资源、创新是第一动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略,开辟发展新领域新赛道,不断塑造发展新动能新优势。”这是国家重大战略方向和部署。

国之所需,吾之所向。香港科技大学(广州)长期面向全球招聘领军学者、青年英才。欢迎有志之士加入我校,共同创建“中国特色、世界一流”的高水平大学!

发布日期
2023年03月21日
分类
科广人物
分享到