在教育部发布会上,港科大(广州)这个项目受瞩目!
3月31日下午,教育部举行新闻发布会,介绍深入贯彻落实《教育强国建设规划纲要(2024—2035年)》,推进语言文字信息化发展情况。会上,教育部语言文字信息管理司司长刘培俊重点介绍了推进语言文字信息化发展和数字中文建设有关情况;教育部语言文字应用管理司副司长王晖针对数智赋能语言文字高质量发展有关情况进行了介绍;广东省教育厅副厅长朱建华着重介绍了广东省推进语言文字信息化的发展情况,及广东省如何实施语言文字智能化的发展思路和行动新范式。
支持香港科技大学(广州)发挥智算集群力量,研发涉及语言知识学习与生成、跨平台交互与服务集成建设的语言服务大语言模型。
——广东省教育厅副厅长 朱建华
在教育部、国家语委的指导下,广东省教育厅按照“五个坚持”的工作思路,深入推进语言文字信息化发展,大力推进教育数字化转型,实现国家语言文字的智能化发展。依托广州大学成立国家语言服务与粤港澳大湾区语言研究中心,香港科技大学(广州)团队承担了国家教育部重大项目“基于国家语言服务大模型的国家语言资源服务一体化平台建设”。项目在党委书记屈哨兵教授的推动下,由信息枢纽院长陈雷教授领衔,香港科技大学(广州)、广州大学、华南师范大学、华中师范大学等多家单位共同参与。项目自2024年启动以来,进展顺利,取得了一系列令人瞩目的阶段性成果。
屈哨兵教授表示,语言文字是人类社会最重要的交际工具和信息载体,是文化的基础要素和鲜明标志。语言文字事业具有基础性、全局性、社会性和全民性特点,事关国民素质提高和人的全面发展,事关历史文化传承和经济社会发展,事关国家统一和民族团结,是国家综合实力的重要支撑 。教育部、国家语委在广州建立了国家语言服务与粤港澳大湾区语言研究中心,建立了语言资源服务平台,如何使这个平台能够在新时期迎头赶上人工智能时代对服务国家服务社会服务教育方面的需求是摆在中心和平台面前的一个重大课题,依托港科大(广州)和广州大学等高校的合作优势,在教育部国家语委的统筹指导下做好建设工作是题中应有之义。他表示,也特别欣赏港科大(广州)这种投入资源服务和支持国家语言文字事业发展的眼光和态度,相信团队合作能够把这个事情做好,为数字中文建设增添新动力。

坚持国家重大需求牵引,筑牢语言服务大模型根基
自项目立项以来,团队在陈雷教授的带领下,深入调研国家语言资源服务一体化平台的需求,结合当前前沿的大语言模型技术,设计并部署了国家语言资源服务一体化平台。该平台目前部署在香港科技大学(广州),采用混合专家模型策略与架构,以多智能体的构建方式,融合了包括 Deepseek-R1(671B)、通义千问、LLaMA等在内的各类大模型底座,推出了国家语言服务大模型 。该大模型架构集成了国家语言资源服务平台的各类资源和知识源,能够实现服务资源的跨平台联动,自动针对不同的服务请求进行智能路由,精准定位语言服务与数据源,并能对模型输出进行推理与溯源,确保回答准确性与专业性。同时,平台形成了完整的评测方案和策略,结合汉语言生活相关学术权威报告构建了国家语言服务领域的标注知识库,可以用于该领域的模型评估与量化分析。
聚焦优化提升,深化模型成果
2024年下半年,项目团队持续发力,对知识库质量与模型调用效果进行深度优化与创新。通过人工标注数据、后台静默埋点、多源知识汇集等多种有效方式,显著提升了国家语言文字专业数据库的质量和服务调用效率。基于上述扎实的研究与积极的进展,团队持续推出了国家语言服务大模型V2.0,并且完成了相关专利的申请和论文的发表。在语言文字信息化和智能化的道路上,平台与知识产权相辅相承,工程与技术创新共同推进。
着眼未来发展,强化平台推广效能
项目团队持续进行平台和技术革新,继续深化国家语言文字的改革与智能化创新,以精益求精的态度不断优化服务调用精度,全力提升平台的稳定性与性能,进一步完善国家语言资源服务一体化平台的建设。同时,随着对语言服务领域实际应用场景的深入研究和持续性成果输出,团队未来将大力推动平台在相关领域与应用场景中的推广与应用,进一步增强平台的影响力与示范效应,为国家语言资源服务领域的发展贡献更多力量。
背景资料
2024年3月3日,国家语委重大科研项目“基于国家语言服务大模型的国家语言资源服务一体化平台建设”开题会暨语言文字信息化工作专家座谈会在香港科技大学(广州)召开。据陈雷教授介绍,项目的目的是要将国家语言资源平台的现有资源通过大语言模型整合打通,服务于更多垂直领域的产品。整个项目响应《“十四五”数字经济发展规划》和国务院印发的《新一代人工智能发展规划》,结合国务院办公厅推出的《关于全面加强新时代语言文字工作的意见》,打造扎实的研究基础,促进语言文化的发展。了解更多>>