港科大(广州)牵头完成语言服务大语言模型(1.0)

日前,由国家语言资源监测与研究中心指导、中国传媒大学和商务印书馆主办的“中国语言生活皮书”编纂二十周年暨第四届中国语言生活学术研讨会在中国传媒大学举行。本次会议上,香港科技大学(广州)作为牵头单位,正式对外发布了语言服务大语言模型(1.0)。

语言服务大语言模型(1.0)是国家语言文字科研项目的阶段性成果,由香港科技大学(广州)牵头完成,简称“语服通大语言模型”,意指语言服务通。该大语言模型面向国家语言服务体系构建的实际需求,聚焦多源异构语言数据与复杂中文语境,打造了服务可集成、知识可溯源的一体化大模型,为国家语言服务体系的智能化建设提供了应用示范。

项目带头人屈哨兵教授、陈雷教授与项目团队

在服务层面,该大语言模型集成了国家语言资源服务平台的各类语言资源与知识源,支持跨平台资源访问与服务联动,实现了平台内资源的集成与智能调度。系统能够自动识别不同的服务请求类型,智能路由至相应的数据源和语言服务模块,完成请求解析、资源调用与结果生成全过程,不仅具备语言知识问答能力,更能在语言研究、教育教学、政务传播等垂直领域中提供专业支持。

在知识层面,该大语言模型依托国家语言生活知识库,实现了回答内容的可溯源与可验证。在回答问题时能够基于文献原文进行推理和引用,并在输出中标注具体来源,通过点对点溯源方式,确保生成结果可验证、可引用,以及模型的学术与公共可信度。其中,国家语言生活知识库汇聚了近二十年来的国家语言生活报告和政策研究成果,经过专家标注、原始文档数字结构化,形成了可检索的知识单元。

项目带头人陈雷教授发言

内测阶段,团队邀请了语言学专家、教师、科研人员等多角色参与评测,结果显示该大语言模型在问答准确率、调用准确率与溯源可靠性等方面均表现优异,满意度较高。未来,语言服务大模型将持续拓展语言资源接入与应用的边界,推动语言资源服务集成化、智能化、可信化发展,为国家数字中文建设提供有力支撑。

项目团队带头人:屈哨兵教授

语服通大模型是依托香港科技大学(广州)的大数据团队,和国家语委设在广州大学的“国家语言服务与粤港澳大湾区语言研究中心”的力量,和华中师范大学等有关高校及国家语委的科研机构一起发力,旨在人工智能时代以切实有效的方式,使国家语言文字资源更好地服务教育强国文化强国建设,展示数字中文的勃勃生机。

作为牵头方,香港科技大学(广州)给予了这个项目很大支持,倪明选校长亲自参与了课题的开题,并部署学校资源支持,一直关注课题进展,为国家发展贡献学校力量。

此次在《中国语言生活状况报告》(绿皮书)20周年学术研讨会上,我们发布了语服通大模型的1.0版本。接下来,我们将广泛听取社会意见,对版本进行迭代升级,与时俱进地做好语言文字服务推进工作。

项目团队带头人:陈雷教授

这一项目的诞生源于我们对国家语言资源服务平台现状的深入观察和分析。目前,国家语言资源服务平台已经积累了大量的语言资源和服务,但这些资源和服务呈现出分散的状态,像是被锁在一个“蓄水池”里,无法充分发挥它们的价值。为了打破这种“资源孤岛”的局面,我们亟需对这些碎片化的服务进行整合,以便能够对外提供一个统一、高效的语言资源服务。在这个背景下,我们启动了“语服通”项目。我们利用了先进的大语言分析技术、语义检索技术以及专注于特定领域的人工智能语言模型。依托国家语言资源服务平台所积累的高质量数据和服务,我们致力于解决以下几个核心问题:

首先,我们研究了如何将多源异构的数据进行融合。我们希望通过技术手段,把不同格式、不同来源的数据整合在一起,使它们能够被统一管理和使用。其次,我们专注于特定领域的大模型训练,研究国家语言知识的学习与生成。我们的目标是开发一个真正了解并能处理丰富的中文语言特色的智能系统。最后,我们关注在大语言模型下的跨平台交互与服务集成问题。我们希望“语服通”能够与其他平台和系统顺畅对接,提供无缝的服务体验。

“语服通”不仅仅是一个技术创新的项目,更是我们对语言资源服务未来发展的美好愿景。通过这一平台,我们希望能够真正实现资源的高效利用,为更多用户提供便利和支持。希望“语服通”能够成为语言服务领域的一股新力量,为我们的语言资源开发和利用带来新的可能性。

发布日期
2025年10月30日
分类
科广新闻
分享到