5月26日下午,外国语学院(国际教育学院)在雁山校区04305教室举办了一场题为“低资源语言模型,数据准备之路——以马来语‘罗惹掺杂式语言’为例”的学术讲座。马来西亚CBIEV中心主任、FOCS学院教授林仲铭受邀主讲,学院师生到场聆听。
林仲铭教授拥有近30年学术与行业经验,长期从事机器学习、自然语言处理及低资源语言模型研究。讲座中,他以马来西亚多元语言环境为切入点,生动介绍了当地华语、英语、马来文混杂使用的“罗惹式”沟通现象(即code mixing),指出现有大语言模型在处理此类混合语言时存在理解偏差、训练成本高、本地化适配不足等问题。他特别强调,对于资源匮乏的语言场景,传统大模型往往“水土不服”,构建高效、轻量的小语言模型成为关键突破口。
针对训练语料稀缺、算力有限的现实困境,林教授团队探索出一套创新方案:将有限的文本资源重构为问答对、角色对话、多轮对话三种数据格式,把原本零散的信息转化为高质量训练样本。该方案训练出的模型可应用于企业人事政策咨询、少数民族语言保护等低资源特定场景。讲座最后,林教授指出,广西作为面向东盟开放合作的前沿,低资源语言技术研究具有广阔的应用前景。
本次讲座拓宽了我院师生的跨学科视野,为低资源语言处理与本地化AI应用提供了新思路,也为广西面向东盟的多语言技术研究注入了新动力。

(一审:韩笑;二审:张文国;三审:孟繁旭)