Top
首页 > 正文

中国AI又夺两冠!深兰刷榜NLP国际顶会挑战赛,高比分夺魁

发布时间:2023-12-07 13:45        来源:赛迪网        作者:

类似于体育界的奥运会,在国际顶会参赛也成为科研院所和科技巨头的科技成果“试金石”。

近日,中国团队再次刷新了人工智能自然语言处理领域国际顶级会议EMNLP 2023 任务挑战赛的榜单。在本次“PragTag-2023”和“Violence Inciting Text Detection(VITD)”两项任务竞赛中,上海本土科研机构深兰科学院团队以“国产自研“多个预训练模型为基础,并结合多种自然语言处理技术在与弗吉尼亚大学、加利福尼亚大学等美国知名高校在内的来自全球数十个团队同场竞技中脱颖而出,夺得两项冠军。据悉,这也是深兰多次登顶该会议榜单。

其中,“PragTag-2023”任务竞赛的要求,是在论文评审过程中,对同行评审内容中的每一句话,按照摘要、优点、不足、建议、结构、其他这六个类别进行分类,以实现评审内容细粒度的自动分类,并通过整合各方的评审意见,为经验不足的评审人提供评议帮助,该项任务的主要难点在于可参考的数据量少,缺少统一的分类标准。

为此,深兰技术团队采用了两个出色的预训练模型“RoBERTa”和“DeBERTa”作为语言模型底座,在对其进行调整优化的基础上,同时融入了诸如注意力池化、最大池化、多折交叉验证、对抗训练等技术,并经过多组数据实验,通过使用多个模型投票得到结果的方式,解决了相关难题,赢得这项任务竞赛的冠军。 

“Violence Inciting Text Detection(暴力煽动文本检测)”任务竞赛的内容,则是检测社交媒体上的文本是否包含暴力信息,并按照主动暴力、被动暴力、非暴力三个类别做分类,目的是对发生在孟加拉国和印度西孟加拉邦的各种形式的社区暴力行为进行分类甄别,以及阐明发生这一复杂现象的缘由,并阻止同类事件的再次发生,缓解社会上的暴力倾向。

该任务的难点主要在于文本语言的特性,因为孟加拉语虽然有2亿多的使用人口,但本身还是属于小语种,使用范围小,可参考的文本数据也少,同时孟加拉语有着句子普遍超长、文本差异小、语意语境难以辨别的特点,这就对计算机自然语言处理技术有着更高的要求。为了解决以上难题,深兰技术团队采用了“分而治之”的策略。针对小语种问题,团队选用了“XLM-RoBERTa”和“banglabert”两个与孟加拉语的语言特点相适配的预训练模型;为了解决句子超长的问题,则采用了多种裁剪策略分别进行实验,不断优化语句裁剪效果;为了提升语言预训练模型的鲁棒性,则通过在模型中加入注意力池化、最大池化、多折交叉验证、对抗训练、伪标签、multi-sample dropout等技术,以增强模型承受故障和干扰的能力。

最终,深兰团队以0.004分的优势,战胜了包括弗吉尼亚大学、加利福尼亚大学、詹姆斯库克大学等美国知名高校在内的来自全球的27支参赛队伍,夺得该任务竞赛的冠军。

据悉,EMNLP与ACL、NAACL并称为三大全球自然语言处理领域顶级会议,由ACL旗下SIGDAT组织,在Google Scholar计算语言学刊物指标中排名第二,每年汇集全球顶尖实验室组队参加,共同探讨最新进展和成果。

每日必读

专题访谈

合作站点