5月24日消息,国际AI顶级会议ACL 2022论文收录及获奖信息近日揭晓,阿里巴巴25篇论文被接受,其中达摩院的机器翻译工作《Learning to generalize to More: Continuous Semantic Augmentation for Neural Machine Translation》从全球3000多篇投稿论文中脱颖而出,获得杰出论文奖,阿里成为今年国内唯一以第一作者身份获得该奖项的中国企业。
神经机器翻译是目前的主流AI翻译技术,需要从大量双语数据中学习翻译能力。然而双语数据有限且获取成本很高,翻译质量的提升遇到诸多困难,数据稀缺的场景问题更加凸显。针对这一问题,该论文突破了传统离散语义空间数据增强方法,以有限的训练样本为锚点,学习连续语义分布以建模全局的句子空间,并据此构建神经机器翻译引擎,有效提升数据的利用效率,显著改善模型的泛化能力和鲁棒性。
实验结果显示,该技术在多个公开数据集上均取得了最佳效果。在使用同等双语数据的前提下,相比传统方法,连续语义增强能够显著提升翻译质量。即便只使用少量的双语数据也能充分学习,达到与传统方法使用全部双语数据同等的效果。该技术已应用于AliExpress国际化电商翻译场景,为全球商家提供精准的多语种翻译服务,并显著提升商品转化效率。
阿里达摩院机器翻译工作斩获ACL 2022杰出论文奖
该论文第一作者、达摩院算法专家魏相鹏表示,“我们提出的技术打破了现阶段AI翻译的学习模式,有效提升训练数据利用效率,能促使 AI翻译更好的理解人类语言,进一步提升机器翻译的质量。我们相信通过持续不断的技术突破,能推动全世界各语言的无障碍沟通。我们将面向全球开发者开源我们的工作。”
达摩院机器翻译技术团队已在AI顶级会议/期刊发表机器翻译相关学术论文50余篇,在国际顶级机器翻译大赛WMT 2018、WMT2021的多个评测任务取得第一;曾获得浙江省科技进步二等奖,入选工信部新一代人工智能产业创新重点任务揭榜优胜单位。
ACL是自然语言处理与计算语言学领域最高级别的学术会议,目前已拥有60年历史,本届大会于5月22日-27日在爱尔兰都柏林举办。