近日,国际计算语言学协会年会(ACL,The Association for Computational
Linguistics)在官网公布了ACL2020的论文收录名单,共计收录779篇论文。据不完全统计,此次腾讯共有27篇论文入选,投中论文总数刷新国内记录,领跑国内业界AI研究第一梯队。
本年度腾讯ACL入选论文中,有20篇来自腾讯AILab团队,7篇来自微信AI团队,研究方向涵盖对话及文本生成、机器翻译及文本理解、信息抽取、无监督文本等多个NLP重点领域。
在过去一年,通过开源协同,腾讯梳理拉通了各个事业群最底层和共性的技术能力,加强了基础研发投入,进一步提升了研发效能和技术资源的利用效率,为AI技术的研发创新提供了更有生命力的土壤。
ACL是自然语言处理领域的国际顶级学术会议,也是自然语言处理领域影响力最大、最具活力的国际学术组织之一,论文被录用代表着研究成果获得了国际学术界的认可。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间,据最新公布数据显示,本届大会最终收到投稿论文3088篇,投稿数量创下新高。
技术实力强劲,AI基础研究优势突出
近年来,腾讯在AI基础研究方面持续投入,致力于打造面向未来的技术引擎。腾讯AI团队在ACL 2019入选国内首篇最佳长论文,在ICML、CVPR、NeurIPS、ACL等多个顶级学术会议或期刊累计入选论文超过285篇,并在DSTC 8等多项竞赛夺冠,展现了业界领先的研究能力与技术实力。
自然语言处理是腾讯 AI Lab 的重要研究方向之一,研究内容囊括了从自然语言理解到生成的整个链条。2019年,腾讯AI Lab在人机对话与文本生成方面,提出多种对话生成新框架,发布了多个对话数据集,同时还改进了开放域对话系统。在机器翻译研究方面,腾讯AI Lab探索了主流翻译模型中的自注意力模型改进和篇章翻译,并尝试打开神经网络翻译模型的黑盒子,解释其中核心问题的运行机制。
微信AI团队也长期深耕对自然语言处理领域人工智能技术的研发,拥有微信智言与微信智聆等领先的NLP技术产品,其入选ACL 2020 的7篇论文,涉及了机器翻译、对话系统、信息抽取、无监督文本生成等领域。2019年,微信AI团队凭借NumNet+模型,超越谷歌获得DROP阅读理解榜单第一名。
应用场景丰富,面向行业开放技术能力
顶尖的产品背后离不开顶尖的技术。腾讯丰富的业务场景、庞大的用户基数,都为前沿的AI研究成果提供了最佳的“训练场”。在此基础上,腾讯也将充分打磨的技术能力通过腾讯云以产品和服务的形式面向金融、政务、医疗、交通、教育等各行业开放,为众多客户和合作伙伴提供底层技术支撑,助力产业互联网进入快车道。
目前,微信 AI 团队推出了“微信智聆”和“微信智言”两大技术能力品牌,分别关注语音和语义。微信智聆每天处理超过 4 亿条语音,识别准确率为 97%,服务于腾讯内外超过 100 项业务。微信智言专注于智能对话和自然语言处理,目前已经支持家居硬件、PaaS、行业云和AI Bot等应用领域。
微信AI团队还将技术的精进不断用于产品功能,研发了语音输入转文字、扫一扫的扫码 / 封面和翻译、聊天机器人、摇一摇 - 音乐 / 电视、声纹锁等功能,并为王者荣耀、QQ 音乐等产品提供技术支持。
在2020年初的微信公开课PRO版上,微信AI宣布开放以硬件合作为核心的腾讯小微硬件开放平台、以对话开放能力为核心的微信对话开放平台和NLP基础技术平台,全面开放各层次 NLP 能力,面向行业用户及开发者,开放微信前沿的NLP研究成果。
腾讯 AI Lab则在2018年11月推出了TranSmart产品,采用业内领先的人机交互式机器翻译技术,帮助用户更好更快地完成翻译任务。
今年4月,腾讯AI Lab研发的自然语言理解系统TexSmart也对外开放,提供细粒度命名实体识别、语义联想、深度语义表达等特色功能。TexSmart是腾讯公司级文本处理工具的功能加强版,为自然语言处理相关的腾讯业务及产品提供广泛支持,日调用量达数千亿次。
除了产品和技术能力的开放,腾讯还致力于通过开源与开发者共享代码,目前开源项目总数已破百。
仅在AI领域,腾讯已开源Angel、NCNN等数十个优质项目。针对业界现有的中文词向量公开数据的稀缺和不足,腾讯AI Lab开源了大规模、高质量的中文词向量数据,包含了800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上均有大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。