欢迎来到继续教育培训网院校库!
继续教育培训网首页6月2日,中国人民大学高瓴人工智能学院教授卢志武,长聘副教授孙浩以及院长、教授文继荣作为共同通讯作者在国际综合期刊《自然·通讯》(Nature Communications)上发表题为“Towards Artificial General Intelligence via a Multimodal Foundation Model”的研究论文,文章第一作者为博士生费楠益。《自然·通讯》是《自然》杂志旗下的子刊之一,主要出版自然科学各领域的高质量研究成果,强调发表新颖、重要、高质量及读者感兴趣的研究。该刊于2010年4月创刊,2021年的影响因子为14.919,5年平均影响因子为15.805。
人工智能的基本目标是模仿人类的核心认知活动比如感知、推理等。虽然许多人工智能算法或模型在各个研究领域都取得了非常大的成功,但是受限于大量标注数据的获取或是没有足够的计算资源支撑在大规模数据上的训练,大多数的人工智能工作还是只局限于单个认知能力的习得。为了克服这些困难,并向通用人工智能迈出坚实的一步,作者以人类大脑处理多模态信息为灵感(图1a),开发了一个多模态(视觉语言)基础模型,也即预训练模型。此外,为了让模型获得强大的泛化能力,作者提出训练数据中的图片与文本应遵循弱语义相关假设(图1b),而不是图片区域与单词的精细匹配(强语义相关),因为强语义相关假设将导致模型丢失人们在为图片配文时暗含的复杂情感和思考。通过在爬取互联网的大规模图文对数据进行训练,作者得到的多模态基础模型显示出强大的泛化能力和想象能力。作者在多模态预训练模型可解释性上的尝试也说明这些能力很有可能从源头上归因于弱语义相关的数据假设。
(图1:基于弱语义相关假设的BriVL模型。a.我们的BriVL模型和人脑在处理视觉语言信息上的对比。b.建模弱语义相关数据和建模强语义相关数据的对比。)
该工作作为文澜项目的重要成果,不仅开发了一个相对资源节约以及方便部署的多模态基础模型,更是在模型可解释性上进行了尝试。通过固定模型参数的神经网络可视化、文生成图等手段,作者直观展示了多模态基础模型的模态对齐空间,即模型对文本的强大想象力(图2)。在各项下游任务的可视化中,该多模态基础模型甚至展现出一些常识理解的能力。该工作中提出的基于momentum机制的模型设计有望降低研究者对计算资源的需求,模态分离的双塔设计也提高了模型的可扩展性和落地效率。另外,多模态基础模型也会为许多AI+领域提供新的思路,比如利用多模态信息更好地进行诊断,或者辅助神经科学家进行人脑多模态机制的研究。
(图2:基于倒转VQGAN的BriVL模型文生成图结果。VQGAN和BriVL在整个过程中均固定不变。)
论文信息:
Title: Towards Artificial General Intelligence via a Multimodal Foundation Model
Authors: Nanyi Fei, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen, Haoyu Lu, Ruihua Song, Xin Gao, Tao Xiang, Hao Sun and Ji-Rong Wen ( corresponding authors)
作者:费楠益,卢志武,高一钊,杨国兴,霍宇琦,温静远,卢浩宇,宋睿华,高欣,向滔,孙浩,文继荣