欢迎来到继续教育培训网院校库!
继续教育培训网首页中国人民大学信息学院教授金琴团队AIM3多媒体计算实验室论文VRDFormer: End-to-End Video Visual Relation Detection with Transformers近日被计算机视觉和模式识别领域顶会CVPR录用。CVPR(Computer Vision and Pattern Recognition, 计算机视觉与模式识别 )会议是计算机视觉与模式识别、人工智能领域的国际顶级会议,影响因子在泛AI领域排名第一。
录用论文题目为“VRDFormer: End-to-End Video Visual Relation Detection with Transformers”,第一作者是信息学院2018级直博生郑思鹏,导师为金琴,本科毕业于中国人民大学信息学院,主要研究计算机视觉方向的关系检测和动作识别等任务。第二作者为信息学院2020届博士毕业生陈师哲,通讯作者为金琴。
本文提出了一个端到端的基于transformer的模型用来解决现有视频关系检测任务多个模块无法共同训练以及候选关系对过多的问题。训练分为两个部分,第一个部分用二分匹配的方法进行优化,这部分内容与DETR相仿,主要的目的就是希望query能够具有分类和定位物体关系对的能力;第二部分直接用标注的轨迹关系对初始化视频里每一帧的query,在得到每一个轨迹关系对的memory之后做分类预测,这部分主要优化关系分类的transformer模块,目的是希望模型能够具有编码长时memory的能力。本文模型在该任务两个传统的数据集VidVRD和VidOR上都取得了最佳效果。