欢迎来到继续教育培训网院校库!

继续教育培训网首页

中国人民大学继续教育培训

211 985 双一流
咨询电话:
400-0815-589
当前位置:继续教育培训网> 高校继续教育培训> 中国人民大学> 机构新闻>
培训动态
学校新闻
时政要闻
头条新闻
服务热线:
400-0815-589

在线获取继续教育培训方案

  • 培训主题:
  • 参训单位:
  • 参训人数:
  • 联系人:
  • 联系电话:
  • 验证码:
  • 备注:

新闻中心THE NEWS CENTER

信息学院人工智能与媒体计算实验室(AIMCLab)两篇论文被计算机视觉顶会(ECCV2022)录用

发布时间:2022-09-27 09:46:07    浏览次数:233    来源:中国人民大学官网 若有侵权请联系400-0815-589删除

信息学院人工智能与媒体计算实验室(AIMC Lab)关于视频检索和眼底图像匹配的两项研究被欧洲计算机视觉会议 (ECCV 2022)录用。ECCV是与CVPR、ICCV齐名的计算机视觉三大顶会之一,每两年召开一次。据了解,今年有效投稿5803篇,录用1650篇,录用率28%。

论文介绍

论文题目:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval

作者:胡帆,陈坳珠,王子玥,周方铭,董建锋,李锡荣

通讯作者:李锡荣

论文概述:本文研究跨模态视频检索。在此种检索范式中,用户通过自然语言表达其查询需求。为了计算文本和视频的跨模态语义相关度,现有主流方法是先从视频和文本中分别提取基础特征,然后再经特定的特征再学习网络,将基础特征嵌入到一个或多个跨模态的公共空间中,以实现文本和视频的跨模态匹配。在此背景下,本文重新审视了特征融合 (feature fusion)这一经典问题,并提出了可同时用于文本侧和视频侧、轻量级注意力特征融合(Lightweight Attentional Feature Fusion,简称LAFF)。LAFF既可作为一个前融合(early fusion)模块分别在文本侧和视频侧融合多个单模态、多尺度(帧级/视频级)基础特征,也可作为一个后融合(late fusion)模块集成经多个公共空间计算得到的相关度得分。并且,LAFF较多头自注意力 (multi-head self-attention)模块具有更好的特征选择能力,在不降低检索性能的前提下减少基础特征的使用,从而降低检索模型的实际部署成本。LAFF的有效性在多个公开数据集上得到了验证。

预印本:https://arxiv.org/abs/2112.01832

源代码:https://github.com/ruc-aimc-lab/LAFF

论文介绍

论文题目:Semi-Supervised Keypoint Detector and Descriptor for Retinal Image Matching

作者:刘家真,李锡荣,魏奇杰,徐捷,丁大勇

通讯作者:李锡荣

论文概述:眼底图像匹配(retinal image matching)作为眼底图像处理和分析的一项重要技术,在眼底图像配准、身份识别、个性化慢病管理等多个任务中起着关键作用。现有方法大多基于传统数字图像处理技术实现。传统技术存在超参数设置复杂,病变条件下匹配质量差,适用任务单一等问题,使得现有方法的适用范围较窄。本文提出了具备端到端学习能力的眼底图像关键点检测和描述网络SuperRetina。注意到当前可用的眼底图像标注数据极其稀少,难以有效支撑深度神经网络的训练。针对标注数据稀缺性问题,本文提出了渐进式关键点扩充(progressive keypoint expansion,简称PKE)的半监督学习策略。在每个训练步骤,PKE利用初始输入的关键点标记和SuperRetina输出的预测结果,进行基于关键点位置几何一致性和关键点特征内容一致性的双重筛选,从而自动在欠标注以及无标注眼底图像数据中发现之前未被标记的高可靠关键点,不断扩充关键点标记集合。SuperRetina的有效性和通用性在多个真实世界数据集上得到了验证。

预印本:https://arxiv.org/abs/2207.07932

源代码:https://github.com/ruc-aimc-lab/SuperRetina

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。
【继续教育培训网声明】网站文章及图片均来源于学校官网或互联网,若有侵权请联系400-0815-589删除。

咨询热线
400-0815-589