欢迎来到继续教育培训网院校库!

继续教育培训网首页

复旦大学继续教育培训

211 985 双一流
咨询电话:
400-0815-589
当前位置:继续教育培训网> 高校继续教育培训> 复旦大学> 机构新闻>
培训动态
学校新闻
时政要闻
头条新闻
服务热线:
400-0815-589

在线获取继续教育培训方案

  • 培训主题:
  • 参训单位:
  • 参训人数:
  • 联系人:
  • 联系电话:
  • 验证码:
  • 备注:

新闻中心THE NEWS CENTER

复旦大学计算机科学技术学院冯瑞、张玥杰团队在国际多媒体顶级会议ACMMultimedia上发表新成果

发布时间:2022-11-02 09:34:03    浏览次数:589    来源:复旦大学 若有侵权请联系400-0815-589删除

2022年国际多媒体顶级会议ACM Multimedia中,由我院冯瑞教授和张玥杰教授带领的复旦大学跨媒体智能计算实验室(CMIT)发表的论文MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing入选。ACM Multimedia是计算机学科多媒体领域的顶级国际会议,也是中国计算机学会(CCF)推荐的该领域唯一的A类国际学术会议。

论文针对视听事件解析任务展开研究。该任务需要分类并时序定位出一段视频内所有的视觉事件、听觉事件和视听事件,且任务是以弱监督的方式进行训练,因此极其具有挑战性。现有的大部分工作都试图从整体的角度来分析视频,忽略了其中的多尺度语义信息,使得模型难以定位不同长度的视听事件。为了解决这些问题,该研究团队提出了一种多模态金字塔注意力网络(MM-Pyramid)。该网络由两个模块组成,首先注意力特征金字塔模块通过几个堆叠的金字塔单元捕获时间金字塔特征,每个金字塔单元由一个固定大小的注意力块和扩张卷积块组成;然后自适应语义融合模块利用单元级注意块和选择性融合块来交互生成最终的多模态金字塔特征。

视听事件解析实验结果:可精确定位视频中不同长度的多模态事件

与现有的多模态方法相比,该模型能在多种时间尺度上探索不同粒度的多模态金字塔特征,从而能够在视听事件解析任务中精确定位不同长度音频事件和视频事件,有助于复杂场景下的视频理解,因此可以扩展应用到更多的视听场景,例如暴力检测、表征学习和多模态推理等。

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。
【继续教育培训网声明】网站文章及图片均来源于学校官网或互联网,若有侵权请联系400-0815-589删除。

咨询热线
400-0815-589