欢迎来到继续教育培训网院校库!

继续教育培训网首页

北京科技大学继续教育培训

211
咨询电话:
400-0815-589
当前位置:继续教育培训网> 高校继续教育培训> 北京科技大学> 机构新闻>
培训动态
学校新闻
时政要闻
头条新闻
服务热线:
400-0815-589

在线获取继续教育培训方案

  • 培训主题:
  • 参训单位:
  • 参训人数:
  • 联系人:
  • 联系电话:
  • 验证码:
  • 备注:

新闻中心THE NEWS CENTER

我校殷绪成教授团队在场景图像文本检测与识别研究中取得重要进展

发布时间:2020-07-23 08:46:00    浏览次数:424    来源:北京科技大学 若有侵权请联系400-0815-589删除

近期,我校计算机科学与技术系殷绪成教授团队,针对复杂场景环境下的图像与视频文本检测与识别,创新性地引入深度学习新框架,提出了多方向文本检测新模型与新方法,解决了任意形状文本检测中文本关系难以挖掘的核心技术问题,在领域内最具代表性的任意形状文本数据库(Total-Text)上取得了88.72%的性能(f-score)。该项成果在国际计算机视觉与模式识别顶级会议(IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2020)发表了Oral论文(“Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection”),并在国际图像处理和图像识别顶级期刊(IEEE Transactions on Image Processing,IEEE T-IP)在线发表了长文(“HAM: Hidden Anchor Mechanism for Scene Text Detection”),阐述了这些创新方法和研究进展。

我校殷绪成教授团队在场景图像文本检测与识别研究中取得重要进展

科研成果简介

场景图像视频中文本检测与识别广泛应用于在线教育、产品搜索、即时翻译、图像视频大数据理解和网络内容安全等领域,是模式识别、文字识别、计算机视觉中一个重要的研究方向。由于图像视频中文本布局分布的复杂性和文本表示形式的局限性,任意形状文本检测成为了文本检测与识别中一个技术难点和研究热点。殷绪成教授团队提出的创新方法,利用深度图卷积神经网络来进行文本组件之间的深度关系推理,有效地学习、推理与挖掘文字、文本组件之间的连接及语义关系,高精度地检测复杂场景图像视频中的任意形状文本。

我校殷绪成教授团队在场景图像文本检测与识别研究中取得重要进展

复杂场景环境下的文字识别效果

复杂场景环境下的图像与视频文本检测与识别一直都是国内外学术界和工业界关注的重点方向。目前,世界上几乎所有的互联网和IT巨头都进行相关的技术研究,包括了阿里巴巴、腾讯、百度、Google、Microsoft、Facebook等。我校殷绪成教授团队在文本检测、文本识别、图像识别技术领域进行了长期的探索与研究,取得了世界先进的创新技术和国内瞩目的应用成果,主持的项目获2019年度北京市科技进步一等奖和2018年度教育部科技进步二等奖。

CVPR 2020 Oral论文和IEEE T-IP论文的第一作者分别为硕士生张世学同学和博士生侯杰波同学。二人均为我校计算机与通信工程学院本科毕业生,推免到模式识别与人工智能技术创新实验室殷绪成教授团队攻读硕士研究生和博士研究生(硕博连读)。自大四进入实验室学习以来,他们在场景文本检测与识别方面进行了较深入的研究,取得了令人印象深刻的成绩,在IEEE T-IP、IEEE T-ITS、CVPR、ICDAR等国际知名期刊和会议上发表了多篇高水平学术论文。

(图片:计通学院)

(责编:杜嘉庆、邢华超)

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。
【继续教育培训网声明】网站文章及图片均来源于学校官网或互联网,若有侵权请联系400-0815-589删除。

咨询热线
400-0815-589