西电智能学子在CVPR 2022竞赛中再获佳绩
近日,2022计算机视觉和模式识别会议(CVPR 2022)举行。随着计算机视觉顶会CVPR 2022正式拉开帷幕,多个赛事奖项也陆续尘埃落定。西安电子科技大学人工智能学院再获佳绩,在焦李成院士、刘芳教授、王爽教授、屈嵘教授、刘旭博士、权豆博士和团队博士生杨育婷、王语涵、黄钟健、赵嘉璇、刘洋、宋雪、耿雪莉、鲍骞月、马彦彪、游超、张紫霄、马梦茹等的共同指导下,学院参赛队伍在CVPR 2022四项竞赛中取得2冠军、2亚军、2季军奖项,共计11支队伍入围排行榜前五的优异成绩,14支参赛队伍入围各赛题榜单前十。所有获奖队伍均收到竞赛主办方邀请,将在workshop会议上进行报告或者展示获奖的竞赛方法。本次竞赛由国家自然科学基金重大重点项目,教育部创新团队,国家学科创新引智基地,国家双一流学科建设项目与中国人工智能学会-华为MindSpore学术奖励基金等支持。
2020级硕士研究生路小强、曹国金等组成的学生团队获得CVPR 2022 Woodscape Fisheye Object Detection Challenge for Autonomous Driving的冠军,2021级硕士研究生李成辉、李超、谭逍组成的学生团队获得此赛题季军。
路小强、曹国金
李成辉,李超,谭逍
Woodscape是用于自动驾驶场景下的多任务、多镜头鱼眼图像数据集。本届挑战赛旨在推进鱼眼图像上2D目标检测技术的发展与进步,预定义目标类别为道路中常见的车辆、行人、自行车、交通信号灯以及交通信号指示牌。与常规图像相比,鱼眼图像存在着严重的非线性畸变、尺度变化显著等特点。
对此,冠军队伍基于原始的YOLOv4框架,引入多头自注意力机制设计了一个能够提取更多上下文信息和差异化特征的MHSA-Darknet作为Backbone,并采用BiFPN实现跨尺度特征融合,该网络相较于原YOLOv4算法具有更高的精度和更强的鲁棒性,有效缓解地了包括目标尺寸差异较大,非线性畸变,复杂的背景环境干扰等问题。此外,队伍还采用了模型集成策略,提高了最终的检测准确率。
季军队伍使用Swin Transformer V2提取主干特征,联合混合任务级联检测头HTC+来检测鱼眼图像中的物体。Swin Transformer将数个重要的视觉先验引入Transformer编码器中,包括层次结构,局部性和翻译不变性,这结合了它们的强度。HTC+通过在每个阶段结合级联和多任务来改善信息流,并利用空间环境以进一步提高准确性。在最后的推理中,使用soft-nms来滤除多余检测框。最后,通过加权框融合(WBF)利用所有检测出的边界框的置信得分来构建平均框,以增强检测精度。
博士研究生赵栋、王子宁、臧琪、叶秀眺组成的学生团队获得CVPR 2022 Agriculture-vision Cropharvest Challenge冠军。
赵栋、王子宁、臧琪、叶秀眺
Cropharvest Challenge是判断多光谱时间序列信号所代表的区域是否包含农作物。每个提供的时间序列信号都是一个12个月的时间序列,其中每个月包含18个特征,代表从4月到3月的30天窗口中来自四个不同遥感数据集的聚合值。观察竞赛数据发现,时间序列信号在不同月份的变化趋势可以更好地反馈是否包含农作物。例如,随着作物长势的变化,一个有农作物的区域将在不同月份反映不同的光谱值。为此,团队成员使用Transformer模型中的自注意力机制来捕捉不同月份光谱信号的趋势和潜在关系,并设计了预训练策略来充分提升Transformer模型的性能。
宋欣燃、杨骋远、刘畅、邱灿、张乐、高樱嘉组成的学生队伍获得了CVPR 2022 Tiny Actions Challenge [Track 1:Recognization task]亚军。
宋欣燃、杨骋远、刘畅、邱灿、高樱嘉、张乐
Tiny Actions Challenge是由中佛罗里达大学的研究者组织的视频动作检测挑战,旨在对现实世界中的低分辨率视频进行多类别动作检测。竞赛数据集为TinyVIRAT-v2视频数据集,其视频均是从现实世界的监控视频中提取的,包含26355个实例,其中16950个为训练实例、3308个为验证实例、6097个为测试实例。数据集包含从10×10像素到128×128像素的低分辨率视频,视频的平均长度在3秒左右。针对Tiny Actions Challenge微小动作识别竞赛提出的现实环境低分辨率数据集Tiny-VIRAT-v2,参赛团队对数据集进行数据随机采样重缩放、数据扩充,并采用BasicVSR++对数据集进行超分辨率修复,以提升视频质量。训练过程分为两个阶段:第一阶段,参赛团队共使用6个模型对数据集进行训练,分别是R(2+1)D、SlowFast、CSN、X3D、Timesformer和VideoMAE。为了提高模型表现,使用Kinects-400数据集对各个模型分别进行预训练,以获得预训练权重。第二阶段,在模型基本收敛后,进行模型融合,采用十倍交叉验证方法衡量模型性能。根据预测得分,针对严重类别不均衡问题进行二分类训练,并对预测分数进行结果过滤,最终取得排行榜第二名的成绩,F1分数为0.8732。
高子涵、马天植、何文鑫组成的学生队伍获得CVPR 2022 VizWiz Grand Challenge[ Track 1:visual question answering challenge task]亚军;路小强、曹国金组成的学生队伍获得同赛道季军。
高子涵、马天植、何文鑫
Vizwiz VQA 2022视觉问答赛道的主要任务是针对由盲人拍摄的照片和提出的问题,训练模型并预测问题的答案。亚军队伍采用Vinvl的方法对图像进行特征提取,并使用X-VLM,ALBEF, OSCAR和OFA的融合模型首先对答案根据答案出现的频次进行加权融合,随后引入SA-M4C采用生成的方法对模型进行补充,当融合模型预测的答案置信度低,并且SA-M4C预测的答案位于Answer List之外时,对结果进行替换,采用生成式答案作为最后的结果。最后使用多版结果对得分较低的问题类别进行逐级覆盖以提升最后的准确率。
季军团队提出基于视觉语言预训练的答案区域引导VQA算法。不同于传统VQA算法将VQA当作多标签分类问题,团队采用一个自回归解码器来生成最终的答案。此外,全局的图像特征中包含过多与文本不相关的区域,而基于预先使用检测器来提取目标特征的方法除了增加额外的计算负担外,也引入了部分与文本无关的特征。为此,团队提出答案区域引导算法。首先将问题—图像—答案对输入至参考语义分割模型来获取图像中精准的答案区域,之后通过注意力模块引导模型更加注重答案区域特征,最后通过交叉注意力将多模态编码输入至答案解码器中获取结果。
除了以上四个赛题获奖之外,团队学生在其他赛道也取得了优异成绩。赛题五UG2+ Track 1 object detection in haze由路小强、曹国金组成的学生队伍获得了赛道第四名(有证书)。赛题六Supervised semantic segmentation in adverse conditions Track 1:Supervised semantic segmentation in adverse conditions(night)由王浩、王佳豪、鲍骞月组成的学生队伍榜单排行第三名,总榜单第五名。Track 2:Supervised semantic segmentation in adverse conditions(rain)由高子涵、马天植、何文鑫组成的学生队伍榜单排行第四名。赛题七Uncertainty-Aware Supervised semantic segmentation in adverse conditions(rain)由王佳豪、王浩、董倬君组成的学生队伍榜单排行第三名。赛题八Hotel-ID to Combat Human Trafficking 2022 - FGVC9由王佳豪、王浩组成的学生队伍榜单排行第四名。赛题九2022 AI CITY CHALLENGE:Challenge Track 1: City-Scale Multi-Camera Vehicle Tracking由左谊、王子韬、张君沛组成的学生队伍榜单排行第八名。赛题十The ACDC Challenge 2022 Track 1: Normal-to-adverse domain adaptation on Cityscapes→ACDC由何佩组成的学生队伍榜单排行第三名。
据悉,CVPR是IEEE Conference on Computer Vision and Pattern Recognition 的缩写,即IEEE国际计算机视觉与模式识别会议,是一年一次的学术性会议。CVPR的主要内容是计算机视觉与模式识别技术,是世界顶级的计算机视觉三大会议之一。西安电子科技大学人工智能学院焦李成院士团队在遥感领域有30多年的经验积累,智能学子们也屡次在各项专业类竞赛中斩获佳绩。让学生通过学术竞赛快速提升科研能力、加强学术交流是人工智能学院人才培养的有力举措之一。“赛中学”不仅让学生快速了解该领域的相关知识,提高学生科研的动力,同时也锻炼了学生的组织协调能力、抗压能力。目前,团队在近三年来的IGARSS、CVPR、ICCV、ECCV国际赛事上已累计获得了12冠军、16亚军与9季军共37项奖项,人才培养成效显著。