智能学子获ICCV 2023国际顶级竞赛四项冠亚军奖项
近日,人工智能与计算机视觉最高水平会议之2023国际计算机视觉大会International Conference on Computer Vision(ICCV)的部分赛事已出结果。在焦李成院士、刘芳教授、刘旭副教授与团队博士生杨育婷等的共同指导下,人工智能学院参赛队伍在三项竞赛中斩获四项冠亚军奖项。所有获奖队伍均收到竞赛主办方邀请,将在10月2日-10月6日于法国巴黎举办的ICCV会议上进行报告与展示。本次竞赛由国家自然科学基金重点项目、联合基金项目,教育部创新引智基地项目、教育部创新团队和国家“双一流”学科建设项目等支持。
博士研究生路小强、黄钟健、杨育婷组成的参赛队伍获得ICCV 2023 VisDrone Challenge: Object Detection赛题冠军。
路小强、黄钟健、杨育婷
VisDrone目标检测竞赛旨在促进无人机视觉研究发展,数据集包含由无人机平台在不同地点、多种视角下捕获的10,209张图像,预定义道路中常见的10种目标类别(行人,汽车,卡车,自行车,三轮车等)。
队伍基于YOLOv7检测器提出LS-DOD算法,该算法由大规模预训练、大尺寸监督学习以及高效测试增强组成。为了提升检测器在不同场景下的泛化能力,队伍首先在SODA10M数据集中的100万张图像上以半监督学习范式进行预训练。其次,在迁移学习中通过大幅度动态增大训练尺寸策略以降低微小目标信息损失,缓解密集场景目标混淆。最后,在测试阶段提出高效测试增强及金字塔加权框融合算法进行多模型融合。以42.713的分数战胜了来自北大、清华、MIT、美团等知名团队,刷新了VisDrone目标检测赛题历史纪录。提出的方案解决了无人机视角目标检测中目标密集以及微小目标无法精准识别的难题。
2022级硕士研究生左谊、王子韬、张潇文和博士生赵嘉璇组成的参赛队伍获得了ICCV 2023 MUAD Uncertainty Estimation for Semantic Segmentation Challenge赛题冠军;2022级硕士研究生王昕怡、彭瑞、张君沛、张柯欣组成的参赛队伍获得了同赛道亚军。
左谊、王子韬、张潇文、赵嘉璇
王昕怡、彭瑞、张君沛、张柯欣
该赛题旨在评估语义分割模型的不确定性估计性能。一些测试集包含OOD(Out-Of-Distribution)对象或雨、雪、雾等两种不同强度等级的特殊天气条件,这将对模型的鲁棒性提出挑战。参与者通过训练模型提交类预测图和置信度图,以便决策者找出测试集图像中的OOD对象。
队伍使用Swin-L+Mask2Former、InternImage H +Mask2Former和Segformer+MIT-B5作为基础模型进行训练。由于训练集中缺乏恶劣天气条件,队伍设计了一种针对恶劣环境的数据增强方法来模拟相应天气状况。为了提高mIoU与mAUROC两个评估指标分别提出了应对方案。对于mIoU评估指标,使用集成模型的思想输出预测结果。对于mAUROC评估指标,通过引入Cityscapes数据集预训练对三个基础模型进行微调,在Segformer模型输出结果的基础上融合Mask2former模型的输出结果,并提出了一种区域归一化策略。首先对置信度低于0.6的区域使用均值滤波,然后使用连接域算法将整个图像分割成多个掩模区域。若置信水平低于0.4的像素中超过50%存在于某个掩模区域,将其定义为分布外区域。对于该区域中的所有像素,则使用该区域的最小置信度覆盖。所提出的方案解决了不确定性语义分割中已知类的精准度与未知类的不确定性相互干扰难题。
2022级硕士研究生张潇文、王子韬、左谊组成的参赛队伍获得了ICCV 2023 The 5th Large-scale Video Object Segmentation Challenge - Track 1: Video Object Segmentation赛题冠军。
该赛题在仅提供视频第一帧分割物体mask的条件下,要求参赛者对整段视频中的一个或多个物体进行分割。比赛数据集中包含的物体是由破碎、撕裂和合成等操作而形成的,极大地改变了物体的整体外观,使得整个比赛任务具有极大的挑战性。
该队伍基于前期对实例分割模型机理的分析,发现虽然memory-based方法能够通过平移和变形引起的微小变化来分割物体,但对于更具挑战性的变换分割效果较差。因此,以半监督视频实例分割的SOTA模型AOT为基础,将训练序列的长度由5帧增加到10帧。但由于该模型不具备利用长期时间线索的能力,难以提升效果。我们提出来用recurrent transformer替换短期记忆模块来增加模型的时空建模能力。最后,队伍通过以15fps进行评估并启用多尺度推理,在测试时显著提高了模型的时间和空间分辨率。所提出的方案突破了长视频序列中后段视频分割结果较差的技术难题,显著提升了长视频序列中目标跟踪能力和分割性能。
据悉,ICCV,全称IEEE International Conference on Computer Vision (国际计算机视觉大会)由IEEE主办,在世界范围内每两年召开一次,其与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。人工智能学院焦李成院士团队在遥感领域有30多年的经验积累,智能学子们也屡次在IGARSS、CVPR、ICCV、ECCV等多项国际顶会赛事中斩获冠亚季军奖项达百余项。学院人才培养效果显著。在国际最高赛事中拼搏,通过“赛中学”不仅能够让学生快速了解该领域的相关知识,激发学生科研的动力,同时也锻炼了团队学生的组织协调能力、写作能力与心理抗压能力。