西安电子科技大学教务处(西安国际学校)

2021年国际计算机视觉大会国际互联互通(ICCV )是国际首屈一指的国际计算机视觉盛会，将于10月11日至10月17日举行。在西安电子科技大学人工智能学院壮观的母鸡教授、刘芳教授、挺拔的睫毛教授、qxdpd博士和团队博士生包容的钢笔、pgds、ssdqb、善良的鸽子、游超、含蓄的期待、诱人的牛排的共同指导下，学院参赛队伍共有ICCV 2021四个项目，根据共9个队伍排名前5位的优秀统计，队伍在ICCV 2021中共获得11个冠亚军季军奖。此次竞赛由国家自然科学基金、中国人工智能学会-华为MindSpore学术奖励基金资助。

其中，2021级硕士研究生在意的过去，由atgdc、悲伤月光组成的学生团队在ICCV 2021 The ROAD Challenge上获得了agent检测课程冠军。

代理在路线检测中的作用是检测连续帧中的运动目标，将相同运动目标的信息聚集到一个tube上，所有目标聚集的tube形成一个tubes。冠军队采用YOLOv5加后处理方式实现了tubes的生成。使用YOLOv5预测每个框架中每个代理的包围盒的位置和所属类的可靠性。在后处理时，通过运动信息判断不同帧中的代理的相似度，通过从网络增加有预测遗漏的代理来生成tubes，并按各tube长度过滤错误判断的代理。另外，还将根据yolov4对小样本的代理类进行专业训练，并通过mosaic、horizonalflip、translate等方法进行数据扩展，在此基础上进行多尺度训练。

由2020级硕士研究生tmdls、yydxgz、dydyx、gsdmt组成的学生队伍获得了iccv 2021 VIP rior Sobject Detection Challenge目标检测课程的冠军。

VIPriors 2021目标检测课程的任务是在数据不足、不允许使用预训练权重的环境下，对DelftBikes数据集进行22种密集标注的自行车部件的定位和识别。冠军队提出了一种基于YOLO检测器的多尺度集成学习算法，该方法基于Bagging思想结合数据扩展、强数据增强等技术实现小样本数据信息的挖掘和利用；此外，小组还引入了多尺度联合训练、多尺度特征融合、增强多尺度试验、多模型集成等策略进行了精细化预测输出，有效地提高了对小目标的检测性能。

由2020级硕士研究生ldxj、谷雨、gddzx组成的学生队伍获得了iccv 2021 Viprior Sobject Detection Challenge目标检测课程亚军。

VIPriors 2021目标检测课程的任务是预测自行车22种零部件是否短缺，预测边框和可靠性。亚军队伍根据原始的Swin Transformer框架和DETR框架进行多尺度训练，采用半教练的方法，分别训练两个网络模型，互相使用对方网络的假标签进行反复训练，另外根据22种方法分为2个部分进行了训练，测试时采用soft-nms方法代替传统的nms方法，有效缓解了零件位置重叠、部分特征相似等问题

由2021级硕士研究生任性马里奥、rdnp组成的学生队伍获得了ICCV 2021 Viprior Saction RECNition Challenge动作识别课程亚军。

VIPriors研讨会将重点放在如何用通用的视觉总结先天性知识结构上，通过预设深层网络，可以吸取难以获取的现有通用知识。亚军队伍最终采用了基于多模型动态融合的视频动作识别方法，采用动态加权软投票方式对模型进行了整合，融合了Video Swin Transformer、SlowFast、TIN等7个模型和弱分类器。同时，采用了多尺度随机剪切、高斯模糊、测试时增强(TTA )等多种数据增强方式，为了提高最终得分交换了多个损耗函数。

2021年由硕士研究生wjdyet、悲伤的红牛和开朗的朋友组成的学生团队在iccv 2021 Viprior Simage Classification Challenge图像分类课程中获得亚军。

VIPriors 2021图像分类课程的主要任务是以小样本的分类数据集获得最高的Top-1精度。亚军队伍采用resnest101、rexnet200等多个backbone网络融合训练集和验证集进行训练，将所有结果通过加权软投票整合，最后根据不同的软投票结果继续进行硬投票，达到精度除此之外，对于正确率较低的类别，使用小组提出的新损失进行目标训练，将此前的二次融合结果反向涵盖到目标训练的结果中，从而进一步提高了正确率。

由2021级硕士研究生ggdbz、刘畅、wyddx组成的学生队伍以第五名的成绩进入了Image Classification Challenge课程。

VIPriors 2021图像分类课程的任务目的是使用少量图像，尽量训练高精度的图像分类模型。排名第五的团队使用了PyramidNet、DenseNet、ResNeSt三种模型，在此基础上，尝试了不同的损失函数和参数；采用图像增强方法提高模型的泛化性和鲁棒性，对表现比较

差的类别进行单独训练，添加了warm-up、使用验证数据扩充训练数据等技巧,最后采用投票法进行模型融合，对所有模型进行集成，有效的提高了最终的结果。

　　其中，2020级硕士研究生tmdls、yydxgz、gsdmt”组成的学生团队获得了ICCV 2021 SSLAD Challenge Track1-2D Object Detection目标检测赛道季军。

　　道路图像中的目标检测作为视觉感知系统中必不可少的模块，在自动驾驶系统中至关重要。SSLAD 2021目标检测赛道提供1000万张未标记图像以及1万张全注释图像，旨在提升自监督/半监督模型的发展。季军队伍提出一种简单而高效的半监督学习框架，该方法首先基于集成学习的思想，通过对有限标注数据的高效利用来获取一个强有力的全监督教师模型作为基准。其次，队伍提出一种可靠的伪标签生成方法，通过图像级阈值学习和预测框级阈值学习以实现源域与目标域之间的域适应，从而获取高质量的伪标签。最后通过自训练获得一个鲁棒性与准确性兼具的学生模型用以最终预测。

　　2020级硕士研究生贪玩的外套、典雅的香水、欣慰的大门组成的学生团队获得了ICCV 2021 SSLAD Challenge Track1-2D Object Detection目标检测赛道第四名。

　　团队采用了基于YoloV5以及YoloV4的目标检测网络完成目标检测任务。同时使用后置的SENet分类模块对目标检测的结果进行修正。针对输入数据的类别不平衡问题，团队采用实例平衡增强的方法对原数据集进行采样并对采样结果随机进行包括高斯噪声，grid，小目标cut out等在内的多种数据增强。最后，对得到的6个结果使用WBF进行了融合。

　　2020级硕士研究生dydyx、cjddy组成的学生队伍获得了ICCV 2021 Video-And-Language Understanding Evaluation (VALUE) Challenge视频问答任务的第5名。

　　VALUE 2021视频问答赛道的任务用于评估 VALUE 基准中4个视频问答任务的算法，测试数据集包括 TVQA、How2QA、VIOLIN 和 VLEP，实现高效的视频推理，回答视频相关问题。该学生队伍采用的基于HERO的多模态网络架构，它具有强大的理解多通道视频的能力。团队将一系列视频片段和字幕句子作为输入，并以分层方式对它们进行编码，并使用跨模态转换器来融合字幕句子及其伴随的本地视频片段。跨模态转换器之后是时间转换器，以使用视频中的所有片段获得每个片段的全局上下文嵌入。该网络可以作为多通道视频编码器应用于不同类型的视觉-文本任务。最终，经过多任务、多通道训练，最后将多个单模型进行投票得到了最终成绩。

　　ICCV，全称IEEE International Conference on Computer Vision（国际计算机视觉大会）由IEEE主办，在世界范围内每两年召开一次。其与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议。

　　让学生通过学术竞赛快速提升科研能力、加强学术交流是该校人工智能学院人才培养的有力举措之一。“赛中学”不仅让学生快速了解该领域的相关知识，提高学生科研的动力，同时也锻炼了学生的组织协调能力、抗压能力。据介绍，近年来，智能学子已连续在多个国际顶会赛事中取得优异成绩，仅在2021年就于IGARSS、CVPR与ICCV国际赛事上已累计获得了7冠军、8亚军与5季军共20项奖项，人才培养成效显著。（通讯员：西安电子科技大学包容的钢笔 cjddy ggdbz）

西安电子科技大学教务处(西安 国际学校)

西安电子科技大学教务处(西安国际学校)