【学在西电】西电学子获CVPR 2023等全球性顶级赛事15项冠亚季军奖项-beoplay体育提现新闻网

西电要闻

【学在西电】西电学子获CVPR 2023等全球性顶级赛事15项冠亚季军奖项

发布时间：2023-06-21 16:25:44来源：人工智能学院点击：

西电新闻网讯（通讯员 王昕怡杨育婷）6月18日-23日，2023国际计算机视觉顶级会议IEEE Conference on Computer Vision and Pattern Recognition（CVPR）在加拿大温哥华会议中心举行。在焦李成院士、刘芳教授、李玲玲副教授、刘旭副教授与团队博士生杨育婷等的共同指导下，beoplay体育提现参赛队伍在CVPR 2023竞赛中再次斩获4冠军、6亚军、4季军奖项。此外，学生队伍在欧盟地平线2020研究和创新计划-农业食品赛事2nd ACRE Cascade Competition中获得冠军奖项，本次竞赛由国家自然科学基金重点项目、联合基金项目，教育部创新引智基地项目和国家“双一流”学科建设项目等支持。

由2022级硕士研究生“王梦佳、张竞文、高敏”组成的学生队伍获得CVPR 2023 FMDC Challenge: Zero-shot/Few-shot Image Classification赛题冠军。

队伍1.png

王梦佳、张竞文、高敏

由于少样本的学习困难性，目前大多使用单模态模型作为训练基准，队伍认为如何合理利用类别标签是解决这类问题的关键。因此，队伍采用微调CLIP的方法同时利用图片所在类别的标签文本信息和图片特征一起进行训练。在提取图片特征时，队伍使用随机旋转翻转、对比度、亮度变换等数据增强方法，丰富数据特征。最后，队伍通过结果融合获取最终结果，成绩位居榜首。队伍方案突破了零样本/小样本汽车状态数据分类困难、模型训练方案单一的关键技术，有效地提升了特定任务下的零样本/小样本跨模态分类的识别效果。

由2022级硕士研究生彭瑞、张柯欣、张君沛组成的学生队伍获得CVPR 2023 SoccerNet Challenge-Player Jersey Number Recognition赛题冠军。

彭瑞、张柯欣、张君沛

队伍首先使用DBNet++模型进行文本检测，过滤掉一部分没有号码的数据。然后使用图像旋转、缩放、色彩扰动、噪声添加和多帧图像叠加等数据增强的方法。同时，队伍使用多帧融合的数据增强方法来解决由于单帧噪声、模糊或遮挡等因素引起的识别困难问题，提高了号码的边界清晰度和对比度。在训练阶段，队伍将图片通过文本校正网络，在对多帧图像特征进行融合后使用SVTR、SATRN、NRTR、ASTER等多个模型进行训练，最后使用少数服从多数的投票策略进行结果融合。该方案突破了运动图像分辨率低，模糊度高的技术难点，显著提升了号码文本识别方法在低质量文本上的识别效果。队伍在该赛题测试集上取得了92.84%的精度，位居榜首。

由2022级硕士研究生陈宝亮、赵禹轩、徐逸卿组成的学生队伍获得CVPR 2023 LOVEU Challenge—Cross-Modal Video Retrieval with Reading Comprehension赛题冠军, 高敏、张竞文、王梦佳组成的学生队伍也获得了该赛题亚军。

陈宝亮、赵禹轩、徐逸卿

队伍采用StarVR模型作为基线模型，分别对视频和文本的多模态信息进行编码，并在特征空间进行对齐，同时使用对比学习的方法进行训练。在数据处理上，队伍对输入的视频使用随机抖动、随机灰度化和多尺度裁剪等多种数据增强方法。在此基础上，队伍提出了基于CLIP的图像文本匹配以辅助基线模型StarVR进行视频文本检索，将视频级别与图像级别的结果进行多级加权融合。该方案突破了多模态融合中语义差异大、视频文本理解不充分等技术难点，实现了更丰富的多模态融合策略。

由2022级硕士研究生陈宝亮、赵禹轩、徐逸卿组成的学生团队获得CVPR 2023 AVA Accessibility Vision and Autonomy Challenge - Segmentation Track赛题季军。队伍提出以CBNetV2-Swin Based和InternImage联合作为Backbone，使用HTC和Casced Mask-RCNN分别作为检测基准网络。针对数据集中显著的长尾分布问题，队伍在对多个损失函数进行测试后，决定采用加权交叉熵损失函数进行训练。在数据增强上，队伍使用了CopyPaste、Autoargument等方法，有效地解决了小目标检测问题。在模型融合过程中，队伍首先使用NMS在bbox级对模型进行初步融合，然后使用BPR对bbox边界分割进行精细化微调。突破了小目标检测精度低、长尾数据缺陷等技术难点，实现了在合成数据中的高精度检测。最后，该方案在测试集上的AP@0.50:0.95达到了57.06%的优异性能。

由博士研究生路小强、杨育婷、黄钟健组成的学生队伍获得CVPR 2023 VizWiz Visual Question Answering Challenge赛题冠军。

队伍4.png

路小强、杨育婷、黄钟健

队伍提出一种基于视觉语言预训练的答案区域引导VQA算法。不同于传统VQA算法将VQA当作多标签分类问题，队伍采用一个自回归解码器来生成最终的答案。此外，全局的图像特征中包含过多与文本不相关的区域，而基于预先使用检测器来提取目标特征的方法除了增加额外的计算负担外，也引入了部分与文本无关的特征。为此，队伍提出答案区域引导算法。首先将问题-图像-答案对输入至参考语义分割模型来获取图像中精准的答案区域，之后通过注意力模块引导模型更加注重答案区域特征，最后通过交叉注意力将多模态编码输入至答案解码器中获取结果。该方案突破了传统VQA算法中图像目标特征不突出引起的回答不确定度高的问题，提升了不同场景下的预测精度。

由2022级硕士研究生“张潇文、左谊、王子韬”组成的学生队伍获得CVPR 2023 6th UG2+ challenge Track 2.1 - Text Recognition through Atmospheric Turbulence赛题亚军和CVPR 2023 OmniLabel Challenge 2023 TrackA & TrackB赛题季军奖项。除此以外，该学生队伍获得CVPR 2023 EPIC-KITCHENS VISOR Semi-Supervised Video Object Segmentation、Audio-Based Interaction Recognition Challenge、Hand Object Segmentation Challenge赛题三项亚军奖项。“王昕怡、李丹旭、崔璇”组成的学生队伍也获得了Hand Object Segmentation Challenge赛题季军。

张潇文、左谊、王子韬

王昕怡、李丹旭、崔璇

队伍使用PointRend作为基线模型。通过PointRend网络，将输入图像划分为一组密集的网格，对每个位置进行预测，用来解决分割任务中边缘细化不足的问题。队伍使用双线性插值将低分辨率预测上采样到与输入图像相同的分辨率，并将它们与来自全局分割头的预测相结合。通过对局部和全局预测进行加权和融合。队伍突破了图像边缘恢复与精确分割领域的技术难点问题，在难以分割的物体边缘也能达到更准确的分割结果。最终在测试集上取得了第二名的成绩。

由2022级硕士研究佘文轩、刘雨组成的学生队伍获得CVPR 2023 VizWiz Grand Challenge Workshop Salient Object Detection赛题亚军。

队伍7.png

佘文轩、刘雨

队伍提出了一种基于Maskformer的多尺度融合策略。方案突破了显著性目标检测中目标确认困难的关键技术，实现了更准确的显著性目标检测效果。为丰富比赛数据，队伍使用额外数据集进行训练。队伍采用基线模型Maskformer预测一组二进制掩码，每个掩码都与单个全局类标签预测相关联，同时可以将任何现有的逐像素分类模型直接转换为掩码分类。在训练阶段，队伍采用512、720、1024的尺度进行训练，为了不丢失显著性目标，将缩放尺度最大限制为裁剪尺寸的1.25倍。在测试阶段，队伍使用指数移动平均（EMA）方法对参数做平滑处理，同时加入多尺度预测，使得单个模型可以达到92.5%的成绩。最终，由于不同模型对于显著性目标的认同存在差异，队伍采用硬投票的方法进行模型集成与结果融合，取得了92.9%的成绩。

由2022级硕士研究生高敏、王梦佳、张竞文组成的学生队伍获得由欧盟地平线2020研究和创新计划资助开展的农业食品赛事-2nd ACRE Cascade Competition 赛题冠军。

队伍8.png

王梦佳、张竞文、高敏

队伍采用Yolov7作为比赛的基线模型，在对数据集进行分析后，队伍首先提取出部分识别较为困难的数据，针对这些数据进行Mosaic、HSV色调处理、Mixup、图像旋转与翻转、图像缩放、图像裁剪等数据增强方法，提高数据之间的区分度。由于数据集中小目标数量较多，对小目标有识别错误或者不可识别的困难，队伍使用多尺度训练，在结果方面有显著提升。最后，对 Yolov7、Yolox-L、Yolov6-L6等多个模型进行融合作为比赛最终结果，成绩位居榜首。该方案突破了相似类别农作物和杂草在小目标检测中难度大的关键技术，有效地提高了最终的检测准确率。

据悉，CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议，是一年一次的学术性会议。CVPR的主要内容是计算机视觉与模式识别技术，是世界顶级的计算机视觉三大会议之一。据统计，团队在CVPR 2023中已累计获得冠亚季军奖项达16项。所有获奖队伍均收到竞赛主办方邀请，获奖方法将在CVPR 2023会议的Workshop上进行报告或者展示。

beoplay体育提现人工智能学院焦李成院士团队在遥感领域有30多年的经验积累，智能学子们也屡次在IGARSS、CVPR、ICCV、ECCV等多个国际顶会中斩获冠亚季军奖项达百余项。学院人才培养效果显著。“赛中学”不仅能够让学生快速了解该领域的相关知识，激发学生科研的动力，同时对团队学生的组织协调能力、写作能力与心理抗压能力具有显著提升。

责任编辑：冯毓璇