零碳青年 | 标注受限场景下的视觉感知——学术沙龙回顾

       5月8日晚,由中国科学院大学团委指导,中国科学院大学学生会主办的“零碳青年”学术沙龙第四期在雁栖湖校区教一楼114教室成功举办。本期学术沙龙的来自主讲嘉宾是中国科学院大学2022级直博生王淏辰,培养单位自动化研究所。报告主题为“标注受限场景下的视觉感知”。

       王淏辰从研究背景与意义、标注受限场景主流赛道、半监督语义分割与自监督表征学习四个方面,进行了详细的介绍。

       王淏辰以视觉感知的定义为切入点,基于大规模数据集难以构建和无标注数据海量存在的两个事实,深入介绍了标注受限场景下视觉感知模型的研究意义,以及以半监督学习、弱监督学习以及自监督学习为代表的标注受限场景的主流赛道。

       随后,王淏辰基于“主流半监督学习方法往往将低质量的伪标签忽略”这一核心观察,分享了他发表于CVPR 2022的研究成果——利用不可靠的伪标签进行半监督语义分割。

       紧接着,王淏辰介绍了自监督表征学习中经典的图像掩码学习方法,同时分享了他发表于CVPR 2023的研究成果——自监督掩码学习中的困难样本挖掘。

       最后,王淏辰简要介绍了未来的研究方向,并从研究想法的产生、投稿时期的时间规划和审稿人的心理三方面,分享了自己在做科研时的感悟。

       除了主讲人分享,活动现场还设置了提问环节,让同学们更深入地了解该领域的知识。

       Q1:核心消融实验指的是什么?

       A1:核心消融实验指的是能够证明论文中核心观点的实验。例如,论文的核心观点是提出的方法非常高效,则此情况下的核心消融实验应当为所提出方法与其他方法在运算速度上的量化比较。

       Q2:ChatGPT和Segment Anything对未来的科研形式有哪些冲击?

       A2:传统研究往往是在同一基准下,希望自己提出的方法能够相较以往方法获得性能提升。这意味着在模型结构和训练数据方面,大家都要保持一致。而在当前大模型的浪潮下,许多有影响力的工作,例如OpenAI提出的CLIP,Meta提出的Segment Anything,都是从数据的源头出发,意图直接训练一个通用的大模型。因此,在这个背景下,沿着某一基准继续做小模型、小数据的研究,意义似乎不大。应当顺应时代潮流,拥抱大模型。

       本期“零碳青年”学术沙龙活动带领同学们从视觉感知的角度探索双碳科技前沿,详细介绍了标注受限场景下视觉感知模型的研究进展,为双碳战略提供科技支撑,贡献青年学子智慧,彰显青年学子担当。

                                                                                          图/ 韦枫(媒体宣传部)

                                                                                        文/ 陈宗彪(学术科创部)