编者按
新加坡国立大学广州创新研究院(以下简称“研究院”)博士奖学金由广州市黄埔区提供,目标是依托新加坡国立大学(以下简称“新国大”)丰富优质的教育资源,为广州市黄埔区培养和输送具有全球视野、掌握前沿科技知识、能充分应对21世纪挑战的高素质博士人才。我们将在本栏目持续更新学子们在新国大的进步与收获,记录这些青年学者的成长轨迹。
新加坡国立大学广州创新研究院博士奖学金得主、新国大生物医学工程系博士二年级的秦冠羿同学斩获国际顶级学术殊荣 —— 他以第一作者身份撰写的论文《Structure Matters: Revisiting Boundary Refinement in Video Object Segmentation》,被国际顶级会议ICCV 2025评选为高光(Highlight)论文。
ICCV(International Conference on Computer Vision)国际计算机视觉大会,由 IEEE 计算机学会主办,与 CVPR、ECCV 并称为计算机视觉领域的三大顶级国际会议,每两年举办一次,是全球计算机视觉领域规模最大、水平最高的学术会议之一。ICCV 聚焦计算机视觉领域的前沿研究与创新成果,汇聚了全球顶尖的科研学者、工程师和行业专家,其收录的论文代表了当前计算机视觉领域的最高研究水平。其中Highlight 论文为会议重磅奖项,仅有约5%-10%的入选论文能获此殊荣,是对研究成果的创新性、学术价值与实际应用潜力的高度认可。
秦冠羿的研究聚焦计算机视觉领域中视频目标分割的核心难题——复杂场景下的边界混淆与结构感知缺失,致力于提升AI在复杂视频场景中的“结构感知力”。他提出的OASIS框架,通过引入边界引导与不确定性量化,显著改善了视频目标分割在遮挡、背景相似等挑战下的精度与稳定性,让AI在复杂场景中仍能精准锁定目标轮廓,为视频理解技术的发展提供了兼顾精度与效率的新路径。
学子专访
秦冠羿,新加坡国立大学生物医学工程系的博士二年级研究生,新国大广州创新研究院博士奖学金得主。他的导师是研究院学术带头人(Principal Investigator)、新加坡国立大学助理教授金玥明。秦冠羿本科毕业于华南理工大学,主修智能科学与技术,硕士毕业于清华大学人工智能专业。他目前的研究方向主要为多模态大模型、场景感知和理解、强化学习。
下面让我们来详细了解一下秦冠羿与团队近期发表的这项研究。
OASIS——结构感知的边界优化框架
研究背景与意义
视频目标分割是计算机视觉研究中的一项重要任务,在首帧中用掩码指定目标,模型需要持续跟踪并分割后续视频帧中的目标。该任务是视频理解中的基础问题,在自动驾驶、机器人、视频编辑和医疗干预等下游应用中都有重要价值。
目前研究在一般场景下已取得较好效果,但在目标遮挡、多个相似目标存在、前景与背景外观相近等复杂情况下,仍然容易出现边界混淆等问题,阻碍了实际应用。
边界信息在目标分割中的运用
本文指出,现有方法往往忽略了目标本身的几何结构与层次关系,导致模型在复杂交互场景中缺乏足够的结构感知能力。
因此,本工作重新审视了视频目标分割中的边界建模问题:不是单纯继续堆叠更复杂特征模块,而是回到目标结构本身,利用边界和形状信息提升模型对遮挡等关系场景的辨别能力,实现更稳健的分割。
网络结构图
核心创新点与成果
本文提出了OASIS,一种面向半监督视频目标分割的结构感知边界优化框架,其核心思想是把目标的内在结构信息重新引入分割流程中,从而提升复杂场景下的分割精度。
为此,论文提出了轻量级的结构优化模块。该模块先快速提取当前帧中的粗边缘先验,再结合记忆特征生成目标级结构图;同时,论文将循证学习引入视频目标分割用于不确定性建模,通过额外损失约束模型降低高不确定区域的预测偏差,进一步增强了复杂场景下的分割稳定性。
在实验结果上,OASIS在多个主流基准上均取得了优异表现,同时保持竞争性推理速度。
应用前景与影响
从学术价值看,本研究的重要意义在于重新强调了结构在视频目标分割中的作用。边界与结构信息并不是附属,而是影响目标辨识、遮挡处理和掩码精修的关键因素。该研究为后续视频分割方法提供了一个值得进一步拓展的方向,即把结构先验与时序记忆机制进行更深层次结合。
感谢秦冠羿同学的分享。回归问题本源,让AI看见结构——OASIS的诞生不是偶然,而是一个年轻学者对“什么才是真正重要的问题”的持续追问。期待他下一帧的精彩。


