学子风采 | 新国大广研院博士奖学金得主秦冠羿入选ICCV 2025高光论文，破解视频目标分割难题-新加坡国立大学广州创新研究院

编者按

新加坡国立大学广州创新研究院（以下简称“研究院”）博士奖学金由广州市黄埔区提供，目标是依托新加坡国立大学（以下简称“新国大”）丰富优质的教育资源，为广州市黄埔区培养和输送具有全球视野、掌握前沿科技知识、能充分应对21世纪挑战的高素质博士人才。我们将在本栏目持续更新学子们在新国大的进步与收获，记录这些青年学者的成长轨迹。

新加坡国立大学广州创新研究院博士奖学金得主、新国大生物医学工程系博士二年级的秦冠羿同学斩获国际顶级学术殊荣 —— 他以第一作者身份撰写的论文《Structure Matters: Revisiting Boundary Refinement in Video Object Segmentation》，被国际顶级会议ICCV 2025评选为高光（Highlight）论文。

ICCV（International Conference on Computer Vision）国际计算机视觉大会，由 IEEE 计算机学会主办，与 CVPR、ECCV 并称为计算机视觉领域的三大顶级国际会议，每两年举办一次，是全球计算机视觉领域规模最大、水平最高的学术会议之一。ICCV 聚焦计算机视觉领域的前沿研究与创新成果，汇聚了全球顶尖的科研学者、工程师和行业专家，其收录的论文代表了当前计算机视觉领域的最高研究水平。其中Highlight 论文为会议重磅奖项，仅有约5%-10%的入选论文能获此殊荣，是对研究成果的创新性、学术价值与实际应用潜力的高度认可。

秦冠羿的研究聚焦计算机视觉领域中视频目标分割的核心难题——复杂场景下的边界混淆与结构感知缺失，致力于提升AI在复杂视频场景中的“结构感知力”。他提出的OASIS框架，通过引入边界引导与不确定性量化，显著改善了视频目标分割在遮挡、背景相似等挑战下的精度与稳定性，让AI在复杂场景中仍能精准锁定目标轮廓，为视频理解技术的发展提供了兼顾精度与效率的新路径。

学子专访

秦冠羿，新加坡国立大学生物医学工程系的博士二年级研究生，新国大广州创新研究院博士奖学金得主。他的导师是研究院学术带头人（Principal Investigator）、新加坡国立大学助理教授金玥明。秦冠羿本科毕业于华南理工大学，主修智能科学与技术，硕士毕业于清华大学人工智能专业。他目前的研究方向主要为多模态大模型、场景感知和理解、强化学习。

你为什么会选择现在的研究方向？

多模态大模型的形态赋予了综合处理视觉和语言的能力，在实现更复杂人工智能系统上具有优势。强化学习将多模态大模型沉浸在探索中，可以推出更优秀的泛化能力。这些方向既符合当下的技术趋势，也有很强的发展潜力，所以我选择围绕这些方向开展研究。

这个研究成果如果落地，你希望它首先应用在哪个场景？如果你的研究能改变世界的一小部分，你希望它改变什么？

这个研究目前的落地方向主要在于目标的追踪。我想如果能结合多模态方向做理解交互则会更具有实践可能性。

对于个体个人的研究，我没办法期望我的产出能改变社会什么。但是，从群体的角度来看，AI的研究能够发展生产力，更好地将人们从繁重无趣的工作当中解放出来。对于我来说，能够亲身感受这个发展进程，并为之贡献小小的一份力量，已经很好了。

请分享下你目前的读博体验，你觉得博士生活和你之前预想的一样吗？

预期大部分一致的。在读博过程中遇到的挑战更多的来自于环境上，比如来到一个陌生的国家，要适应并习惯一种新的生活等。这在一定程度上会影响我进入科研的状态。当然，实验室很好的氛围补足了这一点。

感谢我的导师金玥明，在这篇文章的写作中给予了很多的帮助。实验室的同学们也都互相支持作为依靠。

请给刚入学的博士学弟学妹们一些建议。

科研其实是顺其自然的事情，该有的产出总会有的。读博过程中，最重要的还是你自己——你有没有在这个过程中想清楚自己想要什么、明白了什么，遇到挫折的时候，是否能正确地调整好心态。试着让自己的生活过得有趣一些。

下面让我们来详细了解一下秦冠羿与团队近期发表的这项研究。

OASIS——结构感知的边界优化框架

研究背景与意义

视频目标分割是计算机视觉研究中的一项重要任务，在首帧中用掩码指定目标，模型需要持续跟踪并分割后续视频帧中的目标。该任务是视频理解中的基础问题，在自动驾驶、机器人、视频编辑和医疗干预等下游应用中都有重要价值。

目前研究在一般场景下已取得较好效果，但在目标遮挡、多个相似目标存在、前景与背景外观相近等复杂情况下，仍然容易出现边界混淆等问题，阻碍了实际应用。

边界信息在目标分割中的运用

本文指出，现有方法往往忽略了目标本身的几何结构与层次关系，导致模型在复杂交互场景中缺乏足够的结构感知能力。

因此，本工作重新审视了视频目标分割中的边界建模问题：不是单纯继续堆叠更复杂特征模块，而是回到目标结构本身，利用边界和形状信息提升模型对遮挡等关系场景的辨别能力，实现更稳健的分割。

网络结构图

核心创新点与成果

本文提出了OASIS，一种面向半监督视频目标分割的结构感知边界优化框架，其核心思想是把目标的内在结构信息重新引入分割流程中，从而提升复杂场景下的分割精度。

为此，论文提出了轻量级的结构优化模块。该模块先快速提取当前帧中的粗边缘先验，再结合记忆特征生成目标级结构图；同时，论文将循证学习引入视频目标分割用于不确定性建模，通过额外损失约束模型降低高不确定区域的预测偏差，进一步增强了复杂场景下的分割稳定性。

在实验结果上，OASIS在多个主流基准上均取得了优异表现，同时保持竞争性推理速度。

应用前景与影响

从学术价值看，本研究的重要意义在于重新强调了结构在视频目标分割中的作用。边界与结构信息并不是附属，而是影响目标辨识、遮挡处理和掩码精修的关键因素。该研究为后续视频分割方法提供了一个值得进一步拓展的方向，即把结构先验与时序记忆机制进行更深层次结合。

感谢秦冠羿同学的分享。回归问题本源，让AI看见结构——OASIS的诞生不是偶然，而是一个年轻学者对“什么才是真正重要的问题”的持续追问。期待他下一帧的精彩。