近日,我院钟忺老师团队指导的2022级本科生冯炜作为第一作者完成的学术论文《From Temporal Thumbnail to Semantics: Debiasing Multi-View Action Recognition》被人工智能与模式识别领域国际权威期刊《Pattern Recognition》正式录用。该期刊为中科院一区TOP期刊,在领域内具有广泛影响力和极高学术声誉。本科生参与并完成高水平期刊论文研究,充分体现了我院在本科生科研能力培养方面的扎实成效。

该论文由冯炜等同学在钟忺、刘文璇等老师的指导下开展研究。论文聚焦多视角动作识别这一典型而富有挑战性的视觉理解任务,围绕复杂场景中模型泛化能力不足的问题展开深入分析。研究发现,现有方法在学习过程中往往受到静态背景信息和视角不对称因素的影响,从而产生隐性偏差,限制了模型在遮挡严重或动作复杂场景下的表现。
针对上述问题,研究提出了一种新的去偏学习框架,通过对动作时序信息与语义特征进行更合理的建模与融合,引导模型更加关注真实的动作模式而非偶然线索。该方法在多个公开基准数据集上取得了领先的识别性能,同时在计算效率和模型规模方面保持了良好平衡,展现出较高的实用价值与稳定性,相关结果得到了审稿人的积极评价。
科研探索,打通研究闭环
谈及科研过程,冯炜表示多视角动作识别看似成熟,但在复杂现实场景中仍存在大量隐含问题。“我们在复现实验和分析失败案例时,逐渐意识到模型可能‘学错了东西’,过分依赖静态背景或某些视角的偶然信息。”在导师及团队成员的指导下,课题组从偏差建模的角度重新审视问题,逐步形成了以“去偏学习”为核心的研究思路。
在研究推进过程中,模型结构设计、跨视角信息交互方式以及不确定性建模均经历了多轮尝试与修改。冯炜表示,导师不仅在研究方向和技术细节上给予了关键指导,也在论文写作、实验设计和审稿意见回复等方面提供了系统训练,使他对科研的完整流程有了更加深入的理解。
以研促学,助力学术跨越
本科阶段参与高水平科研并在国际期刊发表研究成果,是我院持续推进本科生科研训练的重要体现。学院通过鼓励本科生尽早进入科研团队、深度参与真实科研问题研究,为学生搭建了从课程学习走向前沿探索的成长通道。
谈及收获,冯炜直言,此次科研工作的完成让他在研究方法、问题拆解与系统建模能力等方面得到了系统训练。未来,他将继续在研究生阶段围绕多模态大模型等前沿方向,探索跨模态信息建模与智能感知的关键问题,推动模型在复杂真实场景中的理解与泛化能力提升。
近年来,我院不断完善本科生科研培养体系,依托稳定的科研团队和良好的学术环境,引导学生从具体问题出发,逐步走向更具挑战性的研究方向。学院也将持续以高水平科研为牵引,支持学生在更高层次的学术舞台上开展探索,培养具有扎实基础与创新潜力的高层次科研人才。
(来源:冯炜 钟忺 编辑:戴美娟 审稿:韦宇 钟忺)