信息学院2024年学术报告（十三）

题目：高效视频理解

主讲人：常晓军

时间：2024年9月20日9:00

地点：文理楼804

报告摘要：

在本次报告中，将探讨视频理解领域的前沿进展，重点介绍三项关键工作。首先，介绍时空金字塔变压器（Spatio-Temporal Pyramid Transformer，STPT）在动作检测中的应用，该方法创新性地结合了局部窗口和全局注意力机制，捕捉时空依赖关系，在显著降低计算成本的同时实现了优异的性能。接下来，介绍用于视频语义分割的遮罩传播框架（Mask Propagation for Video Semantic Segmentation，MPVSS），该框架通过从稀疏关键帧传播准确的遮罩，提高了效率，在VSPW和Cityscapes等基准测试上达到了最先进的精度和效率。最后，讨论用于长视频理解的长视频语言模型（LongVLM），该模型借助大语言模型（LLM）将长视频分解为短片段，并将局部特征与全局语义相结合，生成全面而精确的响应。这些工作展示了高效且强大的模型在视频理解领域的潜力，为精度、效率和全面分析带来了显著提升。

个人简介：

常晓军，教授，中国科学技术大学的讲席教授、国家级高层次人才，曾获得澳大利亚研究委员会的早期职业研究奖。主要研究方向包括多模态学习、计算机视觉、绿色人工智能及其在社会公益中的应用。先后主持了包括澳大利亚研究委员会在内的十多个国家级项目。其研究成果已在国际顶级期刊（如T-PAMI、TIP）和CCF A类会议上发表超过150篇论文，谷歌学术引用次数超过18,000次，其中21篇论文被选为ESI高被引/热点论文，2019至2023年连续被评为科睿唯安高被引学者。现担任IEEE TCSVT、IEEE TNNLS、ACM TOMM等国际顶级期刊的副主编，以及CCF A类会议的领域主席。