农大校徽 南管委

学术动态

信息学院2024年学术报告(十三)

发布时间:2024-09-19浏览次数:11

题目:高效视频理解

主讲人:常晓军

时间:20249209:00

地点:文理楼804

    报告摘要:

    在本次报告中,将探讨视频理解领域的前沿进展,重点介绍三项关键工作。首先,介绍时空金字塔变压器(Spatio-Temporal Pyramid TransformerSTPT)在动作检测中的应用,该方法创新性地结合了局部窗口和全局注意力机制,捕捉时空依赖关系,在显著降低计算成本的同时实现了优异的性能。接下来,介绍用于视频语义分割的遮罩传播框架(Mask Propagation for Video Semantic SegmentationMPVSS),该框架通过从稀疏关键帧传播准确的遮罩,提高了效率,在VSPWCityscapes等基准测试上达到了最先进的精度和效率。最后,讨论用于长视频理解的长视频语言模型(LongVLM),该模型借助大语言模型(LLM)将长视频分解为短片段,并将局部特征与全局语义相结合,生成全面而精确的响应。这些工作展示了高效且强大的模型在视频理解领域的潜力,为精度、效率和全面分析带来了显著提升。

    个人简介:

常晓军,教授,中国科学技术大学的讲席教授、国家级高层次人才,曾获得澳大利亚研究委员会的早期职业研究奖。主要研究方向包括多模态学习、计算机视觉、绿色人工智能及其在社会公益中的应用。先后主持了包括澳大利亚研究委员会在内的十多个国家级项目。其研究成果已在国际顶级期刊(如T-PAMITIP)和CCF A类会议上发表超过150篇论文,谷歌学术引用次数超过18,000次,其中21篇论文被选为ESI高被引/热点论文,20192023年连续被评为科睿唯安高被引学者。担任IEEE TCSVTIEEE TNNLSACM TOMM等国际顶级期刊的副主编,以及CCF A类会议的领域主席。

 


回到顶部