
报 告 人:黄高
副教授
清华大学自动化系
主 持 人:林宙辰 教授
必赢71886网址登录智能学院、必赢626net入口
时 间:2025年3月6日 10:00-11:00
地 址:必赢71886网址登录新燕园校区教学楼208教室
报告题目:面向长序列建模的注意力机制
报告摘要:
基于Transformer的基础模型在自然语言处理、计算机视觉以及多模态学习领域取得了重要的研究进展。然而,长文本处理、高清图像或视频的理解与生成等任务造成的长序列问题为Transformer架构带来了巨大的挑战。一方面,Transformer中自注意力机制的计算复杂度关于输入序列长度呈平方关系,造成了训练和推理时间长、显存开销大等挑战。另一方面,长序列数据中有用信息的提取类似于“大海捞针”,现有的注意力机制容易受到长序列数据中的噪声信号的干扰,难以准确定位和提取关键信息。本报告将介绍如何利用具有线性复杂度的注意力应对长序列任务的计算效率问题,以及如何利用差分注意力应对长序列任务的噪声干扰问题。
报告人简介:
黄高,清华大学自动化系副教授,博士生导师。主要研究领域为深度学习与智能系统,发明了代表性深度卷积网络DenseNet。共计发表学术论文100余篇,被引7万余次,最高单篇引用超过5万次。获国家优青、CVPR最佳论文奖、达摩院青橙奖、世界人工智能大会SAIL奖、教育部自然科学一等奖、亚洲青年科学家奖、AI 2000人工智能最具影响力学者、MIT TR35等,担任IEEE T-PAMI、IEEE T-BD、Pattern Recognition等国际重要期刊编委和CVPR、ICCV、NeurIPS、ICML等人工智能顶级会议领域主席。