AAAI Conference on Artificial Intelligence会议是人工智能领域最重要的国际会议之一,是CCF推荐的A类会议。人工智能学院李成龙教授团队共有4篇论文被AAAI 2025录用,涉及多模态目标跟踪、多领域行人属性识别和显著目标检测等研究方向。AAAI 2025共收到12,957份投稿,3032篇论文被录用,录取率为23.4%。AAAI2025将于2025年2月25日- 3月4日在美国宾夕法尼亚州费城举办。
论文“Cross-modulated Attention Transformer for RGBT Tracking”由安徽大学人工智能学院肖云副教授为第一作者、李成龙教授为通讯作者。目标跟踪在自动驾驶、机器人等领域具有广泛的应用。可见光-红外(RGBT)目标跟踪旨在联合利用可见光提供的丰富色彩纹理信息,以及热红外在极端环境下的穿透性实现鲁棒的目标跟踪。现有的基于Transformer的模型大多关注特征融合,利用自注意力提取单模态特征,交叉注意力增强多模态交互,一方面忽略了跨模态注意力权重分布的一致性,导致不准确的注意力计算结果,另一方面具有较高的计算复杂度。 针对上述问题,本文提出一种交叉调制注意力模块(CMA),将各分支中独立的自注意力块结合起来,在相关性权重建立的过程中嵌入交叉注意力过程,使不同模态分支的注意力权重能够相互学习,在优化注意力权重同时也实现了多模态信息的有效融合,从而同时提升了模型精度和效率。
图1 整体框架
论文“RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba”由安徽大学计算机科学与技术学院博士后鹿安东为第一作者,人工智能学院李成龙教授、计算机科学与技术学院罗斌教授共同为通讯作者。现有RGBT目标跟踪相关工作缺少对不同层级特征之间互补性的探究,且现有架构难以实现全层级的全微调建模。针对此问题,本文提出了一种基于渐进式Mamba的全层多模态网络 (AINet),利用Mamba在建模长序列方面的优势实现全层级的特征建模,同时保持了较高的计算效率。具体来说,本文设计了差分融合Mamba模块 (DFM),通过差分结构放大模态差异信息,有效地进行模态信息互补增强,并设计了动态排序融合Mamba模块 (OFM)来预测全层特征的扫描顺序,通过输入感知的动态扫描路径,实现自适应信息聚合并减轻早期输入信息的遗忘。在四个公共基准数据集上进行了实验,结果表明本文方法超过了目前最先进的方法。此外,与基于Transformer的融合方法对比,本文方法有着更少的显存消耗和更高的计算效率。
图2 网络结构示意图
论文“Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework”由安徽大学计算机科学与技术学院金建东博士为第一作者,计算机科学与技术学院王逍副教授、人工智能学院李成龙教授共同为通讯作者。行人属性识别(PAR)作为人类感知任务之一,旨在通过计算机视觉技术,识别行人图像中的多种属性,如性别、发型、穿着等,得到了广泛的关注。现有数据集通常缺乏对跨域因素(如不同环境、时间、人口和数据来源)的有效处理,且多依赖于简单的随机分割方式进行训练和测试,模型性能趋于瓶颈。为了解决这些问题,本文提出了一个大规模的多领域行人属性识别数据集,称为MSP60K,由来自8个不同场景的行人图像数据60,122 张和57个属性注释组成,揭示了引入跨域设定对研究行人属性识别实用性的重要性,并使用合成退化来模拟复杂的动态真实世界环境。同时提出了一种新的多模态大语言模型增强的PAR框架,利用多模态大预言模型探索属性之间的上下文关系,生成有助于属性识别的描述。该方法由三个主要模块组成:多标签分类分支、大语言模型分支和模型聚合。
图3 多模态大语言模型增强的 PAR 框架
论文“Alignment-Free RGB-T Salient Object Detection: A Large-scale Dataset and Progressive Correlation Network”由安徽大学计算机科学与技术学院王鲲鹏博士为第一作者,计算机科学与技术学院涂铮铮副教授、罗斌教授共同为通讯作者,人工智能学院李成龙教授为合作作者。显著目标检测任务旨在定位并分割出视觉场景中人们最关注的区域,是计算机视觉领域的研究热点之一。针对原始捕获的RGB-T图像在空间和尺度上未对齐问题,本文构建了一个大规模、高多样性的未对齐数据集用于促进无需对齐的RGB-T显著性目标检测的研究,包括20,000对图像、407个场景、1256个目标类别以及多样的标注。针对难以利用多模态间的对应关系问题,本文提出了一个渐进相关网络,在显式对齐的基础上对模态间和模态内相关性进行建模。具体来说,本文提出了一个语义引导的单应性估计模块,引入并微调了现有的多模态单应性估计器,显式对齐可见光和热模态之间的共同区域。此外,本文还提出了一个模态间和模态内相关性模块,全面建模显著性区域的相关性。在未对齐、弱对齐和对齐数据集上进行的大量实验,验证了本文方法的有效性。
图4 所提出的PCNet的整体架构
新闻链接:http://www.ahu.edu.cn/2024/1216/c15059a354479/page.htm
网站内容来源于互联网,由网络编辑负责审查,目的在于传递信息,提供专业服务,不代表本网站平台赞同其观点和对其真实性负责。如因内容、版权问题存在异议的,请与我们取得联系,我们将协调给予处理(按照法规支付稿费或删除),联系方式:ahos@aiofm.ac.cn 。网站平台将加强监控与审核,一旦发现违反规定的内容,按国家法规处理,处理时间不超过24小时。