异质交互
在讨论自注意力或者Transformer相关工作的时候, 经常会提到"同质交互(Homogeneous Interactions)"和"异质交互(Heterogeneous Interactions)"这两个概念, 它们的区别和联系可以从以下的几个方面来解释.
同质交互指的是在相同特征类型给或者相同语义层次之间的交互, 例如, 在CNN中, 同一层特征图上不同像素(但是具有相同通道类型)的相互作用, 又或者是在Transformer中, 同一个特征序列(同一个模态, 统一类型token)内部的自注意力交互. 它更加倾向于捕捉相似信息的局部差异或者细节, 其优势在于可以深入挖掘同类特征之间的细微差别, 从而提供更加精细的表征.
异质交互指的是在不同特征类型或者语义层次之间的交互, 例如, 在多模态学习中, 图像特征和文本特征之间的交互. 或者在单模态下, 不同语义角色(例如图像中的目标区域和背景区域)之间的交互. 它更倾向于关注在不同类型或者不同维度(如空间维度, 通道维度, 模态维度)之间所产生的互补信息, 能让模型同时兼顾全局和局部, 或者多种模态之间的信息融合, 从而提升整体表现.
在一个完整的模型中, 同质交互和异质交互往往同时存在, 两者是相辅相成的. 很多现代神经网络架构(特别是Transformer架构)都会在同一个网络通过不同的机制(例如多头自注意力, 跨模态注意力等)同时实现这两种交互, 从而充分发掘数据的多样性.