GroupFormer简要学习笔记

摘要

快速记录下 GroupFormer 网络的核心思想。

paper:

code:

主要结构

![figure1](

  1. 提取视频clip的特征表示的CNN主干;
  2. 用于个体和场景特征初始化的群体表示生成器 (Group Representation Generator,GRG);
  3. 用于建模时空关系,细化群体表示和个体表示的聚类时空Transformer (CSTT);

特征提取器

Kinetics预训练的3D网络 (I3D) 作为Backbone

群体表示生成器

是一个在模型中用于初始化群体表示的预处理组件,将场景特征和个体特征分别转换为视觉token,将它们聚合以生成群体表示

聚类时空Transformer

时空Transformer

为群体活动识别而设计的时空Transformer(STT)增强了个体表征和群体表征。它包括两个并行的编码器(一个空间编码器和时间编码器 ),分别生成空间和时间特征。并引入交叉的个体解码器 来解码时空上下文信息。最后,用一个群体解码器 来增强群体的表示。

Encoders

采用了两个并行编码器来embed上下文特征。在一个分支中,作者采用了一个基于Transformer的空间编码器 来学习个体的上下文信息。将时间维度视为Batch维度,并应用一个编码器来建模所有帧的空间上下文。

另一种并行时间编码器 利用时间动态线索增强输入特征,通过突出每个个体沿时间维度的信息特征来丰富时间上下文。时间编码器遵循空间编码器的操作。与上述空间编码器的不同之处在于,时间编码器将空间维度视为一个Batch维度。

Individual Decoders

作者提出了个体解码器 来综合考虑空间和时空上下文信息。个体解码器遵循标准Transformer的解码器的设计,来互补利用时空上下文。

对于空间解码器 ,空间编码器的输出结果被视为 actor query,时间编码器输出结果的embedding被视为key和value。actor query和key、value进行cross-attention,捕获时间动态,并输出更新后的上下文特征。

同样的,对于时间解码器 ,空间编码器的输出结果将时间维度与空间维度进行转换,可以看作是解码器使用的key和value。解码器将时间上下文视为time query,然后进行cross-attention的过程,时间解码器有助于查找视频中感兴趣的帧。

最后,将这两个交叉解码器的输出embedding进行融合,生成增强的个体表示。这两种交叉解码器是利用了基于空间上下文和时间上下文的语义关联来增强个体表征。

Group Decoder

引入了一个群体解码器 (Group Decoder)来通过个体表示来增强群体表示。群体解码器也遵循Transformer的解码器设计。与原Transformer的区别在于,群体解码器只包含多头交叉注意机制和一个前馈网络,不包含Self-Attention。

Clustered Attention Mechanism

虽然基于全连接注意机制的时空Transformer(STT)能够建模个体的关系,但它包含了许多不相关个体的关系。为了使模型能够关注关键的群体关系,作者将全连接的注意力替换为聚类的注意力,并将整个模块称之为聚类时空Transformer(Clustered Spatial-Temporal Transformer,CSTT) 。它可以对个体进行分组,并利用组内和组间的关系来捕获全局活动上下文。

首先将个体分组为C个聚类,然后计算一下两种类型的注意:

  1. 组内注意(intra-group attention) :只有来自同一个聚类内的query和key才会被考虑。
  2. 组间注意(inter-group attention) :考虑了聚类之间成对的加权连接。

网络优化

本文提出的CSTT以端到端的方式进行训练。在CSTT中,可以直接从群体表示生成群体活动分数。同样,采用另一个分类器,使用CSTT生成的个体表示来预测个体的动作得分。对于这两个任务,作者都选择了交叉熵损失函数来指导优化过程:

总结

在本文中,作者提出了一种新的基于Transformer的结构,称为GroupFormer,它联合建模了时空上下文表示来推断群体活动。此外,作者还引入了聚类注意机制来对个体进行分组,并利用组内和组间的关系获得更好的群体特征表示。作者在两个数据集上进行了广泛的实验。结果表明,GroupFormer的表现超过了大多数目前的SOTA方法。

- ETX   Thank you for reading -
  • Copyright: All posts on this blog except otherwise stated, All adopt CC BY-NC-ND 4.0 license agreement. Please indicate the source of reprint!