今日说法20130414,生活小故事,蟹岛嘉年华游乐土
本文是上海科技大学和腾讯优图在MLP架构方面的索求,它设计了一种轴向移位操纵以便于进行空间信息交互。在架构方面,AS-MLP采用了类似PVT的分层架构,因为能够轻易的迁移到下游任务。所提方法在ImageNet内容集上取得了优于其他MLP架构的性能,在COC检测与ADE20K分割任务上取得了与Swin相当的性能。值得一提的是,AS-MLP是首个迁移到下游任务的MLP架构。
注:CycleMLP与AS-MLP属于统一时期的工作,发到arxiv的时间也只差两天,说两者都是首个其实也能够。
pa p er:
https://arxiv.org/abs/2107.08391
code:
https://github.com/svip-lab/AS-MLP
一、Abstract
本文提出了一种轴向移动架构AS-MLP(Axial Shifted MLP)用于分歧的视觉任务(包括图像分类、检测以及分割)。分歧于MLP-Mixer通过矩阵转置+词混叠MLP进行全局空域特性编码,我们在局部特性通讯方向投入了更多的存眷。
通过轴向移动特性信息,AS-MLP能够获得分歧方向的信息流,这有助于捕捉局部相关性。该操纵使得我们采用纯MLP架构即可取得与CNN雷同的感受野。我们还能够类似卷积核设置AS-MLP模块的感受野尺寸以及扩张因子。如此简洁而有效的架构取得了优于其他MLP架构的性能,同时具有与Transformer架构(好比Swin Transformer)相当的性能,甚至具有稍少的FLOPs。好比,AS-MLP在ImageNet内容集上凭借88M参数量+15.2GFLOPs取得了83.3%top1精度,且无需额外训练内容。
此外,所提AS-MLP也是首个用于下游任务(如目标检测、语义分割)的MLP架构。AS-MLP在COC验证集上取得了51.5mAP指标,在ADE20K内容集上取得了49.5mIoU指标,具有与Transformer架构相当的性能。
二、Method
上图给出了本文所提AS-MLP-Tiny架构示意图,它以RGB图像作为输入,然后将其拆分为非重叠 4×4 块,此时获得尺寸为的词。由于AS-MLP具有四个阶段,每个阶段具有分歧数量的AS-MLP模块。前述所得的所有词将被送入送入到这四个阶段,最终的输出特性将被用于分类。
阶段1包括一个线性嵌入层与多个AS-MLP模块,输出词的维度为;阶段2先辈行块合并快要邻 2×2 块进行合并获得尺寸为的词,然后通过线性层映射为并后接多个AS-MLP模块。阶段3与阶段4具有与阶段2相似的布局。
AS-MLP Block
下图给出了本文的焦点模块的架构示意图,它主要包括Norm、Axial Shift操纵、MLP以及残差毗邻。在Axial Shift操纵中,我们采用通道投影、垂直移动、程度移动提取特性。
如上图b所示,我们以程度移动进行阐明。假设输入尺寸为 C×h×w ,为方便起见,我们忽略了h并假设 C=3,w=5C=3,w=5 。当移动尺寸为3时,输入特性被分为三部门,每部门分别沿程度方向移动 {-1,0,1} 步长。注:此时我们采用了“zero-padding”。垂直移动操纵与程度移动非常类似。
通过程度移动与垂直移动,特性能够进行了单一空间方向上的汇聚。在接下来的通道投影操纵,两个方向的信息将进行汇聚。下图给出了本文所提AS-MLP实现code。
本文地址:http://www.wbwb.net/bianchengyuyan/228429.html 转载请注明出处!