Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering

2018 CVPR

这篇之前一直没看,做image caption和VQA任务,SCAN正式受此启发的在image-text matching上的工作

首先解释一下Top-down和Bottom-up是啥意思,参考链接

一开始不了解这个概念,就不大理解题目起得是啥意思,后来在Youtube上找到这两个概念的解释

这两个概念应该算是认知领域使用的名词:Top-down processing、Bottom-up processing,同样attention也应该是认知领域率先提出的概念吧。。

Bottom-up processing:

源于刺激(stimulus),比如在视觉中,运动的物体、未见过的内容会对我们产生更大的刺激

Bottom-up processing是指当没有任何先入为主的想法时对内容的认知

Top-down processing:

是指结合了背景知识(Background Knowledge)的对观察到内容的感知,我们对观察内容的理解受到背景期望的影响

介绍

提出自底向上、自顶向下注意力机制来处理image caption和VQA任务

以下是自己的认识

这里自底向上意思是从图像中无背景知识地获取内容

这里自顶向下注意力的意思是在对获取到的内容进行注意力获取时利用了语言模型的背景知识

先前使用自顶向下注意力机制的imagel caption模型的问题:之前的方法大多都是根据部分句子或单词从整个图片获取注意力区域(top-down),However, this approach gives little consideration to how the image regions that are subject to attention are determined.

这篇工作主要是在SAN(Stacked Attention Networks for Image Question Answering)的基础上思考的,SAN中作者用CNN来获得10x10一共100个特征向量,然后拿这些向量和问题计算注意力并以此输出回答。作者认为SAN这篇工作缺少对于图片内容的处理

方法

首先用Faster-RCNN进行目标检测和属性预测(Genome),获取Faster-RCNN的候选区域的中间表示作为自底向上处理获得的内容信息

注意这里还有属性预测,可以说提升了自底向上获得内容的丰富度,region embeddings应该包含更多的信息量,这里根据候选框的置信度取topk的region。

接下来就是利用自底向上提取的视觉信息完成image caption和VQA任务,具体实现目前不是很关心

评价

  • SCAN借鉴的应该是从检测模型获取Bottom-up信息的实现,其他的貌似也不像
  • 这种利用检测&分类模型的image caption应该说是在模型上经过了额外的标注训练(类似语言上的预训练模型?),这种思路应该可以扩展开
  • 感觉这个attention用得不是很好
  • 目前Image Caption有个类似GPT-3的工作CLIP,貌似是与机器学习中zero-shot等有关来进行预训练,后面可以考虑看看这些工作,从机器学习的角度来思考这个任务