zlzon

[논문리뷰][OverFeat]Integrated Recognition, Localization and Detectionusing Convolutional Networks 본문

Paper Review

[논문리뷰][OverFeat]Integrated Recognition, Localization and Detectionusing Convolutional Networks

zlzon 2021. 12. 22. 16:46

Abstract

OverFeat는 classification, localization, detection을 통합한 최초의 1-stage detection 모델이다.  또한 multiscale, slinding window 방식이 ConvNet에서 어떻게 효율적인지 설명한다. 또한 ILSVRC2013 localization 분야에서 우승한다.

21 Dec 2013 에 발표되었고 2-stage방식인 R-CNN의 경우는 OverFeat보다 한달 빠른 11 Nov 2013에 발표되었다.

 

Introduction

OverFeat의 핵심은 classify, locate, detect object를 동시에 학습시키는 최초의 1-stage 방식이다. 또한 OverFeat는 localization, detection한 predicted bounding box를 합치는법을 novel한 방법으로 제시한다. 

ImageNet classification dataset을 보면 주로 object가 중앙에 위치해있지만, 실제로 관심있는 object들은 사이즈와 위치가 제각각인 경우도있다. 그러하여 이러한 점을 해결하기 위해 3가지 아이디어를 제시한다.

  1. multiple scale로 slinding window 방식을 적용한다.
  2. window를 기준으로 objedct를 포함하는 bounding box의 위치와 크기를 예측한다.
  3. 위치와 크기별로 각 카테고리의 증거를 축적한다.

Model Design and Training

ImageNet 20121 training set

256 pixels로 dwonsample 후 221 x 221 pixels로 5 random crop(and horizontal flip)을 실시한다.

mini-batchs 128, SGD, DropOut 사용

Layer 1-5 까지는 AlexNet과 유사하며, relu와 max pooling을 사용하지만, 3가지 다른점이 있다.

  1. normalization X
  2. pooling reginos are non-overlapping
  3. our model has larger 1st and 2nd layer feature maps

모델은 fast, accurate로 2개가 있으면 accurate 모델이 fast모델보다 빠르다.

 

Multi-Scale Classification

OverFeat는 pooling을 실시 할때 (x, y) offset {0, 1, 2} 의 조합으로 총 9개의 Output map을 만든다. 

 

Results

Image Classification의 경우 ILSVRC 2013 에서 18개 팀 중 5위를 달성하였다.

 

ConvNets and Sliding Window Efficiency

fc-layer는 1x1 conv layer로 대체되어서 다양한 scale에 대해 학습가능하다.

 

Localization

classifier layers를 regression network로 교체하고 object bounding box를 예측하게 학습시킨다.

OverFeat는 classifier, regressor network를 동시에 실행되기 때문에 feature extraction layer를 공유하기 때문에 classification network가 compute후 final regression layers는 recompute 한다. 마지막 softmax layer에서는 각 클래스에 대한 점수를 output한다.

regression network의 input = pooled feature map from layer5 , l2 loss 사용, IoU와 50% overlap되어야 맞는걸로 판정

Combining Predictions

Results