1. First Step
Title
- Pyramid Vision Transformer : A Versatile Backbone for Dense Prediction without Convolutions
Abstract
- 일반적으로 사용되는 CNN에서 Convolution free network로 Backbone을 만드는게 대세가 되어가고 있지만 ViT는 일반적으로 classification에만 활용되고 Dense Prediction에는 잘 활용하지 못한다. 이를 바꾸기 위한 PVT를 소개함. PVT는 다음과 같은 이점이 있다.
- low-res에 대한 output, high computational cost이라는 약점이 있는 ViT와 다르게 PVT는 high resolution에 대한 dense partition의 학습 뿐 아니라 줄어드는 pyramid형태의 디자인으로 computational cost마저도 줄였다.
- CNN과 마찬가지로 가변적이기 때문에 Backbone으로서 직접적으로 대체가 가능하다.
- object detection, instance/semantic segmentation에 대해 확장실험을 진행했고 이에 대한 검증이 되었음.
Figures

- CNN 계열, ViT 그리고 PVT에 대한 비교 그림이다.
- CNN 계열 : 일반적으로 Dense Prediction(object Detection - DET, Segmentation - SEG 에 대한 경우 위 (a)와 같은 Pyramid형태로 여러 크기에 대한 추출을 시도한다.
- ViT : columnar structure로 Classification(- CLS)에 대해서만 유용하다.
- PVT : CNN의 Pyramid 형태를 빌려온 PVT는 여러 vision task에 versatile(유용한) 한 ViT계열의 임팩트를 가진 backbone을 제공한다.
2. Second Step
도입과 결론, 초록에는 저자가 논문 리뷰어들에게 왜 자신의 논문이 게재 승인되어야 하는지 명확히 설명하기 위해신중하게 요약한 내용이 담겨 있습니다. 그리고 관련된 다른 연구에 대한 부분은 가능하면 생략하세요. 이 부분은 저자의 연구가 다른 사람들의 연구에 비해 얼마나 느낌있는지를 보여주기 위한 내용이기 때문입니다. 그렇기 때문에 해당 논문의 분야에 대해 익숙치 않다면 읽어보는 것이 도움되지만 이해하기 어려울 수도 있습니다.
Introduction