1. First Step
Title
- AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Abstract
- NLP에서 다루던 Transformer를 Vision task에 적용하는건 여전히 한계로 남아있다. Vision task에서는 Convolution network에 attention machanism을 결합하는 정도로밖에 사용되고 있지 않다. 그에따라 Convolution에 대한 의존성이 굉장히 높은게 현 상태다. 그러나 본 연구에서는 Convoution network가 꼭 필요하지 않고 순수 transformer에 일련의 image patch에 바로 적용하므로서 image classification에서 괜찮은 성능을 내는것을 보여준다.
Figures

- 이미지를 일정 사이즈로 쪼개고 flatten한 후 linear porjection을 통해 각 patch에 대한 embedding으로 나눈다.
- Sequence로 들어가지만 그에 대한 위치정보가 없기 때문에 position embedding을 필수적으로 넣어준다.
- 거기에 classification task로 학습할 수 있게 classification token을 같이 묶어주고 vanilla transformer encoder에 feed
2. Second Step
Introduction
- NLP의 large dataset에 대한 transformer의 성공에 영감을 받아 Vision task에도 Transformer를 적용하고자 한다.
- 있는 그대로의 transformer에 적용하기 위해 image patch단위로 끊어 그대로 입력한다.
- mid-size dataset(e.g. Image-Net)에서 CNN과는 다르게 inductive bias(translation equivariance , locality) 가 제대로 작용하지 않아 학습이 잘 되지않았다.
- 이는 결국 데이터 부족이 이유가 됐고 더 큰 사이즈의 데이터셋이 이를 해결한다.
Conclusion