백본1 [논문리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 소개 오늘 리뷰하는 논문은 Swin Transformer(Swin)입니다. 이 논문은 Vision Transformer(ViT)의 후속작이라고 보시면 될 것 같습니다. 그렇기 때문에 ViT 기반으로 모델이 동작하는 부분이 대다수이기 때문에 꼭 ViT 논문을 보고 오시는 것을 추천드립니다. 위에서 언급한 것처럼, Swin은 ViT 기반으로 만들어진 백본입니다. 그렇기 때문에 컴퓨터 비전에 CNN의 구조가 아닌 Transformer 구조를 따릅니다. 기존 ViT와 달리 본 논문에서 제안한 기술은 제목에서 볼 수 있듯이 2가지로 구성됩니다. 첫 번째 제안 기술(계층적 구조): 기존 CNN의 계층적 구조는 다들 아시죠? 일반적인 CNN 즉, 백본(Backbone)이라고 불리는 구조는 아래 그림과 같습니다. 다 .. 2024. 1. 4. 이전 1 다음