본문 바로가기

컴퓨터비전/Backbone5

[논문리뷰] CvT: Introducing Convolutions to Vision Transformers 참조  [논문리뷰] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Vision Transformer)참고 자료 [논문리뷰] Attention is All you need의 이해 소개 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best perforlcyking.tistory.com  들어가며  최근 Vision Transformer(ViT)의 구조가 컴퓨터 비.. 2024. 5. 12.
[논문리뷰] LocalViT: Bringing Locality to Vision Transformers 참조  [논문리뷰] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Vision Transformer)참고 자료 [논문리뷰] Attention is All you need의 이해 소개 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best perforlcyking.tistory.com 들어가며 본 논문은 ViT를 기반으로 작성된 논문입니다. 수용필드가 Global.. 2024. 5. 1.
[논문리뷰] Swin Transformer v2: Scaling Up Capacity and Resolution 참조  [논문리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows소개 오늘 리뷰하는 논문은 Swin Transformer(Swin)입니다. 이 논문은 Vision Transformer(ViT)의 후속작이라고 보시면 될 것 같습니다. 그렇기 때문에 ViT 기반으로 모델이 동작하는 부분이 대다수이기 때문lcyking.tistory.com 들어가며 본 글은 제목 그대로 Swin Transformer의 후속작입니다. 그렇기 때문에 Swin Transfomrer의 사전 지식이 있다는 가정 하에 작성되었습니다. 기존 Transformer는 NLP 도메인에서는 모델이 커지거나 시퀀스가 길어지면 지속해서 성능이 올라가는데, Swin에 사.. 2024. 5. 1.
[논문리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 소개 오늘 리뷰하는 논문은 Swin Transformer(Swin)입니다. 이 논문은 Vision Transformer(ViT)의 후속작이라고 보시면 될 것 같습니다. 그렇기 때문에 ViT 기반으로 모델이 동작하는 부분이 대다수이기 때문에 꼭 ViT 논문을 보고 오시는 것을 추천드립니다. 위에서 언급한 것처럼, Swin은 ViT 기반으로 만들어진 백본입니다. 그렇기 때문에 컴퓨터 비전에 CNN의 구조가 아닌 Transformer 구조를 따릅니다. 기존 ViT와 달리 본 논문에서 제안한 기술은 제목에서 볼 수 있듯이 2가지로 구성됩니다. 첫 번째 제안 기술(계층적 구조): 기존 CNN의 계층적 구조는 다들 아시죠? 일반적인 CNN 즉, 백본(Backbone)이라고 불리는 구조는 아래 그림과 같습니다. 다 .. 2024. 1. 4.