컴퓨터 비전7 [논문리뷰] Exploring Plain Vision Transformer Backbones for Object Detection 들어가며 이 논문은 사전 학습된 비계층적 구조인 ViT를 백본으로, Object detection에 활용한 모델입니다. 논문의 핵심은 아래와 같습니다. Multi-Scale의 feature map으로부터 여러 계층 구조를 활용하는 FPN은 불필요하고, Single-scale의 feature map으로부터의 심플한 feature pyramid로 충분함 Fine-Tuning의 과정에서 window attention을 사용하는데, cross-window는 모든 블럭에블록에 적용하지 않고, 아주 적은 블록에 적용하는 것만으로도 충분함(Swin 참고 링크). Pre-Training 과정에 ViT 백본은 Masked Autoencoders(MAE)로 사전 학습 되었음(MAE 참고 링크). 기존 Object Dete.. 2024. 1. 16. [논문리뷰] SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers 들어가며 오늘은 Transformer 구조를 semantic segmentation에 사용한 SegFormer를 리뷰하려고 합니다. 이 모델을 네트워크 속도 향상에 중점을 두면서도 성능을 최소한의 파라미터로 극대화한 모델입니다. 단순히 속도만 끌어올린 것이 아닌, 성능 또한 최소한의 파라미터로 개선하였습니다. 그렇게 하여 동일한 파라미터 대비 CNN, Transformer 기반의 모든 모델들의 성능을 능가하였으며, 심지어 제일 가벼운 버전의 Segformer(파라미터 수에 따라 여러 버전이 있음)는 real-time도 가능하다고 합니다. 이런 것을 가능하게 해 준 몇 가지 기법이 있습니다: 계층적인 Transformer 인코더: CNN은 이미 이러한 계층적인 구조를 사용하고 있습니다. 그렇다면 왜 계층적.. 2024. 1. 10. [논문리뷰] Global-Local Path Networks for Monocular Depth Estimationwith Vertical CutDepth(GLPDepth) 들어가며 이번에 소개할 논문은 Monocular depth estimation(MDE)의 연구인 GLPDepth입니다. 핵심 기술은 아래와 같습니다. 계층적인 Transformer 인코더: 이 모델의 인코더 구조는 Segformer와 동일합니다. 간략한 특징으로는 이미지 해상도를 계층적으로 줄여가며 Attention을 수행하기 때문에 다양한 scale의 features와 연산 속도에 이점이 있습니다. lightweight 디코더: lightweight 디코더를 설계하는 것도 Segformer와 비슷합니다. 하지만 이 논문에서는 Selective Feature Fusion(SFF) Module을 제시하며, 인코더에서 추출한 상대적으로 낮은 local features와, 디코더에서 상대적으로 큰 global.. 2024. 1. 10. [논문리뷰] Masked Autoencoders(MAE) Are Scalable Vision Learners 들어가며 이번에 소개할 논문은 BERT의 자기 지도학습(self-supervised learning) 방식을 컴퓨터 비전에 도입한 masked autoencoders (MAE)입니다. MAE의 장점은 아주 심플하고, 빠르게 훈련되며, 더 정확합니다. 본문에 들어가기 앞서 단 몇 가지만 알면 됩니다. 비대칭 Encoder-Decoder: 기존 저희가 알던 Encoder-Decoder 구조는 웬만하면 대칭적인 구조였죠? 근데 본 논문의 MAE는 비대칭적인 구조를 가지게 자기지도학습으로 사전학습(Pre-train)을 합니다. 왜 일까요? 아래의 그림을 살펴봅시다. 만약 저희가 1000-Epoch 동간 자기 지도학습을 했다고 가정합시다. 그 후, 저희는 디코더 부분은 버리고 사전 학습된 인코더 부분만 사용하여 .. 2024. 1. 8. 이전 1 2 다음