본문 바로가기

분류 전체보기154

[논문리뷰] Global-Local Path Networks for Monocular Depth Estimationwith Vertical CutDepth(GLPDepth) 들어가며 이번에 소개할 논문은 Monocular depth estimation(MDE)의 연구인 GLPDepth입니다. 핵심 기술은 아래와 같습니다. 계층적인 Transformer 인코더: 이 모델의 인코더 구조는 Segformer와 동일합니다. 간략한 특징으로는 이미지 해상도를 계층적으로 줄여가며 Attention을 수행하기 때문에 다양한 scale의 features와 연산 속도에 이점이 있습니다. lightweight 디코더: lightweight 디코더를 설계하는 것도 Segformer와 비슷합니다. 하지만 이 논문에서는 Selective Feature Fusion(SFF) Module을 제시하며, 인코더에서 추출한 상대적으로 낮은 local features와, 디코더에서 상대적으로 큰 global.. 2024. 1. 10.
[논문리뷰] Masked Autoencoders(MAE) Are Scalable Vision Learners 들어가며 이번에 소개할 논문은 BERT의 자기 지도학습(self-supervised learning) 방식을 컴퓨터 비전에 도입한 masked autoencoders (MAE)입니다. MAE의 장점은 아주 심플하고, 빠르게 훈련되며, 더 정확합니다. 본문에 들어가기 앞서 단 몇 가지만 알면 됩니다. 비대칭 Encoder-Decoder: 기존 저희가 알던 Encoder-Decoder 구조는 웬만하면 대칭적인 구조였죠? 근데 본 논문의 MAE는 비대칭적인 구조를 가지게 자기지도학습으로 사전학습(Pre-train)을 합니다. 왜 일까요? 아래의 그림을 살펴봅시다. 만약 저희가 1000-Epoch 동간 자기 지도학습을 했다고 가정합시다. 그 후, 저희는 디코더 부분은 버리고 사전 학습된 인코더 부분만 사용하여 .. 2024. 1. 8.
[논문리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 소개 오늘 리뷰하는 논문은 Swin Transformer(Swin)입니다. 이 논문은 Vision Transformer(ViT)의 후속작이라고 보시면 될 것 같습니다. 그렇기 때문에 ViT 기반으로 모델이 동작하는 부분이 대다수이기 때문에 꼭 ViT 논문을 보고 오시는 것을 추천드립니다. 위에서 언급한 것처럼, Swin은 ViT 기반으로 만들어진 백본입니다. 그렇기 때문에 컴퓨터 비전에 CNN의 구조가 아닌 Transformer 구조를 따릅니다. 기존 ViT와 달리 본 논문에서 제안한 기술은 제목에서 볼 수 있듯이 2가지로 구성됩니다. 첫 번째 제안 기술(계층적 구조): 기존 CNN의 계층적 구조는 다들 아시죠? 일반적인 CNN 즉, 백본(Backbone)이라고 불리는 구조는 아래 그림과 같습니다. 다 .. 2024. 1. 4.
[논문리뷰] From Big to Small: Multi-Scale Local Planar Guidance for Monocular Depth Estimation(BTS) Abstract 최근 CNN의 발전에 힘입어 Monocular Depth Estimation(MDE) 분야에서 눈에 띄는 성과가 나타나고 있습니다. 이러한 CNN은 특징을 추출하는 인코더 부분과 이러한 특징을 바탕으로 깊이를 재구성하는 디코더 부분, 두 가지 주요 구성 요소로 나누어집니다. 인코더-디코더 구조는 strided convolution, pooling layers, skip connections, 그리고 multi-layer deconvolutional network 등과 같은 다양한 기술을 통합하여 깊이 추정의 효율성을 높이고 있습니다. 본 논문에서는 기존 기술을 뛰어넘어 더욱 정밀한 깊이 추정을 가능하게 하는 새로운 방법을 제안합니다. 특히, 인코더에서 추출한 특징들을 활용하여 디코더의 여.. 2024. 1. 3.