본문 바로가기

컴퓨터비전63

[논문리뷰] HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE? Abstract CNN은 유한 공간 범위의 local filters의 weights를 학습함으로써, 많은 효율성을 달성해왔다. 필터가 무엇을 보고 있는지는 알수있지만, 이미지의 위치는 알 수 없다는 제한점이 존재합니다. Absolute position에 관한 정보는 본질적으로 유용하다고 알려져있고, CNN이 이러한 정보를 인코딩하는 방법을 암묵적으로 학습할 수 있다고 가정하는 것입니다. 본 논문에는 일반적으로 사용되는 ResNet과 같은 신경망에 이 가설을 테스트합니다. Introduction CNN은 많은 분야에서 우수한 성적을 내고 있었지만, 이것을 딥러닝의 맥락에서 해석 가능성이 부족하다는 비판을 받고 있었습니다. 위치에 의존적인 작업(e.g. semantic segmentation, Object .. 2024. 1. 19.
[논문리뷰] Exploring Plain Vision Transformer Backbones for Object Detection 들어가며 이 논문은 사전 학습된 비계층적 구조인 ViT를 백본으로, Object detection에 활용한 모델입니다. 논문의 핵심은 아래와 같습니다. Multi-Scale의 feature map으로부터 여러 계층 구조를 활용하는 FPN은 불필요하고, Single-scale의 feature map으로부터의 심플한 feature pyramid로 충분함 Fine-Tuning의 과정에서 window attention을 사용하는데, cross-window는 모든 블럭에블록에 적용하지 않고, 아주 적은 블록에 적용하는 것만으로도 충분함(Swin 참고 링크). Pre-Training 과정에 ViT 백본은 Masked Autoencoders(MAE)로 사전 학습 되었음(MAE 참고 링크). 기존 Object Dete.. 2024. 1. 16.
[논문리뷰] SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers 들어가며 오늘은 Transformer 구조를 semantic segmentation에 사용한 SegFormer를 리뷰하려고 합니다. 이 모델을 네트워크 속도 향상에 중점을 두면서도 성능을 최소한의 파라미터로 극대화한 모델입니다. 단순히 속도만 끌어올린 것이 아닌, 성능 또한 최소한의 파라미터로 개선하였습니다. 그렇게 하여 동일한 파라미터 대비 CNN, Transformer 기반의 모든 모델들의 성능을 능가하였으며, 심지어 제일 가벼운 버전의 Segformer(파라미터 수에 따라 여러 버전이 있음)는 real-time도 가능하다고 합니다. 이런 것을 가능하게 해 준 몇 가지 기법이 있습니다: 계층적인 Transformer 인코더: CNN은 이미 이러한 계층적인 구조를 사용하고 있습니다. 그렇다면 왜 계층적.. 2024. 1. 10.
[논문리뷰] Global-Local Path Networks for Monocular Depth Estimationwith Vertical CutDepth(GLPDepth) 들어가며 이번에 소개할 논문은 Monocular depth estimation(MDE)의 연구인 GLPDepth입니다. 핵심 기술은 아래와 같습니다. 계층적인 Transformer 인코더: 이 모델의 인코더 구조는 Segformer와 동일합니다. 간략한 특징으로는 이미지 해상도를 계층적으로 줄여가며 Attention을 수행하기 때문에 다양한 scale의 features와 연산 속도에 이점이 있습니다. lightweight 디코더: lightweight 디코더를 설계하는 것도 Segformer와 비슷합니다. 하지만 이 논문에서는 Selective Feature Fusion(SFF) Module을 제시하며, 인코더에서 추출한 상대적으로 낮은 local features와, 디코더에서 상대적으로 큰 global.. 2024. 1. 10.