본문 바로가기

분류 전체보기154

[논문리뷰] HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE? Abstract CNN은 유한 공간 범위의 local filters의 weights를 학습함으로써, 많은 효율성을 달성해왔다. 필터가 무엇을 보고 있는지는 알수있지만, 이미지의 위치는 알 수 없다는 제한점이 존재합니다. Absolute position에 관한 정보는 본질적으로 유용하다고 알려져있고, CNN이 이러한 정보를 인코딩하는 방법을 암묵적으로 학습할 수 있다고 가정하는 것입니다. 본 논문에는 일반적으로 사용되는 ResNet과 같은 신경망에 이 가설을 테스트합니다. Introduction CNN은 많은 분야에서 우수한 성적을 내고 있었지만, 이것을 딥러닝의 맥락에서 해석 가능성이 부족하다는 비판을 받고 있었습니다. 위치에 의존적인 작업(e.g. semantic segmentation, Object .. 2024. 1. 19.
[논문리뷰] Exploring Plain Vision Transformer Backbones for Object Detection 들어가며 이 논문은 사전 학습된 비계층적 구조인 ViT를 백본으로, Object detection에 활용한 모델입니다. 논문의 핵심은 아래와 같습니다. Multi-Scale의 feature map으로부터 여러 계층 구조를 활용하는 FPN은 불필요하고, Single-scale의 feature map으로부터의 심플한 feature pyramid로 충분함 Fine-Tuning의 과정에서 window attention을 사용하는데, cross-window는 모든 블럭에블록에 적용하지 않고, 아주 적은 블록에 적용하는 것만으로도 충분함(Swin 참고 링크). Pre-Training 과정에 ViT 백본은 Masked Autoencoders(MAE)로 사전 학습 되었음(MAE 참고 링크). 기존 Object Dete.. 2024. 1. 16.
[딥러닝] 논문에서 많이 사용되는 수학 기호, 약어 모음집 딥러닝의 논문을 보면 엄청나게 많은 수학기호와 약어 등이 있습니다. 사실 제가 보려고 만든 모음집이니 편하게 봐주시길 바랍니다. 그리스 문자 먼저 수학에서 나오는 변수 이름은 그리스 문자를 많이 사용합니다. 그래서 최소한에 이것을 보고 읽을 줄은 알아야겠죠? 다 외울필요 없습니다. 그냥 모르는 거 나왔을 때 보시면 됩니다. 대문자 소문자 영어 한글 \( A \) \( \alpha \) alpha 알파 \( B \) \( \beta \) beta 베타 \( \Gamma \) \( \gamma \) gamma 감마 \( \Delta \) \( \delta \) delta 델타 \( E \) \( \epsilon \) epsilon 엡실론 \( Z \) \( \zeta \) zeta 제타 \( H \) \( .. 2024. 1. 12.
[논문리뷰] SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers 들어가며 오늘은 Transformer 구조를 semantic segmentation에 사용한 SegFormer를 리뷰하려고 합니다. 이 모델을 네트워크 속도 향상에 중점을 두면서도 성능을 최소한의 파라미터로 극대화한 모델입니다. 단순히 속도만 끌어올린 것이 아닌, 성능 또한 최소한의 파라미터로 개선하였습니다. 그렇게 하여 동일한 파라미터 대비 CNN, Transformer 기반의 모든 모델들의 성능을 능가하였으며, 심지어 제일 가벼운 버전의 Segformer(파라미터 수에 따라 여러 버전이 있음)는 real-time도 가능하다고 합니다. 이런 것을 가능하게 해 준 몇 가지 기법이 있습니다: 계층적인 Transformer 인코더: CNN은 이미 이러한 계층적인 구조를 사용하고 있습니다. 그렇다면 왜 계층적.. 2024. 1. 10.