본문 바로가기

딥러닝54

[논문리뷰] Denoising Diffusion Probabilistic Models (DDPM) 들어가며 VAE 참고 논문 링크: [논문리뷰] VAE(Variational Auto-Encoder) 들어가며 오늘 리뷰해 볼 논문은 생성형 모델의 하나인 Variational Auto-Encoder(VAE)입니다. 이 논문은 현재 Diffusion 모델의 토대인 모델인 만큼 아주 중요한 모델입니다. 먼저 이 논문의 제목을 보면 Au lcyking.tistory.com 이 글은 VAE의 사전 지식이 있다 가정하에 설명을 진행하려 합니다. VAE를 모른다면 이해에 많은 어려움이 있을 수 있으므로, 꼭 한 번 보고 오시는 것을 추천합니다. 하물며, 유명하고 오래된 논문이라 영상이나 포스터가 많이 올라와있으니 참고하시길 바랍니다. Diffusion 이란? Diffusion은 VAE, GAN과 같은 이미지 생성 .. 2024. 3. 6.
[논문리뷰] VAE(Variational Auto-Encoder) 들어가며 오늘 리뷰해 볼 논문은 생성형 모델의 하나인 Variational Auto-Encoder(VAE)입니다. 이 논문은 현재 Diffusion 모델의 토대인 모델인 만큼 아주 중요한 모델입니다. 먼저 이 논문의 제목을 보면 Auto-Encoder라는 말이 있습니다. 이 Auto-Encoder가 뭘까요? 위와 같이 Auto-Encoder는 입력 차원과 출력 차원이 같다는 점이 있습니다. 근데 이걸 왜 하느냐 하면 근본적인 이유는 차원 축소에 있습니다. 본래 차원 축소는 비지도학습으로 이루어졌습니다. 하지만, Auto-Encoder의 경우는 Input x가 입력되고 Encoder뒤에 Decoder를 붙여서 입력과 출력이 같은 구조를 만들고, z가 비지도학습이 아닌 지도학습으로 차원 축소를 이루어내며 크.. 2024. 2. 28.
[논문리뷰] Exploring Plain Vision Transformer Backbones for Object Detection 들어가며 이 논문은 사전 학습된 비계층적 구조인 ViT를 백본으로, Object detection에 활용한 모델입니다. 논문의 핵심은 아래와 같습니다. Multi-Scale의 feature map으로부터 여러 계층 구조를 활용하는 FPN은 불필요하고, Single-scale의 feature map으로부터의 심플한 feature pyramid로 충분함 Fine-Tuning의 과정에서 window attention을 사용하는데, cross-window는 모든 블럭에블록에 적용하지 않고, 아주 적은 블록에 적용하는 것만으로도 충분함(Swin 참고 링크). Pre-Training 과정에 ViT 백본은 Masked Autoencoders(MAE)로 사전 학습 되었음(MAE 참고 링크). 기존 Object Dete.. 2024. 1. 16.
[논문리뷰] SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers 들어가며 오늘은 Transformer 구조를 semantic segmentation에 사용한 SegFormer를 리뷰하려고 합니다. 이 모델을 네트워크 속도 향상에 중점을 두면서도 성능을 최소한의 파라미터로 극대화한 모델입니다. 단순히 속도만 끌어올린 것이 아닌, 성능 또한 최소한의 파라미터로 개선하였습니다. 그렇게 하여 동일한 파라미터 대비 CNN, Transformer 기반의 모든 모델들의 성능을 능가하였으며, 심지어 제일 가벼운 버전의 Segformer(파라미터 수에 따라 여러 버전이 있음)는 real-time도 가능하다고 합니다. 이런 것을 가능하게 해 준 몇 가지 기법이 있습니다: 계층적인 Transformer 인코더: CNN은 이미 이러한 계층적인 구조를 사용하고 있습니다. 그렇다면 왜 계층적.. 2024. 1. 10.