컴퓨터비전63 [논문리뷰] An End-to-End Trainable Neural Networkfor Image-Based Sequence Recognition andIts Application to Scene Text Recognition(CRNN) 들어가며 기존 시퀀스 인식, 특히 장면 텍스트 인식 분야에서 DCNN을 적용하는 것과 RNN을 적용하여 해결하는 것에는 여러 어려움이 있었습니다. 이를 극복하기 위해 본 논문에서는 DCNN과 RNN을 결합한 CRNN을 제안하였습니다. 한계1. DCNN을 적용한 사례 DCNN은 일반적으로 고정된 길이의 입력과 출력을 필요로 하여 가변적인 라벨 시퀀스를 처리하기 어렵습니다. 현실 세계에서는 단어의 길이가 다 다르고, 이미지의 크기도 제각각이므로, 고정된 길이의 입력과 출력을 필요로 하는 DCNN은 이런 가변적인 상황에 잘 대응하지 못합니다. 그래서 이전에는 개별 문자를 detection 하거나, 장면 텍스트 인식을 이미지 분류 문제로 적용하는 등의 차선책 밖에 없었습니다. 2. RNN을 적용한 사례 그래서.. 2024. 8. 7. [논문리뷰] Twins: Revisiting the Design of Spatial Attention inVision Transformers 참조 [논문리뷰] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Vision Transformer)참고 자료 [논문리뷰] Attention is All you need의 이해 소개 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best perforlcyking.tistory.com [논문리뷰] Pyramid Vision Transformer(PVT)참고자.. 2024. 5. 12. [논문리뷰] CvT: Introducing Convolutions to Vision Transformers 참조 [논문리뷰] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Vision Transformer)참고 자료 [논문리뷰] Attention is All you need의 이해 소개 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best perforlcyking.tistory.com 들어가며 최근 Vision Transformer(ViT)의 구조가 컴퓨터 비.. 2024. 5. 12. [논문리뷰] InternImage: Exploring Large-Scale Vision Foundation Models withDeformable Convolutions 참조 [논문리뷰] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Vision Transformer)참고 자료 [논문리뷰] Attention is All you need의 이해 소개 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best perforlcyking.tistory.com 들어가며본 논문은 Vision Transformer(ViT)와, Deforma.. 2024. 5. 11. 이전 1 2 3 4 ··· 16 다음