본문 바로가기

nlp4

[논문리뷰] BERT(Pre-training of Deep Bidirectional Transformers forLanguage Understanding)의 이해 Abstract unlabel 된 데이터를 pretrain 후, label 된 데이터를 task에 맞게 fine-tuning 해주면 성능이 더 좋아집니다.(OpenAI GPT, ELMo,...) ELMO와 같이 network를 left-to-right뿐만 아니라 right-to-left도 결합하여 unidirectinal > bidirectional로 하였을 때 더 성능이 좋아졌다는 연구도 있습니다. BERT는 위 두 가지 강점을 합친 모델입니다. Bidirectional Encoder Representation from Transformer의 약자로 Transformer를 활용하여 unlabeled 데이터를 bidirectional 하게 pretrain 시키겠다는 의미입니다. pretrained mod.. 2023. 6. 14.
[논문리뷰] GPT-1(Improving Language Understandingby Generative Pre-Training)의 이해 Abstract https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf 자연어 분야는 본문 요약, Q & A, 유사성 평가, 문서 분류 등 여러 분야에서 발전해 왔습니다. unlabel 된 text는 아주 많지만, 특정한 task에 label 된 data는 아주 부족합니다. 본 논문에서는 이러한 unlabeled 된 데이터를 버리지 말고 generative pre-training 하고, 특정한 테스트에 맞게 labeled 된 데이터를 알맞게 discriminative fine-tuning 하였고 높은 성과를 낸 논문입니다. pretraining -> fine-tuning 하는 과정에서 model architecture는 최소한으로 .. 2023. 6. 13.
[논문리뷰] ELMo(Deep contextualized word representations)의 이해 Abstract Deep Contextualized Word Representations Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol aclanthology.org 이 논문은 제목 그대로 Deep contextualized word representations을 학습하여 적용시키는 것입니다. 각 .. 2023. 6. 12.
[논문리뷰] Attention is All you need의 이해 소개 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org 본 논문이 발표할 때까지만 해도 RNN이나 LSTM과 같은 Recurrent 한 구조나 Encoder-Decoder를 포함한 구조를 가진 모델들이 번역 모델에서 큰 성과를 내고 있었습니.. 2023. 6. 6.