728x90
반응형
RNN
RNN은 Recurrent Neural Network의 줄임말로 순환신경망을 의미한다. 주로 순서가 있는 시퀀스 data를 학습하는데 사용되며 RNN 계열의 모델은 직렬, 최근 LLM의 발전으로 핫한 Transformer는 병렬형의 순환신경망으로 볼 수 있다. Neural Network와 LLM은 같은 계열이나 중점적으로 다루는 내용이 다르다 예상되어, Transformer까지 관련 논문을 공부한 뒤 LLM은 추가 카테고리를 구상하여 리뷰하고자 한다. 또한 Vanilla RNN, LSTM은 너무 과거의 논문이다보니.. 비교적 최근인 GRU부터 시작하려 한다.
RNN 발전 과정
728x90
- Vanilla RNN - 1986
- 논문 제목: "Learning representations by back-propagating errors"
- 저자: David E. Rumelhart, Geoffrey E. Hinton, Ronald J. Williams
- 주요 기여: 역전파 알고리즘을 통해 RNN의 학습 방법을 제시. 순차 데이터 처리에 RNN을 사용.
- LSTM (Long Short-Term Memory) - 1997
- 논문 제목: "Long short-term memory"
- 저자: Sepp Hochreiter, Jürgen Schmidhuber
- 주요 기여: 장기 의존성 문제를 해결하기 위해 기억 장치와 게이트 메커니즘을 도입한 LSTM 셀 제안.
- GRU (Gated Recurrent Unit) - 2014
- 논문 제목: "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation"
- 저자: Kyunghyun Cho, Bart Van Merriënboer, Dzmitry Bahdanau, Yoshua Bengio
- 주요 기여: LSTM의 간소화된 버전으로, 기억 장치와 업데이트 메커니즘을 통합하여 GRU 셀 제안.
- Seq2Seq (Sequence to Sequence Learning with Neural Networks) - 2014
- 논문 제목: "Sequence to Sequence Learning with Neural Networks"
- 저자: Ilya Sutskever, Oriol Vinyals, Quoc V. Le
- 주요 기여: RNN을 사용한 인코더-디코더 구조를 통해 입력 시퀀스를 출력 시퀀스로 변환하는 방법 제안. 주로 기계 번역에 사용.
- Neural Turing Machines - 2014
- 논문 제목: "Neural Turing Machines"
- 저자: Alex Graves, Greg Wayne, Ivo Danihelka
- 주요 기여: 외부 메모리와의 상호작용을 통해 복잡한 알고리즘을 학습할 수 있는 모델 제안. RNN과 메모리 접근 메커니즘 결합.
- Attention Mechanism - 2015
- 논문 제목: "Neural Machine Translation by Jointly Learning to Align and Translate"
- 저자: Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio
- 주요 기여: 인코더-디코더 구조에서 주목 메커니즘을 도입하여 번역 성능 향상. 중요한 부분에 집중하도록 학습.
- Pointer Networks - 2015
- 논문 제목: "Pointer Networks"
- 저자: Oriol Vinyals, Meire Fortunato, Navdeep Jaitly
- 주요 기여: 포인터 메커니즘을 도입하여 입력 시퀀스에서 직접 위치를 선택. TSP와 같은 문제 해결.
- WaveNet - 2016
- 논문 제목: "WaveNet: A Generative Model for Raw Audio"
- 저자: Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu
- 주요 기여: 원시 오디오 데이터를 생성하기 위한 확장 가능한 RNN 기반 모델 제안. 음성 합성 분야에 혁신적 기여.
- Transformer - 2017
- 논문 제목: "Attention is All You Need"
- 저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
- 주요 기여: 순차적 처리 없이 주목 메커니즘만을 사용한 트랜스포머 모델 제안. 이후 NLP 모델의 표준이 됨.
- Reformer - 2020
- 논문 제목: "Reformer: The Efficient Transformer"
- 저자: Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya
- 주요 기여: 트랜스포머의 메모리 및 계산 효율성을 개선한 모델 제안. LSH 및 반사동소를 통해 더 큰 시퀀스 처리 가능.
이후 목표
- 개별 논문 리뷰
- LLM 분야 추가 공부 및 Hugging face 실습.
728x90
반응형
'딥러닝 > RNN, LLM' 카테고리의 다른 글
[RNN] Pointer Networks (0) | 2024.11.15 |
---|---|
[RNN] Attention Mechanism (2) | 2024.11.14 |
[RNN] Seq2Seq (0) | 2024.11.13 |
[RNN] GRU (1) | 2024.11.12 |
[RNN] LSTM (2) | 2024.11.11 |