728x90
반응형

RNN

  RNN은 Recurrent Neural Network의 줄임말로 순환신경망을 의미한다. 주로 순서가 있는 시퀀스 data를 학습하는데 사용되며 RNN 계열의 모델은 직렬, 최근 LLM의 발전으로 핫한 Transformer는 병렬형의 순환신경망으로 볼 수 있다. Neural Network와 LLM은 같은 계열이나 중점적으로 다루는 내용이 다르다 예상되어, Transformer까지 관련 논문을 공부한 뒤 LLM은 추가 카테고리를 구상하여 리뷰하고자 한다. 또한 Vanilla RNN, LSTM은 너무 과거의 논문이다보니.. 비교적 최근인 GRU부터 시작하려 한다.

RNN 발전 과정

728x90
  • Vanilla RNN - 1986
    • 논문 제목: "Learning representations by back-propagating errors"
    • 저자: David E. Rumelhart, Geoffrey E. Hinton, Ronald J. Williams
    • 주요 기여: 역전파 알고리즘을 통해 RNN의 학습 방법을 제시. 순차 데이터 처리에 RNN을 사용.
  • LSTM (Long Short-Term Memory) - 1997
    • 논문 제목: "Long short-term memory"
    • 저자: Sepp Hochreiter, Jürgen Schmidhuber
    • 주요 기여: 장기 의존성 문제를 해결하기 위해 기억 장치와 게이트 메커니즘을 도입한 LSTM 셀 제안.
  • GRU (Gated Recurrent Unit) - 2014
    • 논문 제목: "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation"
    • 저자: Kyunghyun Cho, Bart Van Merriënboer, Dzmitry Bahdanau, Yoshua Bengio
    • 주요 기여: LSTM의 간소화된 버전으로, 기억 장치와 업데이트 메커니즘을 통합하여 GRU 셀 제안.
  • Seq2Seq (Sequence to Sequence Learning with Neural Networks) - 2014
    • 논문 제목: "Sequence to Sequence Learning with Neural Networks"
    • 저자: Ilya Sutskever, Oriol Vinyals, Quoc V. Le
    • 주요 기여: RNN을 사용한 인코더-디코더 구조를 통해 입력 시퀀스를 출력 시퀀스로 변환하는 방법 제안. 주로 기계 번역에 사용.
  • Neural Turing Machines - 2014
    • 논문 제목: "Neural Turing Machines"
    • 저자: Alex Graves, Greg Wayne, Ivo Danihelka
    • 주요 기여: 외부 메모리와의 상호작용을 통해 복잡한 알고리즘을 학습할 수 있는 모델 제안. RNN과 메모리 접근 메커니즘 결합.
  • Attention Mechanism - 2015
    • 논문 제목: "Neural Machine Translation by Jointly Learning to Align and Translate"
    • 저자: Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio
    • 주요 기여: 인코더-디코더 구조에서 주목 메커니즘을 도입하여 번역 성능 향상. 중요한 부분에 집중하도록 학습.
  • Pointer Networks - 2015
    • 논문 제목: "Pointer Networks"
    • 저자: Oriol Vinyals, Meire Fortunato, Navdeep Jaitly
    • 주요 기여: 포인터 메커니즘을 도입하여 입력 시퀀스에서 직접 위치를 선택. TSP와 같은 문제 해결.
  • WaveNet - 2016
    • 논문 제목: "WaveNet: A Generative Model for Raw Audio"
    • 저자: Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu
    • 주요 기여: 원시 오디오 데이터를 생성하기 위한 확장 가능한 RNN 기반 모델 제안. 음성 합성 분야에 혁신적 기여.
  • Transformer - 2017
    • 논문 제목: "Attention is All You Need"
    • 저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
    • 주요 기여: 순차적 처리 없이 주목 메커니즘만을 사용한 트랜스포머 모델 제안. 이후 NLP 모델의 표준이 됨.
  • Reformer - 2020
    • 논문 제목: "Reformer: The Efficient Transformer"
    • 저자: Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya
    • 주요 기여: 트랜스포머의 메모리 및 계산 효율성을 개선한 모델 제안. LSH 및 반사동소를 통해 더 큰 시퀀스 처리 가능.

이후 목표

  • 개별 논문 리뷰
  • LLM 분야 추가 공부 및 Hugging face 실습.

 

 

728x90
반응형

'딥러닝 > RNN, LLM' 카테고리의 다른 글

[RNN] Pointer Networks  (0) 2024.11.15
[RNN] Attention Mechanism  (2) 2024.11.14
[RNN] Seq2Seq  (0) 2024.11.13
[RNN] GRU  (1) 2024.11.12
[RNN] LSTM  (2) 2024.11.11

+ Recent posts