728x90
반응형

Reinforcement Learning이란

  Reinforcement Learning(RL)은 에이전트가 환경과 상호작용하며 최적의 행동을 하도록 학습시키는 방법이다. 에이전트는 상태(state)를 관찰하고, 행동(action)을 선택하며, 그 결과로 보상(reward)을 얻는다. 이 보상을 최대화하기 위해 정책(policy)을 개선한다. 이를 통해 에이전트는 시도와 실패를 통해 점진적으로 더 나은 결정을 내릴 수 있게 된다.

  개인적으로 다양한 분야와 다양한 방식으로 Deep Learning이 발전하고 있지만, 점점 분절화되는 동향에 상관없이 제일 중요한 분야가 될 것이라고 생각한다. 그 이유는 개인적으로 우리가 살고 있는 현실에 optimal이 존재한다는 가정이 잘못되었다고 생각하기 때문이다. 상황에 맞춰 optimal이 아니더라도 선택을 해야하는 상황이 있는데, 이를 반영하는 논리이지 않나 싶다.  ChatGPT도 DRP, RLHF 등의 RL을 적용하는 것으로 알려져 있다.

  그런 만큼 다른 카테고리와 다르게 매우(!!) 방대한 양의 논문을 살펴볼까 한다. 물론 이전처럼 너무 오래된 논문은 다른 정리가 잘되어있는 블로그를 참고하고 비교적 최신 논문만 살펴보려고한다.

Reinforcement Learning 발전 과정

728x90
  1. Actor-Critic - 1987
    논문 제목 : "Actor-Critic Algorithms"
    주요 기여 : 정책(Actor)과 가치 함수(Critic)를 동시에 학습하는 접근법을 소개. 두 구성 요소의 상호 보완적 학습을 통해 더 안정적인 학습 가능
  2. Q-learning - 1989
    논문 제목 : "Learning from Delayed Rewards"
    주요 기여 : Q-learning 알고리즘을 소개하여, 에이전트가 환경과 상호작용하며 최적의 정책을 학습할 수 있도록 함. Q-value를 사용하여 미래의 보상을 예측하고, 이를 기반으로 행동을 선택하는 방식 제안.
  3. Policy Gradient Methods - 1999
    논문 제목 : "Policy Gradient Methods for Reinforcement Learning with Function Approximation"
    주요 기여 : 정책 경사 방법을 도입하여 연속적인 상태 및 행동 공간에서의 정책을 직접 학습 가능하게 함. 정책의 기울기를 계산하여 정책을 업데이트하는 방법을 제안.
  4. Deep Q-Networks (DQN) - 2013
    논문 제목 : "Playing Atari with Deep Reinforcement Learning"
    주요 기여 : 딥러닝과 RL을 결합한 DQN 알고리즘을 통해 아타리 게임에서 인간 수준의 성능을 달성. CNN을 사용하여 상태를 특징으로 변환하고, Q-learning을 통해 행동 정책을 학습함.
  5. DQN Improvements - 2015
    논문 제목 : "Human-level control through deep reinforcement learning"
    주요 기여 : DQN의 여러 가지 개선사항을 소개하여 안정성과 성능을 높임. 주요 개선사항으로는 경험 재플레이, 타겟 네트워크 사용, 보상 클리핑 등이 포함됨.
  6. Prioritized Experience Replay (PER) - 2015
    논문 제목 : "Prioritized Experience Replay"
    주요 기여 : 경험 재플레이 메모리에서 샘플링할 때, 중요한 경험을 우선적으로 샘플링하여 학습 효율성을 높임. TD 오류를 기반으로 경험의 중요도를 평가.
  7. Double DQN - 2016
    논문 제목 : "Deep Reinforcement Learning with Double Q-learning"
    주요 기여 : Q-learning의 과대평가 문제를 해결하기 위해 Double Q-learning을 도입. DQN에 적용하여 더 안정적이고 신뢰성 있는 학습을 가능하게 함.
  8. Dueling DQN - 2016
    논문 제목 : "Dueling Network Architectures for Deep Reinforcement Learning"
    주요 기여 : 상태 가치와 행동 우도를 분리한 듀얼 네트워크 구조를 도입하여 Q-value 추정의 정확성을 높임. 이로 인해 정책의 학습 효율성 및 성능이 향상됨.
  9. Off-Policy Actor-Critic - 2016
    논문 제목 : "Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic"
    주요 기여 : 오프 정책 학습에서 Actor-Critic 알고리즘의 샘플 효율성을 높이기 위해, 오프 정책 Critic을 사용하는 방법 제안.
  10. A3C (Asynchronous Advantage Actor-Critic) - 2016
    논문 제목 : "Asynchronous Methods for Deep Reinforcement Learning"
    주요 기여 : 여러 에이전트를 비동기적으로 학습시켜 효율성을 높이는 A3C 알고리즘 제안. 동기적 학습의 단점을 극복하고 더 빠르고 안정적인 학습을 가능하게 함.
  11. AlphaGo - 2016
    논문 제목 : "Mastering the game of Go with deep neural networks and tree search"
    주요 기여 : 딥러닝과 몬테카를로 트리 탐색을 결합한 AlphaGo 알고리즘을 통해 바둑에서 인간 챔피언을 이긴 최초의 인공지능 시스템. 강화학습의 실용적 성과를 보여줌.
  12. Distributed Training - 2016
    논문 제목 : "Massively Parallel Methods for Deep Reinforcement Learning"
    주요 기여 : 강화학습의 분산 학습 방법을 통해 병렬 처리 및 대규모 데이터 사용의 이점을 설명함. 이를 통해 학습 속도와 성능을 크게 향상시킬 수 있음.
  13. Advantage Actor-Critic (A2C) - 2017
    논문 제목 : "Asynchronous Methods for Deep Reinforcement Learning"
    주요 기여 : A3C의 동기화 버전으로, 여러 에이전트를 동기적으로 학습시켜 학습 안정성과 성능을 향상.
  14. Actor-Critic with Experience Replay (ACER) - 2017
    논문 제목 : "Sample Efficient Actor-Critic with Experience Replay"
    주요 기여 : Actor-Critic 알고리즘에 경험 재플레이를 도입하여, 샘플 효율성을 높이고 학습 안정성을 향상시킴.
  15. PPO (Proximal Policy Optimization) - 2017
    논문 제목 : "Proximal Policy Optimization Algorithms"
    주요 기여 : 안정적이고 효율적인 정책 최적화 방법인 PPO 알고리즘을 제안. 정책 갱신 시 큰 변화를 방지하여 안정성을 높이고, 성능을 향상시킴.
  16. Curiosity-driven Exploration - 2017
    논문 제목 : "Curiosity-driven Exploration by Self-supervised Prediction"
    주요 기여 : 자기 지도 예측을 통한 호기심 기반 탐험 방법 제안. 외재적 보상이 없는 환경에서도 학습을 촉진하기 위해 내재적 보상 개념 도입.
  17. Hindsight Experience Replay (HER) - 2017
    논문 제목 : "Hindsight Experience Replay"
    주요 기여 : 목표 기반 환경에서 경험 재플레이를 개선하여 학습 효율성을 높임. 실패한 경험에서도 유의미한 학습이 가능하도록 설정하여 성능을 향상시킴.
  18. Soft Actor-Critic (SAC) - 2018
    논문 제목 : "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"
    주요 기여 : 최대 엔트로피 강화학습을 활용한 SAC 알고리즘을 소개. 안정적이고 효율적인 정책 학습을 가능하게 하며, 다양한 환경에서 뛰어난 성능을 보임.
  19. Large-Scale Curiosity-Driven Learning - 2018
    논문 제목 : "Large-Scale Study of Curiosity-Driven Learning"
    주요 기여 : 다양한 환경에서 호기심 기반 학습(Curiosity-Driven Learning)을 대규모로 연구하여, 내재적 보상에 기반한 학습이 외재적 보상이 부족한 상황에서도 효과적일 수 있음을 입증했습니다.
  20. R2D2 - 2018
    논문 제목 : "Recurrent Experience Replay in Distributed Reinforcement Learning"
    주요 기여 : R2D2는 순환 신경망(Recurrent Neural Networks)을 활용한 경험 재플레이 방법을 제안하여, 장기 의존성을 효과적으로 처리하고 분산 학습의 효율성을 높였습니다.
  21. IMPALA - 2018
    논문 제목 : "IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures"
    주요 기여 : 분산 학습 환경에서 효율적으로 작동하는 Actor-Learner 구조를 제안하여, 대규모 강화학습 문제에서의 성능을 크게 향상시킴.
  22. Conservative Q-Learning (CQL) - 2020
    논문 제목 : "Conservative Q-Learning for Offline Reinforcement Learning"
    주요 기여 : 보수적인 Q-학습 방법을 제안하여, 오프라인 강화학습에서 더 안정적이고 신뢰성 있는 성능을 보장함.
  23. TD3+Behavior Cloning - 2021
    논문 제목 : "A Minimalist Approach to Offline Reinforcement Learning"
    주요 기여 : TD3 알고리즘에 행동 클로닝을 결합하여, 오프라인 강화학습에서의 성능을 향상시킴.
  24. Offline RL with Implicit Q-Learning (IQL) - 2021
    논문 제목 : "Offline Reinforcement Learning with Implicit Q-Learning"
    주요 기여 : 암시적 Q-학습을 통한 오프라인 강화학습 방법을 제안하여, 안정적이고 효율적인 학습을 가능하게 함.
  25. Reward is Enough - 2021
    논문 제목 : "Reward is Enough"
    주요 기여 : 강화학습에서 보상이 유일한 학습 신호로 충분하다는 가설을 제안하며, 복잡한 인공지능 행동을 보상 구조의 설계만으로도 유도할 수 있다는 점을 강조했습니다.
  26. Decision Transformer -2021
    논문 제목 : "Decision Transformer: Reinforcement Learning via Sequence Modeling"
    주요 기여 : 트랜스포머 모델을 사용하여 강화학습 문제를 시퀀스 모델링 문제로 재구성하여, 강화학습과 시퀀스 모델링의 결합 가능성을 탐구했습니다. 이로 인해 강화학습의 샘플 효율성이 크게 개선되었습니다.
  27. Mildly Conservative Q-Learning (MCQ) - 2022
    논문 제목 : "Mildly Conservative Q-Learning for Offline Reinforcement Learning"
    주요 기여 : 오프라인 강화학습에서 보수적 Q-학습의 과도한 보수성을 완화하여, 더 나은 성능을 유지하면서도 안정성을 확보함.
  28. RAMBO - 2023
    논문 제목 : "RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning"
    주요 기여 : 강화학습 에이전트의 메모리를 사용하여, 장기 의존성을 처리하고 더 나은 성능을 달성하는 방법 제안.
  29. DreamerV3 - 2023
    논문 제목 : "Mastering Diverse Domains through World Models"
    주요 기여 : DreamerV3는 잠재 공간에서의 상상력을 통해 모델 기반 강화학습을 확장 가능한 방식으로 구현하여, 복잡한 환경에서의 성능을 크게 향상시켰습니다.

Meta RL

  학습하는 방법을 학습하는 RL이라 하는데, 자료를 정리하다보니 우연히 발견하였다. 아예 모르는 분야이다 보니.. 일단 대표 논문 몇개만 적어두고 시간이 나면 읽어보려한다.

  1. Model-Agnostic Meta-Learning (MAML) - 2017
    논문 제목 : "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks"
    주요 기여 : 다양한 작업에 걸쳐 일반화된 초기 가중치를 학습하고, 새로운 작업에서 빠르게 최적의 정책으로 업데이트하는 메타 학습 알고리즘 제안.
  2. Meta Actor-Critic with Experience Replay (MAESN) - 2018
    논문 제목 : "Meta-Learning with Latent Embedding Optimization"
    주요 기여 : 경험 재플레이와 메타 학습을 결합하여, 다양한 작업에서의 일반화와 빠른 적응을 가능하게 하는 방법 제안.
  3. PEARL (Probabilistic Embeddings for Actor-Critic RL) - 2019
    논문 제목 : "PEARL: Efficient Off-Policy Meta-RL"
    주요 기여 : 확률적 인코딩을 통해 다양한 작업에서의 공통된 특성을 학습하여, 새로운 작업에서의 빠른 적응을 가능하게 함.
  4. DIAYN (Diversity is All You Need) - 2019
    논문 제목 : "Diversity is All You Need: Learning Skills without a Reward Function"
    주요 기여 : 보상 함수 없이 다양한 스킬을 학습할 수 있는 방법 제안. 이는 내재적 동기를 통해 강화학습 에이전트가 다양한 행동을 학습하도록 함.
  5. Learning from Ranking - 2020
    논문 제목 : "Learning from Ranking-Based Feedback"
    주요 기여 : 순위 기반 피드백을 통해 강화학습 에이전트를 학습시키는 방법 제안. 이를 통해 더 효율적인 정책 학습 가능.
  6. Meta Reward Network - 2021
    논문 제목 : "Meta Reward Learning for Reinforcement Learning"
    주요 기여 : 메타 학습을 통해 보상 함수를 학습하고, 이를 기반으로 강화학습 에이전트가 다양한 작업에서 빠르게 적응할 수 있도록 하는 방법 제안.

이후 목표

  • 각 논문 개별 리뷰 (Meta RL 은 일단 제외)
  • 관심 분야에 대해 최신 논문 지속 리뷰 예정
728x90
반응형

'딥러닝 > Reinforcement Learning' 카테고리의 다른 글

[RL] Dueling DQN  (1) 2024.11.24
[RL] PER  (0) 2024.11.23
[RL] Double DQN  (0) 2024.11.22
[RL] DQN (improvements)  (0) 2024.11.21
[RL] DQN  (2) 2024.11.20

+ Recent posts