RLHF3
-
[RLHF] β-DPO: Direct Preference Optimizationwith Dynamic β
DPO model이나 Preference Based PPO는 필연적으로 reference model이 필요하다.1. 이는 reference model의 output을 이용하여 좋고 나쁨을 명확하게 구분이 가능하도록 하기 위함이며2. model이 reward model에 너무 빨려들어가지 않도록 하기 위함이다. 이번 review는 2번에 대해서 의문을 가진 논문을 알아본다.기본적으로 2번을 성취하기 위해서는 다음과 같은 수식이 필요하다. LKLD=β×KLD(πrefer,πθ)β의 크기에 따라 reference model을 얼마만큼 따를 것이고 반대로 그렇지 않을 ..
2024.09.04 -
[RLHF] Direct Preference-based Policy Optimization without Reward Modeling
논문 링크https://arxiv.org/pdf/2301.12842 keyword: Preference based Reinforcement Learning [PbRL], offline learning, Unlabelled dataset, Transformer, Contrastive learning 1. AbstractPbRL은 학습자가 인간의 선호를 학습하는 방법을 이야기함. 해당 방법은 크게 두가지 단계로 볼 수 있음.1. 주어진 preference dataset을 통해 reward model 학습2. 1에서 학습된 Reward model을 통해 학습자 학습그러나 해당 방법들은 정확도가 높은 reward model을 얻기 어렵다는 문제가 있음. [특히 해당 문제는 labeler가 인간인 경우 더욱 어려..
2024.07.04 -
[RLHF] Direct Preference Optimization:Your Language Model is Secretly a Reward Model
논문 링크https://arxiv.org/pdf/2305.18290 해당 리뷰는 수식 유도는 생략 Keywords:Reinforcement Learning Human Feedback[RLHF], Point-wise comparison or Bandit, Direct Preference Optimization, Offline learning1. Abstract1.1. 기존 RLHF의 문제기존 RLHF의 방법은 복잡하고 불안전한 능력을 보여줌. 해당 이유는 아래와 같음1. 인간의 선호[preference]를 반영한 Reward model의 문제2. 강화학습을 통해 원래의 모델을 미세 조정[fine-tuning]하는 단계에서의 문제. 1.2. 본 논문이 제시하는 바해당 문제들을 해결하기 위해서 본 논문은 간..
2024.07.01