분류 전체보기(6)
-
[RLHF] β-DPO: Direct Preference Optimizationwith Dynamic β
DPO model이나 Preference Based PPO는 필연적으로 reference model이 필요하다.1. 이는 reference model의 output을 이용하여 좋고 나쁨을 명확하게 구분이 가능하도록 하기 위함이며2. model이 reward model에 너무 빨려들어가지 않도록 하기 위함이다. 이번 review는 2번에 대해서 의문을 가진 논문을 알아본다.기본적으로 2번을 성취하기 위해서는 다음과 같은 수식이 필요하다. $L_{KLD} = \beta \times KLD (\pi_{refer}, \pi_{\theta})$$\beta$의 크기에 따라 reference model을 얼마만큼 따를 것이고 반대로 그렇지 않을 ..
2024.09.04 -
[코드 이모저모] Flax library -1
Flax는 Jax와 연동되는 library.기본적인 Network architecture를 제공 [e.g. Dense, Conv ,...]간단하게 torch.nn.Linear, torch.nn.Conv1d,.. 를 사용할 수 있도록 함. 대표적인 사용 예시는 아래와 같음1. Dense Layer [torch.nn.Linear]import jaximport flax.linen as nnfrom typing import Sequnece, Callabledef default_init(scale: Optional[float] = jnp.sqrt(2)): return nn.initializers.orthogonal(scale)class Linear(nn.Module) hidden_layers: Sequnec..
2024.07.23 -
[코드 이모저모] Jax Device print error
import jaxprint(jax.devices())위 코드를 실행하면 아래와 같은 에러가 나왔음.WARNING: Logging before InitGoogle() is written to STDERRI0000 00:00:1721141137.213010 8925 singleton_tpu_states_manager.cc:45] TpuStatesManager::GetOrCreate(): no tpu system exists. Creating a new tpu system.F0000 00:00:1721141137.223216 8925 b295d63588a.cc:1205] File: InitGoogle() has not finished yet. See gl_______________________..
2024.07.16 -
[RLHF] Direct Preference-based Policy Optimization without Reward Modeling
논문 링크https://arxiv.org/pdf/2301.12842 keyword: Preference based Reinforcement Learning [PbRL], offline learning, Unlabelled dataset, Transformer, Contrastive learning 1. AbstractPbRL은 학습자가 인간의 선호를 학습하는 방법을 이야기함. 해당 방법은 크게 두가지 단계로 볼 수 있음.1. 주어진 preference dataset을 통해 reward model 학습2. 1에서 학습된 Reward model을 통해 학습자 학습그러나 해당 방법들은 정확도가 높은 reward model을 얻기 어렵다는 문제가 있음. [특히 해당 문제는 labeler가 인간인 경우 더욱 어려..
2024.07.04 -
[RLHF] Direct Preference Optimization:Your Language Model is Secretly a Reward Model
논문 링크https://arxiv.org/pdf/2305.18290 해당 리뷰는 수식 유도는 생략 Keywords:Reinforcement Learning Human Feedback[RLHF], Point-wise comparison or Bandit, Direct Preference Optimization, Offline learning1. Abstract1.1. 기존 RLHF의 문제기존 RLHF의 방법은 복잡하고 불안전한 능력을 보여줌. 해당 이유는 아래와 같음1. 인간의 선호[preference]를 반영한 Reward model의 문제2. 강화학습을 통해 원래의 모델을 미세 조정[fine-tuning]하는 단계에서의 문제. 1.2. 본 논문이 제시하는 바해당 문제들을 해결하기 위해서 본 논문은 간..
2024.07.01 -
[RL]Offline-to-Online Reinforcement Learning via Balanced Replay and Pessimistic Q-Ensemble
https://arxiv.org/pdf/2107.00591 Keywords: Deep Reinforcement Learning, Offline RL, Fine-tuning요약Offline learning 이후 Online learning 을 무작정 진행하게 되면, offline learning으로 얻은 pretrained policy가 초기화 될 수 있음.이는1. offline dataset과 online dataset의 distribution shift로 인한 Out-of-Distribution.2. unseen action에 대한 Q function의 overestimation으로 인한 Out-of-Distribution. 방법론은... 그저 그럼, 그냥 해당 논문을 통해 offline RL to ..
2024.06.25