[RL]Offline-to-Online Reinforcement Learning via Balanced Replay and Pessimistic Q-Ensemble
https://arxiv.org/pdf/2107.00591 Keywords: Deep Reinforcement Learning, Offline RL, Fine-tuning요약Offline learning 이후 Online learning 을 무작정 진행하게 되면, offline learning으로 얻은 pretrained policy가 초기화 될 수 있음.이는1. offline dataset과 online dataset의 distribution shift로 인한 Out-of-Distribution.2. unseen action에 대한 Q function의 overestimation으로 인한 Out-of-Distribution. 방법론은... 그저 그럼, 그냥 해당 논문을 통해 offline RL to ..