전체 글(8)
-
[Exploration Method] Smooth Exploration for Robotic ReinforcementLearning
논문: https://arxiv.org/pdf/2005.05719 논문에 대한 간략 설명강화학습 하면 생각나는게 두 가지가 있다. 첫 번째로 대표적인 강화학습 pytorch library인 Stable-baselines3 두 번째로 Exploration과 Exploritation 해당 논문은 Stable-baselines3를 만든 사람이 낸 논문이다. Exploration 중에 robotics에 관련한 방법론을 제시한 논문이다. 강화학습을 사용해보았던 모든 이들에게 아래와 같은 문제가 되는 것이 있을 것이다. 강화학습을 적용하기에는 비현실적인 행동[Shaky behavior]이 너무 많다. 해당 논문은 위와 같은 원인을 Exploration에 있다고 본다. 따라서 본 논문은 이를 해결하기 위한 새로운 E..
2024.11.04 -
[딥러닝] Maximum Mean Discrepancy 에 대해서
Maximum Mean Discrepancy한국명: 최대 평균 불일치[차이]본 글을 시작하기에 앞서 해당 Loss는 Domain Adaptation에 주로 사용되는 Loss 중 하나이다. 많은 자료들이 있었지만, 나에게는 명확한 직관을 제공하지 못했다. 따라서 해당 글을 작성하게 되었다. Maximum Mean DIscrepancy다양한 자료들에서 중복된 이야기가 있다. 두 개의 분포의 차이를 계산하는 Loss 어떤 시각으로 차이를 계산할까? 가령 정보이론에서 사용되는 Kullback-Leibler divergence 의 경우 두 분포간의 Entropy 차리를 통해 계산한다. 그렇다면 해당 MMD[Maximum Mean Discrepancy]는 어떨까? Moment [물리에서의 Moment와 다름]이를..
2024.10.03 -
[RLHF] β-DPO: Direct Preference Optimizationwith Dynamic β
DPO model이나 Preference Based PPO는 필연적으로 reference model이 필요하다.1. 이는 reference model의 output을 이용하여 좋고 나쁨을 명확하게 구분이 가능하도록 하기 위함이며2. model이 reward model에 너무 빨려들어가지 않도록 하기 위함이다. 이번 review는 2번에 대해서 의문을 가진 논문을 알아본다.기본적으로 2번을 성취하기 위해서는 다음과 같은 수식이 필요하다. $L_{KLD} = \beta \times KLD (\pi_{refer}, \pi_{\theta})$$\beta$의 크기에 따라 reference model을 얼마만큼 따를 것이고 반대로 그렇지 않을 ..
2024.09.04 -
[코드 이모저모] Flax library -1
Flax는 Jax와 연동되는 library.기본적인 Network architecture를 제공 [e.g. Dense, Conv ,...]간단하게 torch.nn.Linear, torch.nn.Conv1d,.. 를 사용할 수 있도록 함. 대표적인 사용 예시는 아래와 같음1. Dense Layer [torch.nn.Linear]import jaximport flax.linen as nnfrom typing import Sequnece, Callabledef default_init(scale: Optional[float] = jnp.sqrt(2)): return nn.initializers.orthogonal(scale)class Linear(nn.Module) hidden_layers: Sequnec..
2024.07.23 -
[코드 이모저모] Jax Device print error
import jaxprint(jax.devices())위 코드를 실행하면 아래와 같은 에러가 나왔음.WARNING: Logging before InitGoogle() is written to STDERRI0000 00:00:1721141137.213010 8925 singleton_tpu_states_manager.cc:45] TpuStatesManager::GetOrCreate(): no tpu system exists. Creating a new tpu system.F0000 00:00:1721141137.223216 8925 b295d63588a.cc:1205] File: InitGoogle() has not finished yet. See gl_______________________..
2024.07.16 -
[RLHF] Direct Preference-based Policy Optimization without Reward Modeling
논문 링크https://arxiv.org/pdf/2301.12842 keyword: Preference based Reinforcement Learning [PbRL], offline learning, Unlabelled dataset, Transformer, Contrastive learning 1. AbstractPbRL은 학습자가 인간의 선호를 학습하는 방법을 이야기함. 해당 방법은 크게 두가지 단계로 볼 수 있음.1. 주어진 preference dataset을 통해 reward model 학습2. 1에서 학습된 Reward model을 통해 학습자 학습그러나 해당 방법들은 정확도가 높은 reward model을 얻기 어렵다는 문제가 있음. [특히 해당 문제는 labeler가 인간인 경우 더욱 어려..
2024.07.04