Processing math: 100%

DingDingGi

direct preference-based policy optimization 논문 리뷰 $1$

[RLHF] Direct Preference-based Policy Optimization without Reward Modeling
논문 링크https://arxiv.org/pdf/2301.12842 keyword: Preference based Reinforcement Learning [PbRL], offline learning, Unlabelled dataset, Transformer, Contrastive learning 1. AbstractPbRL은 학습자가 인간의 선호를 학습하는 방법을 이야기함. 해당 방법은 크게 두가지 단계로 볼 수 있음.1. 주어진 preference dataset을 통해 reward model 학습2. 1에서 학습된 Reward model을 통해 학습자 학습그러나 해당 방법들은 정확도가 높은 reward model을 얻기 어렵다는 문제가 있음. [특히 해당 문제는 labeler가 인간인 경우 더욱 어려..
2024.07.04

1

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

블로그 게시글

글 수정 $권한 있는 경우$	`E` `E`
댓글 영역으로 이동	`C` `C`

모든 영역

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.