심화 강화학습 시스템이 현실 세계 환경과 유용하게 상호작용하려면 복잡한 목표를 이 시스템에게 전달해야 합니다. 이 연구에서는 여러분이 결정한 경로 세그먼트들 사이의 복잡한 목표를 시스템에게 전달하는 방법을 탐구합니다. 이러한 방식으로 우리는 보상 함수에 대한 액세스 없이 Atari 게임 및 시뮬레이션 로봇 이동 등 복잡한 강화학습 과제를 효과적으로 해결할 수 있음을 보여줍니다. 이는 환경과 상호작용하는 에이전트의 인터랙션 중 1% 미만에 대한 피드백을 제공하면서 인간 감독 비용을 줄이는 것을 의미합니다. 이 방법의 유연성을 증명하기 위해, 논문은 약 1시간 동안 복잡한 새로운 행동을 성공적으로 훈련시킬 수 있었습니다.
5. 2. Methods
1. enables us to solve tasks for which we can
only recognize the desired behavior, but not
necessarily demonstrate it.
2. allows agents to be taught by non-expert
users.
3. scales to large problems, and
4. is economical with user feedback.
7. 2. Methods
Trajectory segments : a sequence of observation states and actions states
Quantitative evaluation from human’s preferences
From a reward function (r) -> Maximize the discounted sum of rewards.
9. 2. Methods
Assuming human’s judgments preferring a segment on the value of the latent reward summation
Minimize the cross-entropy loss between predictions and human labels