Reinforcement Learning Visual Lab

강화학습이 보상을 따라 학습하는 과정을 눈으로 확인하세요

에이전트가 격자 세계를 탐험하며 Q값, 정책, 누적 보상을 업데이트합니다. 알고리즘을 바꾸면 탐험 방식과 학습 곡선이 어떻게 달라지는지 바로 비교할 수 있습니다.

0 Episodes
0.0 Avg Reward
0% Success

GridWorld 학습 공간

오프 정책 TD 방식으로 다음 상태의 최대 Q값을 이용해 갱신합니다.

현재 보상 0.0