Reinforcement Learning Visual Lab

강화학습이 보상을 따라 학습하는 과정을 눈으로 확인하세요

에이전트가 격자 세계를 탐험하며 Q값, 정책, 누적 보상을 업데이트합니다. 알고리즘을 바꾸면 탐험 방식과 학습 곡선이 어떻게 달라지는지 바로 비교할 수 있습니다.

0 Episodes

0.0 Avg Reward

0% Success

알고리즘

Q-Learning

학습 방법

탐험 ε 0.25 학습률 α 0.45 할인율 γ 0.92 속도 120ms

시작점

목표 보상 +10

위험 구역 -8

벽

에이전트