📘 2장 이론: 상태가치와 벨만 방정식❓ 에이전트는 어떻게 보상을 최대화하는 행동을 학습할까?에이전트는 각 상태 또는 상태에서 가능한 행동들의 가치를 수치화한 후, 그 중 가장 가치가 높은 선택지를 고르는 방식으로 학습한다.즉, 상태가치(state-value) 또는 행동가치(action-value)를 기준으로 행동을 결정한다.📊 상태가치와 행동가치 (그림 2.19)그림 2.19a는 각 상태의 상태가치(V)를 나타낸다.도착지점에 가까울수록 상태가치가 높다.에이전트는 어디서든 가치가 높은 이웃 상태를 따라 이동하게 된다.그림 2.19b는 각 상태에서 선택할 수 있는 행동들의 가치(Q)를 보여준다.에이전트는 각 상태에서 행동가치가 가장 높은 행동을 선택해 도착지점에 도달한다.이처럼 강화학습은 수익 G를 기..