몬테카를로 방법을 이용한 상태가치 함수 추정 (Prediction)강화학습에서 상태가치를 구하기 위한 수식은 다음과 같다:V_π(s) = ∑_a π(a|s) ∑_{s'} P(s'|s,a) [r(s,a,s')] + γV_π(s')이 수식을 계산하려면 다음 항목이 필요하다:정책 π(a|s)상태전이확률 P(s'|s,a)보상 r(s,a,s')감가율 γ다음 상태의 가치 V_π(s')특히 상태전이확률을 알 수 없다면 계산이 불가능하다.동적계획법과 실제 환경의 차이동적계획법은 환경의 정보를 완전히 알고 있으며, 결정론적 환경(P(s'|s,a) = 1)을 전제한다. 하지만 실제 환경은 불확실성이 존재한다. 예를 들어, 빙판길에서 앞으로 한 걸음 내딛었을 때 발생할 수 있는 결과는 다음과 같다:P(전진 | 빙판길, 앞으..