
시간차 학습의 Prediction지금까지 배운 동적계획법과 몬테카를로 방법을 정리하면 그림 2.59와 같다. 동적계획법은 환경에 대한 정보를 알고 있어 상태전이확률 ( P(s'|s,a) )을 이용해 상태가치함수를 학습한다. 반면, 일반적인 경우에는 환경 정보를 알기 어렵기 때문에 몬테카를로 방법처럼 에피소드를 반복하여 상태가치함수를 추정하는 방식이 사용된다.몬테카를로 방법의 한계환경에 대한 정보 없이 학습이 가능하지만, 반드시 에피소드가 끝나야 수익을 계산할 수 있다는 제약이 있다. 즉, 바둑이나 미로 탐색처럼 종료 조건이 있는 문제에는 적합하지만, 생산 라인 최적화나 주식시장처럼 종료되지 않는 문제에는 적용이 어렵다.이러한 한계를 극복하고자 동적계획법과 몬테카를로 방법의 장점을 결합한 시간차 학습(Te..