🔁 2장 이론 (4): 정책 개선, 정책 반복, 그리고 가치 반복🧭 정책 개선 (Policy Improvement)정책 개선이란?정책 개선은 현재 정책에 따라 계산된 상태가치 ( V_π(s) ) 를 기반으로,각 상태에서 가장 높은 행동가치 ( Q_π(s,a) ) 를 갖는 행동을 선택해 새로운 정책으로 바꾸는 과정이다. π*(s) = argmaxₐ Q_π(s, a)argmax는 가능한 행동 중 행동가치가 가장 큰 행동을 선택최적의 행동만을 선택한 것이 최적 정책 π*정책이 변경되지 않으면 개선이 완료된 것으로 보고, 반복을 종료🔄 정책 반복 (Policy Iteration)Prediction과 ControlPrediction: 현재 정책 π를 이용해 상태가치 ( V_π )를 계산하는 과정 (정책 평가..